{"loss": 1.74862576, "token_acc": 0.65461847, "grad_norm": 64.78370667, "learning_rate": 1.6e-07, "memory(GiB)": 60.95, "train_speed(iter/s)": 0.017239, "epoch": 0.0008089, "global_step/max_steps": "1/1237", "percentage": "0.08%", "elapsed_time": "51s", "remaining_time": "17h 42m 17s"}
{"loss": 1.77733922, "token_acc": 0.63414634, "grad_norm": 68.59134674, "learning_rate": 3.2e-07, "memory(GiB)": 71.88, "train_speed(iter/s)": 0.019622, "epoch": 0.0016178, "global_step/max_steps": "2/1237", "percentage": "0.16%", "elapsed_time": "1m 35s", "remaining_time": "16h 22m 42s"}
{"loss": 1.80618513, "token_acc": 0.61956522, "grad_norm": 64.73936462, "learning_rate": 4.8e-07, "memory(GiB)": 71.9, "train_speed(iter/s)": 0.020613, "epoch": 0.00242669, "global_step/max_steps": "3/1237", "percentage": "0.24%", "elapsed_time": "2m 19s", "remaining_time": "15h 53m 35s"}
{"loss": 1.80729556, "token_acc": 0.56542056, "grad_norm": 65.57299805, "learning_rate": 6.5e-07, "memory(GiB)": 72.45, "train_speed(iter/s)": 0.021122, "epoch": 0.00323559, "global_step/max_steps": "4/1237", "percentage": "0.32%", "elapsed_time": "3m 2s", "remaining_time": "15h 39m 50s"}
{"loss": 1.51667726, "token_acc": 0.63274336, "grad_norm": 65.35359192, "learning_rate": 8.1e-07, "memory(GiB)": 72.45, "train_speed(iter/s)": 0.021426, "epoch": 0.00404449, "global_step/max_steps": "5/1237", "percentage": "0.40%", "elapsed_time": "3m 46s", "remaining_time": "15h 31m 52s"}
{"loss": 1.57256591, "token_acc": 0.65919283, "grad_norm": 57.62404633, "learning_rate": 9.7e-07, "memory(GiB)": 72.45, "train_speed(iter/s)": 0.021622, "epoch": 0.00485339, "global_step/max_steps": "6/1237", "percentage": "0.49%", "elapsed_time": "4m 31s", "remaining_time": "15h 26m 50s"}
{"loss": 1.62815583, "token_acc": 0.60674157, "grad_norm": 41.64131927, "learning_rate": 1.13e-06, "memory(GiB)": 72.45, "train_speed(iter/s)": 0.02179, "epoch": 0.00566229, "global_step/max_steps": "7/1237", "percentage": "0.57%", "elapsed_time": "5m 14s", "remaining_time": "15h 21m 56s"}
{"loss": 1.68831491, "token_acc": 0.64238411, "grad_norm": 40.0660553, "learning_rate": 1.29e-06, "memory(GiB)": 72.45, "train_speed(iter/s)": 0.021906, "epoch": 0.00647118, "global_step/max_steps": "8/1237", "percentage": "0.65%", "elapsed_time": "5m 58s", "remaining_time": "15h 18m 32s"}
{"loss": 1.46008563, "token_acc": 0.66834171, "grad_norm": 23.832304, "learning_rate": 1.45e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022001, "epoch": 0.00728008, "global_step/max_steps": "9/1237", "percentage": "0.73%", "elapsed_time": "6m 42s", "remaining_time": "15h 15m 37s"}
{"loss": 1.17804801, "token_acc": 0.69955157, "grad_norm": 19.52027702, "learning_rate": 1.61e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022088, "epoch": 0.00808898, "global_step/max_steps": "10/1237", "percentage": "0.81%", "elapsed_time": "7m 26s", "remaining_time": "15h 12m 40s"}
{"loss": 1.225492, "token_acc": 0.68032787, "grad_norm": 22.56518936, "learning_rate": 1.77e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022154, "epoch": 0.00889788, "global_step/max_steps": "11/1237", "percentage": "0.89%", "elapsed_time": "8m 10s", "remaining_time": "15h 10m 22s"}
{"loss": 1.05736876, "token_acc": 0.75769231, "grad_norm": 15.46203804, "learning_rate": 1.94e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.02221, "epoch": 0.00970677, "global_step/max_steps": "12/1237", "percentage": "0.97%", "elapsed_time": "8m 53s", "remaining_time": "15h 8m 18s"}
{"loss": 1.07218277, "token_acc": 0.74058577, "grad_norm": 14.24515247, "learning_rate": 2.1e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022257, "epoch": 0.01051567, "global_step/max_steps": "13/1237", "percentage": "1.05%", "elapsed_time": "9m 37s", "remaining_time": "15h 6m 26s"}
{"loss": 0.87533975, "token_acc": 0.75167785, "grad_norm": 8.20459652, "learning_rate": 2.26e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022297, "epoch": 0.01132457, "global_step/max_steps": "14/1237", "percentage": "1.13%", "elapsed_time": "10m 21s", "remaining_time": "15h 4m 47s"}
{"loss": 0.94246161, "token_acc": 0.74110032, "grad_norm": 11.06650734, "learning_rate": 2.42e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022325, "epoch": 0.01213347, "global_step/max_steps": "15/1237", "percentage": "1.21%", "elapsed_time": "11m 5s", "remaining_time": "15h 3m 32s"}
{"loss": 0.91651058, "token_acc": 0.7902439, "grad_norm": 8.13440609, "learning_rate": 2.58e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022352, "epoch": 0.01294237, "global_step/max_steps": "16/1237", "percentage": "1.29%", "elapsed_time": "11m 49s", "remaining_time": "15h 2m 14s"}
{"loss": 0.86772364, "token_acc": 0.76356589, "grad_norm": 14.99075508, "learning_rate": 2.74e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.02238, "epoch": 0.01375126, "global_step/max_steps": "17/1237", "percentage": "1.37%", "elapsed_time": "12m 33s", "remaining_time": "15h 0m 50s"}
{"loss": 0.77957296, "token_acc": 0.77399381, "grad_norm": 5.65842342, "learning_rate": 2.9e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022403, "epoch": 0.01456016, "global_step/max_steps": "18/1237", "percentage": "1.46%", "elapsed_time": "13m 17s", "remaining_time": "14h 59m 36s"}
{"loss": 0.85909617, "token_acc": 0.75, "grad_norm": 5.55913115, "learning_rate": 3.06e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022423, "epoch": 0.01536906, "global_step/max_steps": "19/1237", "percentage": "1.54%", "elapsed_time": "14m 0s", "remaining_time": "14h 58m 25s"}
{"loss": 0.76507336, "token_acc": 0.78656126, "grad_norm": 4.8717165, "learning_rate": 3.23e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022441, "epoch": 0.01617796, "global_step/max_steps": "20/1237", "percentage": "1.62%", "elapsed_time": "14m 44s", "remaining_time": "14h 57m 19s"}
{"loss": 0.74046528, "token_acc": 0.79078014, "grad_norm": 5.38727522, "learning_rate": 3.39e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022456, "epoch": 0.01698686, "global_step/max_steps": "21/1237", "percentage": "1.70%", "elapsed_time": "15m 28s", "remaining_time": "14h 56m 17s"}
{"loss": 0.80677503, "token_acc": 0.79861111, "grad_norm": 6.13148069, "learning_rate": 3.55e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022476, "epoch": 0.01779575, "global_step/max_steps": "22/1237", "percentage": "1.78%", "elapsed_time": "16m 12s", "remaining_time": "14h 55m 3s"}
{"loss": 0.81323147, "token_acc": 0.77142857, "grad_norm": 5.18368149, "learning_rate": 3.71e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022492, "epoch": 0.01860465, "global_step/max_steps": "23/1237", "percentage": "1.86%", "elapsed_time": "16m 56s", "remaining_time": "14h 53m 55s"}
{"loss": 0.72044396, "token_acc": 0.79059829, "grad_norm": 5.0633831, "learning_rate": 3.87e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022506, "epoch": 0.01941355, "global_step/max_steps": "24/1237", "percentage": "1.94%", "elapsed_time": "17m 39s", "remaining_time": "14h 52m 50s"}
{"loss": 0.76739144, "token_acc": 0.74534161, "grad_norm": 4.75313091, "learning_rate": 4.03e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022518, "epoch": 0.02022245, "global_step/max_steps": "25/1237", "percentage": "2.02%", "elapsed_time": "18m 23s", "remaining_time": "14h 51m 52s"}
{"loss": 0.67556345, "token_acc": 0.77142857, "grad_norm": 4.11282444, "learning_rate": 4.19e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.02253, "epoch": 0.02103134, "global_step/max_steps": "26/1237", "percentage": "2.10%", "elapsed_time": "19m 7s", "remaining_time": "14h 50m 50s"}
{"loss": 0.68571353, "token_acc": 0.84474886, "grad_norm": 3.7041297, "learning_rate": 4.35e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022541, "epoch": 0.02184024, "global_step/max_steps": "27/1237", "percentage": "2.18%", "elapsed_time": "19m 51s", "remaining_time": "14h 49m 51s"}
{"loss": 0.74361402, "token_acc": 0.74900398, "grad_norm": 4.38500118, "learning_rate": 4.52e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022549, "epoch": 0.02264914, "global_step/max_steps": "28/1237", "percentage": "2.26%", "elapsed_time": "20m 35s", "remaining_time": "14h 48m 58s"}
{"loss": 0.72934103, "token_acc": 0.82481752, "grad_norm": 5.38566732, "learning_rate": 4.68e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022558, "epoch": 0.02345804, "global_step/max_steps": "29/1237", "percentage": "2.34%", "elapsed_time": "21m 19s", "remaining_time": "14h 48m 1s"}
{"loss": 0.66762853, "token_acc": 0.78448276, "grad_norm": 5.81690216, "learning_rate": 4.84e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022568, "epoch": 0.02426694, "global_step/max_steps": "30/1237", "percentage": "2.43%", "elapsed_time": "22m 2s", "remaining_time": "14h 47m 3s"}
{"loss": 0.68328488, "token_acc": 0.83408072, "grad_norm": 3.93581295, "learning_rate": 5e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022574, "epoch": 0.02507583, "global_step/max_steps": "31/1237", "percentage": "2.51%", "elapsed_time": "22m 46s", "remaining_time": "14h 46m 14s"}
{"loss": 0.67940414, "token_acc": 0.78571429, "grad_norm": 3.94005823, "learning_rate": 5.16e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022581, "epoch": 0.02588473, "global_step/max_steps": "32/1237", "percentage": "2.59%", "elapsed_time": "23m 30s", "remaining_time": "14h 45m 20s"}
{"loss": 0.62800968, "token_acc": 0.8277512, "grad_norm": 6.04997253, "learning_rate": 5.32e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022589, "epoch": 0.02669363, "global_step/max_steps": "33/1237", "percentage": "2.67%", "elapsed_time": "24m 14s", "remaining_time": "14h 44m 24s"}
{"loss": 0.7461614, "token_acc": 0.74429224, "grad_norm": 4.96337223, "learning_rate": 5.48e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022594, "epoch": 0.02750253, "global_step/max_steps": "34/1237", "percentage": "2.75%", "elapsed_time": "24m 58s", "remaining_time": "14h 43m 35s"}
{"loss": 0.63252169, "token_acc": 0.82397004, "grad_norm": 4.87405586, "learning_rate": 5.65e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022602, "epoch": 0.02831143, "global_step/max_steps": "35/1237", "percentage": "2.83%", "elapsed_time": "25m 42s", "remaining_time": "14h 42m 40s"}
{"loss": 0.6098758, "token_acc": 0.85, "grad_norm": 4.29545975, "learning_rate": 5.81e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022606, "epoch": 0.02912032, "global_step/max_steps": "36/1237", "percentage": "2.91%", "elapsed_time": "26m 26s", "remaining_time": "14h 41m 52s"}
{"loss": 0.67202258, "token_acc": 0.76752768, "grad_norm": 4.48664045, "learning_rate": 5.97e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022613, "epoch": 0.02992922, "global_step/max_steps": "37/1237", "percentage": "2.99%", "elapsed_time": "27m 9s", "remaining_time": "14h 40m 58s"}
{"loss": 0.70079833, "token_acc": 0.74468085, "grad_norm": 3.97554302, "learning_rate": 6.13e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022618, "epoch": 0.03073812, "global_step/max_steps": "38/1237", "percentage": "3.07%", "elapsed_time": "27m 53s", "remaining_time": "14h 40m 6s"}
{"loss": 0.62281764, "token_acc": 0.81165919, "grad_norm": 3.85732102, "learning_rate": 6.29e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022625, "epoch": 0.03154702, "global_step/max_steps": "39/1237", "percentage": "3.15%", "elapsed_time": "28m 37s", "remaining_time": "14h 39m 11s"}
{"loss": 0.62834811, "token_acc": 0.80350877, "grad_norm": 3.55661249, "learning_rate": 6.45e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.02263, "epoch": 0.03235592, "global_step/max_steps": "40/1237", "percentage": "3.23%", "elapsed_time": "29m 21s", "remaining_time": "14h 38m 20s"}
{"loss": 0.67935097, "token_acc": 0.81749049, "grad_norm": 5.60026598, "learning_rate": 6.61e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022635, "epoch": 0.03316481, "global_step/max_steps": "41/1237", "percentage": "3.31%", "elapsed_time": "30m 4s", "remaining_time": "14h 37m 29s"}
{"loss": 0.6385988, "token_acc": 0.8125, "grad_norm": 3.72835541, "learning_rate": 6.77e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022639, "epoch": 0.03397371, "global_step/max_steps": "42/1237", "percentage": "3.40%", "elapsed_time": "30m 48s", "remaining_time": "14h 36m 40s"}
{"loss": 0.65328896, "token_acc": 0.82978723, "grad_norm": 3.86243033, "learning_rate": 6.94e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022644, "epoch": 0.03478261, "global_step/max_steps": "43/1237", "percentage": "3.48%", "elapsed_time": "31m 32s", "remaining_time": "14h 35m 50s"}
{"loss": 0.57901424, "token_acc": 0.83450704, "grad_norm": 3.67064881, "learning_rate": 7.1e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022648, "epoch": 0.03559151, "global_step/max_steps": "44/1237", "percentage": "3.56%", "elapsed_time": "32m 16s", "remaining_time": "14h 34m 59s"}
{"loss": 0.58598953, "token_acc": 0.82919255, "grad_norm": 3.91847754, "learning_rate": 7.26e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022651, "epoch": 0.0364004, "global_step/max_steps": "45/1237", "percentage": "3.64%", "elapsed_time": "33m 0s", "remaining_time": "14h 34m 14s"}
{"loss": 0.57049823, "token_acc": 0.85427136, "grad_norm": 3.94393253, "learning_rate": 7.42e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022655, "epoch": 0.0372093, "global_step/max_steps": "46/1237", "percentage": "3.72%", "elapsed_time": "33m 44s", "remaining_time": "14h 33m 25s"}
{"loss": 0.62391835, "token_acc": 0.79847909, "grad_norm": 4.14223099, "learning_rate": 7.58e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022657, "epoch": 0.0380182, "global_step/max_steps": "47/1237", "percentage": "3.80%", "elapsed_time": "34m 27s", "remaining_time": "14h 32m 39s"}
{"loss": 0.58150589, "token_acc": 0.81865285, "grad_norm": 4.20795155, "learning_rate": 7.74e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022662, "epoch": 0.0388271, "global_step/max_steps": "48/1237", "percentage": "3.88%", "elapsed_time": "35m 11s", "remaining_time": "14h 31m 47s"}
{"loss": 0.65111059, "token_acc": 0.809375, "grad_norm": 4.37542915, "learning_rate": 7.9e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022666, "epoch": 0.039636, "global_step/max_steps": "49/1237", "percentage": "3.96%", "elapsed_time": "35m 55s", "remaining_time": "14h 30m 57s"}
{"loss": 0.67559057, "token_acc": 0.80349345, "grad_norm": 4.13794994, "learning_rate": 8.06e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.02267, "epoch": 0.04044489, "global_step/max_steps": "50/1237", "percentage": "4.04%", "elapsed_time": "36m 39s", "remaining_time": "14h 30m 6s"}
{"loss": 0.55811423, "token_acc": 0.81865285, "grad_norm": 4.10739136, "learning_rate": 8.23e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022672, "epoch": 0.04125379, "global_step/max_steps": "51/1237", "percentage": "4.12%", "elapsed_time": "37m 23s", "remaining_time": "14h 29m 20s"}
{"loss": 0.56468046, "token_acc": 0.79432624, "grad_norm": 3.22820449, "learning_rate": 8.39e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022674, "epoch": 0.04206269, "global_step/max_steps": "52/1237", "percentage": "4.20%", "elapsed_time": "38m 6s", "remaining_time": "14h 28m 35s"}
{"loss": 0.59882772, "token_acc": 0.80229226, "grad_norm": 3.67917109, "learning_rate": 8.55e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022675, "epoch": 0.04287159, "global_step/max_steps": "53/1237", "percentage": "4.28%", "elapsed_time": "38m 50s", "remaining_time": "14h 27m 52s"}
{"loss": 0.66354048, "token_acc": 0.76811594, "grad_norm": 4.38633442, "learning_rate": 8.71e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022674, "epoch": 0.04368049, "global_step/max_steps": "54/1237", "percentage": "4.37%", "elapsed_time": "39m 35s", "remaining_time": "14h 27m 13s"}
{"loss": 0.5942539, "token_acc": 0.86328125, "grad_norm": 5.16645575, "learning_rate": 8.87e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022677, "epoch": 0.04448938, "global_step/max_steps": "55/1237", "percentage": "4.45%", "elapsed_time": "40m 18s", "remaining_time": "14h 26m 25s"}
{"loss": 0.58735639, "token_acc": 0.79238754, "grad_norm": 5.15655327, "learning_rate": 9.03e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022677, "epoch": 0.04529828, "global_step/max_steps": "56/1237", "percentage": "4.53%", "elapsed_time": "41m 2s", "remaining_time": "14h 25m 42s"}
{"loss": 0.5179652, "token_acc": 0.82867133, "grad_norm": 3.327914, "learning_rate": 9.19e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022681, "epoch": 0.04610718, "global_step/max_steps": "57/1237", "percentage": "4.61%", "elapsed_time": "41m 46s", "remaining_time": "14h 24m 53s"}
{"loss": 0.66547132, "token_acc": 0.81228669, "grad_norm": 3.1475544, "learning_rate": 9.35e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022683, "epoch": 0.04691608, "global_step/max_steps": "58/1237", "percentage": "4.69%", "elapsed_time": "42m 30s", "remaining_time": "14h 24m 6s"}
{"loss": 0.5465582, "token_acc": 0.828125, "grad_norm": 3.95176792, "learning_rate": 9.52e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022686, "epoch": 0.04772497, "global_step/max_steps": "59/1237", "percentage": "4.77%", "elapsed_time": "43m 14s", "remaining_time": "14h 23m 17s"}
{"loss": 0.62061214, "token_acc": 0.82589286, "grad_norm": 3.60607505, "learning_rate": 9.68e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022687, "epoch": 0.04853387, "global_step/max_steps": "60/1237", "percentage": "4.85%", "elapsed_time": "43m 58s", "remaining_time": "14h 22m 33s"}
{"loss": 0.62450874, "token_acc": 0.80508475, "grad_norm": 4.13066149, "learning_rate": 9.84e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02269, "epoch": 0.04934277, "global_step/max_steps": "61/1237", "percentage": "4.93%", "elapsed_time": "44m 42s", "remaining_time": "14h 21m 45s"}
{"loss": 0.61837447, "token_acc": 0.82296651, "grad_norm": 4.40829039, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022694, "epoch": 0.05015167, "global_step/max_steps": "62/1237", "percentage": "5.01%", "elapsed_time": "45m 25s", "remaining_time": "14h 20m 54s"}
{"loss": 0.56002069, "token_acc": 0.83643123, "grad_norm": 3.75025225, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022695, "epoch": 0.05096057, "global_step/max_steps": "63/1237", "percentage": "5.09%", "elapsed_time": "46m 9s", "remaining_time": "14h 20m 8s"}
{"loss": 0.55268729, "token_acc": 0.81654676, "grad_norm": 4.59515667, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022697, "epoch": 0.05176946, "global_step/max_steps": "64/1237", "percentage": "5.17%", "elapsed_time": "46m 53s", "remaining_time": "14h 19m 22s"}
{"loss": 0.49836826, "token_acc": 0.87428571, "grad_norm": 4.10991907, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022698, "epoch": 0.05257836, "global_step/max_steps": "65/1237", "percentage": "5.25%", "elapsed_time": "47m 37s", "remaining_time": "14h 18m 37s"}
{"loss": 0.62589133, "token_acc": 0.82352941, "grad_norm": 4.29117823, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.0227, "epoch": 0.05338726, "global_step/max_steps": "66/1237", "percentage": "5.34%", "elapsed_time": "48m 21s", "remaining_time": "14h 17m 52s"}
{"loss": 0.60554719, "token_acc": 0.75, "grad_norm": 4.95054007, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.0227, "epoch": 0.05419616, "global_step/max_steps": "67/1237", "percentage": "5.42%", "elapsed_time": "49m 5s", "remaining_time": "14h 17m 8s"}
{"loss": 0.57712859, "token_acc": 0.80075188, "grad_norm": 4.78480768, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022702, "epoch": 0.05500506, "global_step/max_steps": "68/1237", "percentage": "5.50%", "elapsed_time": "49m 48s", "remaining_time": "14h 16m 23s"}
{"loss": 0.56020975, "token_acc": 0.85, "grad_norm": 4.72335672, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022704, "epoch": 0.05581395, "global_step/max_steps": "69/1237", "percentage": "5.58%", "elapsed_time": "50m 32s", "remaining_time": "14h 15m 36s"}
{"loss": 0.5948894, "token_acc": 0.85972851, "grad_norm": 3.28011823, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022706, "epoch": 0.05662285, "global_step/max_steps": "70/1237", "percentage": "5.66%", "elapsed_time": "51m 16s", "remaining_time": "14h 14m 49s"}
{"loss": 0.61545491, "token_acc": 0.7639485, "grad_norm": 3.69231296, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022708, "epoch": 0.05743175, "global_step/max_steps": "71/1237", "percentage": "5.74%", "elapsed_time": "52m 0s", "remaining_time": "14h 14m 1s"}
{"loss": 0.60032809, "token_acc": 0.8415493, "grad_norm": 3.9682765, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02271, "epoch": 0.05824065, "global_step/max_steps": "72/1237", "percentage": "5.82%", "elapsed_time": "52m 43s", "remaining_time": "14h 13m 15s"}
{"loss": 0.54505831, "token_acc": 0.81003584, "grad_norm": 3.52003288, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022712, "epoch": 0.05904954, "global_step/max_steps": "73/1237", "percentage": "5.90%", "elapsed_time": "53m 27s", "remaining_time": "14h 12m 27s"}
{"loss": 0.52309787, "token_acc": 0.84722222, "grad_norm": 4.18754435, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022714, "epoch": 0.05985844, "global_step/max_steps": "74/1237", "percentage": "5.98%", "elapsed_time": "54m 11s", "remaining_time": "14h 11m 40s"}
{"loss": 0.52699935, "token_acc": 0.81683168, "grad_norm": 3.55966949, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022715, "epoch": 0.06066734, "global_step/max_steps": "75/1237", "percentage": "6.06%", "elapsed_time": "54m 55s", "remaining_time": "14h 10m 55s"}
{"loss": 0.54591447, "token_acc": 0.76651982, "grad_norm": 3.21377301, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022716, "epoch": 0.06147624, "global_step/max_steps": "76/1237", "percentage": "6.14%", "elapsed_time": "55m 39s", "remaining_time": "14h 10m 11s"}
{"loss": 0.56788605, "token_acc": 0.81230769, "grad_norm": 3.11096334, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022717, "epoch": 0.06228514, "global_step/max_steps": "77/1237", "percentage": "6.22%", "elapsed_time": "56m 23s", "remaining_time": "14h 9m 25s"}
{"loss": 0.5075556, "token_acc": 0.84, "grad_norm": 3.66897297, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022718, "epoch": 0.06309403, "global_step/max_steps": "78/1237", "percentage": "6.31%", "elapsed_time": "57m 6s", "remaining_time": "14h 8m 40s"}
{"loss": 0.52424711, "token_acc": 0.865, "grad_norm": 4.33898354, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022721, "epoch": 0.06390293, "global_step/max_steps": "79/1237", "percentage": "6.39%", "elapsed_time": "57m 50s", "remaining_time": "14h 7m 51s"}
{"loss": 0.61319625, "token_acc": 0.77678571, "grad_norm": 4.06467581, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022722, "epoch": 0.06471183, "global_step/max_steps": "80/1237", "percentage": "6.47%", "elapsed_time": "58m 34s", "remaining_time": "14h 7m 6s"}
{"loss": 0.58876282, "token_acc": 0.7992126, "grad_norm": 3.6171155, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022724, "epoch": 0.06552073, "global_step/max_steps": "81/1237", "percentage": "6.55%", "elapsed_time": "59m 18s", "remaining_time": "14h 6m 20s"}
{"loss": 0.59890002, "token_acc": 0.83464567, "grad_norm": 3.97073746, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022726, "epoch": 0.06632963, "global_step/max_steps": "82/1237", "percentage": "6.63%", "elapsed_time": "1h 0m 1s", "remaining_time": "14h 5m 31s"}
{"loss": 0.6060096, "token_acc": 0.81481481, "grad_norm": 4.36108208, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022728, "epoch": 0.06713852, "global_step/max_steps": "83/1237", "percentage": "6.71%", "elapsed_time": "1h 0m 45s", "remaining_time": "14h 4m 45s"}
{"loss": 0.52001935, "token_acc": 0.85067873, "grad_norm": 3.96772099, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022729, "epoch": 0.06794742, "global_step/max_steps": "84/1237", "percentage": "6.79%", "elapsed_time": "1h 1m 29s", "remaining_time": "14h 3m 59s"}
{"loss": 0.60481536, "token_acc": 0.83916084, "grad_norm": 3.43501186, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022731, "epoch": 0.06875632, "global_step/max_steps": "85/1237", "percentage": "6.87%", "elapsed_time": "1h 2m 12s", "remaining_time": "14h 3m 12s"}
{"loss": 0.55722827, "token_acc": 0.81818182, "grad_norm": 3.54578018, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022732, "epoch": 0.06956522, "global_step/max_steps": "86/1237", "percentage": "6.95%", "elapsed_time": "1h 2m 56s", "remaining_time": "14h 2m 27s"}
{"loss": 0.57535088, "token_acc": 0.88235294, "grad_norm": 3.88521647, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022732, "epoch": 0.07037412, "global_step/max_steps": "87/1237", "percentage": "7.03%", "elapsed_time": "1h 3m 40s", "remaining_time": "14h 1m 44s"}
{"loss": 0.58350897, "token_acc": 0.82262211, "grad_norm": 3.53273082, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022731, "epoch": 0.07118301, "global_step/max_steps": "88/1237", "percentage": "7.11%", "elapsed_time": "1h 4m 24s", "remaining_time": "14h 1m 2s"}
{"loss": 0.52155769, "token_acc": 0.88702929, "grad_norm": 3.05505276, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022732, "epoch": 0.07199191, "global_step/max_steps": "89/1237", "percentage": "7.19%", "elapsed_time": "1h 5m 8s", "remaining_time": "14h 0m 18s"}
{"loss": 0.48848706, "token_acc": 0.87132353, "grad_norm": 3.01935935, "learning_rate": 9.99e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022732, "epoch": 0.07280081, "global_step/max_steps": "90/1237", "percentage": "7.28%", "elapsed_time": "1h 5m 52s", "remaining_time": "13h 59m 34s"}
{"loss": 0.50105482, "token_acc": 0.81045752, "grad_norm": 3.20985436, "learning_rate": 9.98e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022734, "epoch": 0.07360971, "global_step/max_steps": "91/1237", "percentage": "7.36%", "elapsed_time": "1h 6m 36s", "remaining_time": "13h 58m 48s"}
{"loss": 0.54930025, "token_acc": 0.79377432, "grad_norm": 3.68591881, "learning_rate": 9.98e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022734, "epoch": 0.0744186, "global_step/max_steps": "92/1237", "percentage": "7.44%", "elapsed_time": "1h 7m 20s", "remaining_time": "13h 58m 3s"}
{"loss": 0.60335815, "token_acc": 0.84166667, "grad_norm": 3.28142738, "learning_rate": 9.98e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022734, "epoch": 0.0752275, "global_step/max_steps": "93/1237", "percentage": "7.52%", "elapsed_time": "1h 8m 4s", "remaining_time": "13h 57m 20s"}
{"loss": 0.61032814, "token_acc": 0.75892857, "grad_norm": 3.5553441, "learning_rate": 9.98e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022736, "epoch": 0.0760364, "global_step/max_steps": "94/1237", "percentage": "7.60%", "elapsed_time": "1h 8m 48s", "remaining_time": "13h 56m 35s"}
{"loss": 0.54843241, "token_acc": 0.82116788, "grad_norm": 3.5121069, "learning_rate": 9.98e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022736, "epoch": 0.0768453, "global_step/max_steps": "95/1237", "percentage": "7.68%", "elapsed_time": "1h 9m 31s", "remaining_time": "13h 55m 50s"}
{"loss": 0.50951141, "token_acc": 0.83333333, "grad_norm": 2.6635592, "learning_rate": 9.98e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022736, "epoch": 0.0776542, "global_step/max_steps": "96/1237", "percentage": "7.76%", "elapsed_time": "1h 10m 15s", "remaining_time": "13h 55m 7s"}
{"loss": 0.52719343, "token_acc": 0.815625, "grad_norm": 3.56152487, "learning_rate": 9.98e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022737, "epoch": 0.07846309, "global_step/max_steps": "97/1237", "percentage": "7.84%", "elapsed_time": "1h 10m 59s", "remaining_time": "13h 54m 23s"}
{"loss": 0.54738379, "token_acc": 0.84355828, "grad_norm": 4.43908978, "learning_rate": 9.98e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022738, "epoch": 0.07927199, "global_step/max_steps": "98/1237", "percentage": "7.92%", "elapsed_time": "1h 11m 43s", "remaining_time": "13h 53m 36s"}
{"loss": 0.57251507, "token_acc": 0.82624113, "grad_norm": 3.37650299, "learning_rate": 9.98e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022739, "epoch": 0.08008089, "global_step/max_steps": "99/1237", "percentage": "8.00%", "elapsed_time": "1h 12m 27s", "remaining_time": "13h 52m 51s"}
{"loss": 0.59892654, "token_acc": 0.85620915, "grad_norm": 3.8845911, "learning_rate": 9.97e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022741, "epoch": 0.08088979, "global_step/max_steps": "100/1237", "percentage": "8.08%", "elapsed_time": "1h 13m 10s", "remaining_time": "13h 52m 5s"}
{"loss": 0.56622338, "token_acc": 0.82987552, "grad_norm": 3.33655763, "learning_rate": 9.97e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022741, "epoch": 0.08169869, "global_step/max_steps": "101/1237", "percentage": "8.16%", "elapsed_time": "1h 13m 54s", "remaining_time": "13h 51m 20s"}
{"loss": 0.44332606, "token_acc": 0.85865724, "grad_norm": 2.88367987, "learning_rate": 9.97e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022742, "epoch": 0.08250758, "global_step/max_steps": "102/1237", "percentage": "8.25%", "elapsed_time": "1h 14m 38s", "remaining_time": "13h 50m 36s"}
{"loss": 0.54787767, "token_acc": 0.84249084, "grad_norm": 4.13323689, "learning_rate": 9.97e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022743, "epoch": 0.08331648, "global_step/max_steps": "103/1237", "percentage": "8.33%", "elapsed_time": "1h 15m 22s", "remaining_time": "13h 49m 51s"}
{"loss": 0.52566016, "token_acc": 0.78861789, "grad_norm": 4.54038286, "learning_rate": 9.97e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022744, "epoch": 0.08412538, "global_step/max_steps": "104/1237", "percentage": "8.41%", "elapsed_time": "1h 16m 6s", "remaining_time": "13h 49m 5s"}
{"loss": 0.56081277, "token_acc": 0.80565371, "grad_norm": 3.08369589, "learning_rate": 9.97e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022745, "epoch": 0.08493428, "global_step/max_steps": "105/1237", "percentage": "8.49%", "elapsed_time": "1h 16m 50s", "remaining_time": "13h 48m 20s"}
{"loss": 0.50078738, "token_acc": 0.81322957, "grad_norm": 2.61979508, "learning_rate": 9.97e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022745, "epoch": 0.08574317, "global_step/max_steps": "106/1237", "percentage": "8.57%", "elapsed_time": "1h 17m 33s", "remaining_time": "13h 47m 35s"}
{"loss": 0.49696583, "token_acc": 0.84644195, "grad_norm": 3.62543726, "learning_rate": 9.96e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022747, "epoch": 0.08655207, "global_step/max_steps": "107/1237", "percentage": "8.65%", "elapsed_time": "1h 18m 17s", "remaining_time": "13h 46m 48s"}
{"loss": 0.47398955, "token_acc": 0.84, "grad_norm": 3.38846993, "learning_rate": 9.96e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022748, "epoch": 0.08736097, "global_step/max_steps": "108/1237", "percentage": "8.73%", "elapsed_time": "1h 19m 1s", "remaining_time": "13h 46m 3s"}
{"loss": 0.4609938, "token_acc": 0.821875, "grad_norm": 2.84598184, "learning_rate": 9.96e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022748, "epoch": 0.08816987, "global_step/max_steps": "109/1237", "percentage": "8.81%", "elapsed_time": "1h 19m 45s", "remaining_time": "13h 45m 19s"}
{"loss": 0.48788702, "token_acc": 0.8125, "grad_norm": 3.14309955, "learning_rate": 9.96e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022748, "epoch": 0.08897877, "global_step/max_steps": "110/1237", "percentage": "8.89%", "elapsed_time": "1h 20m 29s", "remaining_time": "13h 44m 37s"}
{"loss": 0.55001569, "token_acc": 0.82222222, "grad_norm": 3.59268713, "learning_rate": 9.96e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022748, "epoch": 0.08978766, "global_step/max_steps": "111/1237", "percentage": "8.97%", "elapsed_time": "1h 21m 13s", "remaining_time": "13h 43m 52s"}
{"loss": 0.51816118, "token_acc": 0.85714286, "grad_norm": 5.14949131, "learning_rate": 9.96e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022749, "epoch": 0.09059656, "global_step/max_steps": "112/1237", "percentage": "9.05%", "elapsed_time": "1h 21m 56s", "remaining_time": "13h 43m 7s"}
{"loss": 0.55750853, "token_acc": 0.79245283, "grad_norm": 4.69684315, "learning_rate": 9.95e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02275, "epoch": 0.09140546, "global_step/max_steps": "113/1237", "percentage": "9.14%", "elapsed_time": "1h 22m 40s", "remaining_time": "13h 42m 22s"}
{"loss": 0.59861326, "token_acc": 0.8097561, "grad_norm": 4.43970537, "learning_rate": 9.95e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022749, "epoch": 0.09221436, "global_step/max_steps": "114/1237", "percentage": "9.22%", "elapsed_time": "1h 23m 24s", "remaining_time": "13h 41m 40s"}
{"loss": 0.47439733, "token_acc": 0.8576779, "grad_norm": 3.53118038, "learning_rate": 9.95e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022749, "epoch": 0.09302326, "global_step/max_steps": "115/1237", "percentage": "9.30%", "elapsed_time": "1h 24m 8s", "remaining_time": "13h 40m 56s"}
{"loss": 0.52587891, "token_acc": 0.83888889, "grad_norm": 4.0346055, "learning_rate": 9.95e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02275, "epoch": 0.09383215, "global_step/max_steps": "116/1237", "percentage": "9.38%", "elapsed_time": "1h 24m 52s", "remaining_time": "13h 40m 13s"}
{"loss": 0.51116967, "token_acc": 0.86538462, "grad_norm": 2.46222305, "learning_rate": 9.95e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02275, "epoch": 0.09464105, "global_step/max_steps": "117/1237", "percentage": "9.46%", "elapsed_time": "1h 25m 36s", "remaining_time": "13h 39m 29s"}
{"loss": 0.64446145, "token_acc": 0.83913043, "grad_norm": 4.20295238, "learning_rate": 9.94e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02275, "epoch": 0.09544995, "global_step/max_steps": "118/1237", "percentage": "9.54%", "elapsed_time": "1h 26m 20s", "remaining_time": "13h 38m 46s"}
{"loss": 0.5298661, "token_acc": 0.82876712, "grad_norm": 3.64337325, "learning_rate": 9.94e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02275, "epoch": 0.09625885, "global_step/max_steps": "119/1237", "percentage": "9.62%", "elapsed_time": "1h 27m 4s", "remaining_time": "13h 38m 1s"}
{"loss": 0.53721023, "token_acc": 0.86378738, "grad_norm": 2.93022513, "learning_rate": 9.94e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022751, "epoch": 0.09706775, "global_step/max_steps": "120/1237", "percentage": "9.70%", "elapsed_time": "1h 27m 48s", "remaining_time": "13h 37m 16s"}
{"loss": 0.52856779, "token_acc": 0.79146919, "grad_norm": 3.05937982, "learning_rate": 9.94e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022752, "epoch": 0.09787664, "global_step/max_steps": "121/1237", "percentage": "9.78%", "elapsed_time": "1h 28m 31s", "remaining_time": "13h 36m 30s"}
{"loss": 0.54362661, "token_acc": 0.86381323, "grad_norm": 3.11790276, "learning_rate": 9.94e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022751, "epoch": 0.09868554, "global_step/max_steps": "122/1237", "percentage": "9.86%", "elapsed_time": "1h 29m 15s", "remaining_time": "13h 35m 48s"}
{"loss": 0.5759722, "token_acc": 0.83928571, "grad_norm": 2.98509407, "learning_rate": 9.93e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022752, "epoch": 0.09949444, "global_step/max_steps": "123/1237", "percentage": "9.94%", "elapsed_time": "1h 29m 59s", "remaining_time": "13h 35m 3s"}
{"loss": 0.51283836, "token_acc": 0.84042553, "grad_norm": 3.20569921, "learning_rate": 9.93e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022753, "epoch": 0.10030334, "global_step/max_steps": "124/1237", "percentage": "10.02%", "elapsed_time": "1h 30m 43s", "remaining_time": "13h 34m 19s"}
{"loss": 0.49310234, "token_acc": 0.76340694, "grad_norm": 3.4550705, "learning_rate": 9.93e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022754, "epoch": 0.10111223, "global_step/max_steps": "125/1237", "percentage": "10.11%", "elapsed_time": "1h 31m 27s", "remaining_time": "13h 33m 33s"}
{"loss": 0.50365078, "token_acc": 0.84228188, "grad_norm": 4.97563791, "learning_rate": 9.93e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022754, "epoch": 0.10192113, "global_step/max_steps": "126/1237", "percentage": "10.19%", "elapsed_time": "1h 32m 11s", "remaining_time": "13h 32m 49s"}
{"loss": 0.44649476, "token_acc": 0.88043478, "grad_norm": 3.23302174, "learning_rate": 9.92e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022754, "epoch": 0.10273003, "global_step/max_steps": "127/1237", "percentage": "10.27%", "elapsed_time": "1h 32m 54s", "remaining_time": "13h 32m 5s"}
{"loss": 0.51499337, "token_acc": 0.83181818, "grad_norm": 2.58162236, "learning_rate": 9.92e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022755, "epoch": 0.10353893, "global_step/max_steps": "128/1237", "percentage": "10.35%", "elapsed_time": "1h 33m 38s", "remaining_time": "13h 31m 19s"}
{"loss": 0.51427841, "token_acc": 0.86219081, "grad_norm": 2.64863992, "learning_rate": 9.92e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022756, "epoch": 0.10434783, "global_step/max_steps": "129/1237", "percentage": "10.43%", "elapsed_time": "1h 34m 22s", "remaining_time": "13h 30m 34s"}
{"loss": 0.52978557, "token_acc": 0.81773399, "grad_norm": 3.30944204, "learning_rate": 9.92e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022757, "epoch": 0.10515672, "global_step/max_steps": "130/1237", "percentage": "10.51%", "elapsed_time": "1h 35m 6s", "remaining_time": "13h 29m 49s"}
{"loss": 0.50816911, "token_acc": 0.87553648, "grad_norm": 2.76959205, "learning_rate": 9.92e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022758, "epoch": 0.10596562, "global_step/max_steps": "131/1237", "percentage": "10.59%", "elapsed_time": "1h 35m 49s", "remaining_time": "13h 29m 4s"}
{"loss": 0.55123168, "token_acc": 0.86181818, "grad_norm": 2.87486291, "learning_rate": 9.91e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022757, "epoch": 0.10677452, "global_step/max_steps": "132/1237", "percentage": "10.67%", "elapsed_time": "1h 36m 33s", "remaining_time": "13h 28m 22s"}
{"loss": 0.48270369, "token_acc": 0.85263158, "grad_norm": 3.3325603, "learning_rate": 9.91e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022757, "epoch": 0.10758342, "global_step/max_steps": "133/1237", "percentage": "10.75%", "elapsed_time": "1h 37m 17s", "remaining_time": "13h 27m 38s"}
{"loss": 0.48671407, "token_acc": 0.85477178, "grad_norm": 4.00282478, "learning_rate": 9.91e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022758, "epoch": 0.10839232, "global_step/max_steps": "134/1237", "percentage": "10.83%", "elapsed_time": "1h 38m 1s", "remaining_time": "13h 26m 52s"}
{"loss": 0.55020106, "token_acc": 0.79761905, "grad_norm": 3.65506434, "learning_rate": 9.91e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022758, "epoch": 0.10920121, "global_step/max_steps": "135/1237", "percentage": "10.91%", "elapsed_time": "1h 38m 45s", "remaining_time": "13h 26m 9s"}
{"loss": 0.47892681, "token_acc": 0.83189655, "grad_norm": 3.19847202, "learning_rate": 9.9e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022759, "epoch": 0.11001011, "global_step/max_steps": "136/1237", "percentage": "10.99%", "elapsed_time": "1h 39m 29s", "remaining_time": "13h 25m 24s"}
{"loss": 0.49719754, "token_acc": 0.84175084, "grad_norm": 2.7282052, "learning_rate": 9.9e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022759, "epoch": 0.11081901, "global_step/max_steps": "137/1237", "percentage": "11.08%", "elapsed_time": "1h 40m 13s", "remaining_time": "13h 24m 40s"}
{"loss": 0.53284329, "token_acc": 0.81521739, "grad_norm": 3.08943009, "learning_rate": 9.9e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022759, "epoch": 0.11162791, "global_step/max_steps": "138/1237", "percentage": "11.16%", "elapsed_time": "1h 40m 56s", "remaining_time": "13h 23m 56s"}
{"loss": 0.52384472, "token_acc": 0.85585586, "grad_norm": 6.90139198, "learning_rate": 9.89e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02276, "epoch": 0.1124368, "global_step/max_steps": "139/1237", "percentage": "11.24%", "elapsed_time": "1h 41m 40s", "remaining_time": "13h 23m 11s"}
{"loss": 0.55736601, "token_acc": 0.80681818, "grad_norm": 3.12530279, "learning_rate": 9.89e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022761, "epoch": 0.1132457, "global_step/max_steps": "140/1237", "percentage": "11.32%", "elapsed_time": "1h 42m 24s", "remaining_time": "13h 22m 26s"}
{"loss": 0.52421582, "token_acc": 0.85053381, "grad_norm": 3.38075852, "learning_rate": 9.89e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.1140546, "global_step/max_steps": "141/1237", "percentage": "11.40%", "elapsed_time": "1h 43m 8s", "remaining_time": "13h 21m 44s"}
{"loss": 0.49190688, "token_acc": 0.83333333, "grad_norm": 3.41346145, "learning_rate": 9.89e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.1148635, "global_step/max_steps": "142/1237", "percentage": "11.48%", "elapsed_time": "1h 43m 52s", "remaining_time": "13h 21m 0s"}
{"loss": 0.54235256, "token_acc": 0.85036496, "grad_norm": 4.18116951, "learning_rate": 9.88e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.1156724, "global_step/max_steps": "143/1237", "percentage": "11.56%", "elapsed_time": "1h 44m 36s", "remaining_time": "13h 20m 17s"}
{"loss": 0.5551399, "token_acc": 0.80072464, "grad_norm": 2.68811083, "learning_rate": 9.88e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.11648129, "global_step/max_steps": "144/1237", "percentage": "11.64%", "elapsed_time": "1h 45m 20s", "remaining_time": "13h 19m 32s"}
{"loss": 0.49384481, "token_acc": 0.83333333, "grad_norm": 3.98518848, "learning_rate": 9.88e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.11729019, "global_step/max_steps": "145/1237", "percentage": "11.72%", "elapsed_time": "1h 46m 4s", "remaining_time": "13h 18m 51s"}
{"loss": 0.55150813, "token_acc": 0.80066445, "grad_norm": 2.68719864, "learning_rate": 9.87e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.11809909, "global_step/max_steps": "146/1237", "percentage": "11.80%", "elapsed_time": "1h 46m 48s", "remaining_time": "13h 18m 6s"}
{"loss": 0.44208491, "token_acc": 0.80918728, "grad_norm": 2.28870606, "learning_rate": 9.87e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022761, "epoch": 0.11890799, "global_step/max_steps": "147/1237", "percentage": "11.88%", "elapsed_time": "1h 47m 32s", "remaining_time": "13h 17m 21s"}
{"loss": 0.46787658, "token_acc": 0.86046512, "grad_norm": 2.66801953, "learning_rate": 9.87e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022761, "epoch": 0.11971689, "global_step/max_steps": "148/1237", "percentage": "11.96%", "elapsed_time": "1h 48m 15s", "remaining_time": "13h 16m 38s"}
{"loss": 0.48323065, "token_acc": 0.84805654, "grad_norm": 2.38950634, "learning_rate": 9.87e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022761, "epoch": 0.12052578, "global_step/max_steps": "149/1237", "percentage": "12.05%", "elapsed_time": "1h 48m 59s", "remaining_time": "13h 15m 54s"}
{"loss": 0.49357209, "token_acc": 0.84615385, "grad_norm": 2.41437817, "learning_rate": 9.86e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022762, "epoch": 0.12133468, "global_step/max_steps": "150/1237", "percentage": "12.13%", "elapsed_time": "1h 49m 43s", "remaining_time": "13h 15m 9s"}
{"loss": 0.48098686, "token_acc": 0.86170213, "grad_norm": 3.07904577, "learning_rate": 9.86e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022762, "epoch": 0.12214358, "global_step/max_steps": "151/1237", "percentage": "12.21%", "elapsed_time": "1h 50m 27s", "remaining_time": "13h 14m 24s"}
{"loss": 0.57434821, "token_acc": 0.84615385, "grad_norm": 3.63688564, "learning_rate": 9.86e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022763, "epoch": 0.12295248, "global_step/max_steps": "152/1237", "percentage": "12.29%", "elapsed_time": "1h 51m 11s", "remaining_time": "13h 13m 39s"}
{"loss": 0.46740931, "token_acc": 0.86580087, "grad_norm": 2.76286602, "learning_rate": 9.85e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022763, "epoch": 0.12376138, "global_step/max_steps": "153/1237", "percentage": "12.37%", "elapsed_time": "1h 51m 54s", "remaining_time": "13h 12m 55s"}
{"loss": 0.54389513, "token_acc": 0.85501859, "grad_norm": 3.15537477, "learning_rate": 9.85e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022763, "epoch": 0.12457027, "global_step/max_steps": "154/1237", "percentage": "12.45%", "elapsed_time": "1h 52m 38s", "remaining_time": "13h 12m 11s"}
{"loss": 0.53728718, "token_acc": 0.84561404, "grad_norm": 2.95648265, "learning_rate": 9.85e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022764, "epoch": 0.12537917, "global_step/max_steps": "155/1237", "percentage": "12.53%", "elapsed_time": "1h 53m 22s", "remaining_time": "13h 11m 27s"}
{"loss": 0.47288418, "token_acc": 0.9, "grad_norm": 2.99794102, "learning_rate": 9.84e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022764, "epoch": 0.12618807, "global_step/max_steps": "156/1237", "percentage": "12.61%", "elapsed_time": "1h 54m 6s", "remaining_time": "13h 10m 42s"}
{"loss": 0.48365718, "token_acc": 0.85017422, "grad_norm": 4.78114319, "learning_rate": 9.84e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022764, "epoch": 0.12699697, "global_step/max_steps": "157/1237", "percentage": "12.69%", "elapsed_time": "1h 54m 50s", "remaining_time": "13h 9m 58s"}
{"loss": 0.48370433, "token_acc": 0.89528796, "grad_norm": 2.6118474, "learning_rate": 9.84e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022765, "epoch": 0.12780586, "global_step/max_steps": "158/1237", "percentage": "12.77%", "elapsed_time": "1h 55m 34s", "remaining_time": "13h 9m 13s"}
{"loss": 0.56944084, "token_acc": 0.81779661, "grad_norm": 3.33164597, "learning_rate": 9.83e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022765, "epoch": 0.12861476, "global_step/max_steps": "159/1237", "percentage": "12.85%", "elapsed_time": "1h 56m 17s", "remaining_time": "13h 8m 29s"}
{"loss": 0.56144434, "token_acc": 0.84879725, "grad_norm": 3.41434264, "learning_rate": 9.83e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022765, "epoch": 0.12942366, "global_step/max_steps": "160/1237", "percentage": "12.93%", "elapsed_time": "1h 57m 1s", "remaining_time": "13h 7m 45s"}
{"loss": 0.48274076, "token_acc": 0.82078853, "grad_norm": 2.5419569, "learning_rate": 9.83e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022765, "epoch": 0.13023256, "global_step/max_steps": "161/1237", "percentage": "13.02%", "elapsed_time": "1h 57m 45s", "remaining_time": "13h 7m 1s"}
{"loss": 0.47431913, "token_acc": 0.87134503, "grad_norm": 2.93372941, "learning_rate": 9.82e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022766, "epoch": 0.13104146, "global_step/max_steps": "162/1237", "percentage": "13.10%", "elapsed_time": "1h 58m 29s", "remaining_time": "13h 6m 17s"}
{"loss": 0.55542272, "token_acc": 0.8627451, "grad_norm": 2.80558562, "learning_rate": 9.82e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022766, "epoch": 0.13185035, "global_step/max_steps": "163/1237", "percentage": "13.18%", "elapsed_time": "1h 59m 13s", "remaining_time": "13h 5m 33s"}
{"loss": 0.44582039, "token_acc": 0.88256228, "grad_norm": 2.66271949, "learning_rate": 9.82e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022766, "epoch": 0.13265925, "global_step/max_steps": "164/1237", "percentage": "13.26%", "elapsed_time": "1h 59m 57s", "remaining_time": "13h 4m 50s"}
{"loss": 0.46380621, "token_acc": 0.82278481, "grad_norm": 5.49597454, "learning_rate": 9.81e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022766, "epoch": 0.13346815, "global_step/max_steps": "165/1237", "percentage": "13.34%", "elapsed_time": "2h 0m 41s", "remaining_time": "13h 4m 5s"}
{"loss": 0.66574013, "token_acc": 0.84836066, "grad_norm": 84.01348114, "learning_rate": 9.81e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022767, "epoch": 0.13427705, "global_step/max_steps": "166/1237", "percentage": "13.42%", "elapsed_time": "2h 1m 24s", "remaining_time": "13h 3m 21s"}
{"loss": 0.67239368, "token_acc": 0.81437126, "grad_norm": 138.69554138, "learning_rate": 9.8e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022767, "epoch": 0.13508595, "global_step/max_steps": "167/1237", "percentage": "13.50%", "elapsed_time": "2h 2m 8s", "remaining_time": "13h 2m 36s"}
{"loss": 0.52288759, "token_acc": 0.84115523, "grad_norm": 11.96611404, "learning_rate": 9.8e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022768, "epoch": 0.13589484, "global_step/max_steps": "168/1237", "percentage": "13.58%", "elapsed_time": "2h 2m 52s", "remaining_time": "13h 1m 51s"}
{"loss": 0.50823402, "token_acc": 0.85140562, "grad_norm": 3.31174445, "learning_rate": 9.8e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022768, "epoch": 0.13670374, "global_step/max_steps": "169/1237", "percentage": "13.66%", "elapsed_time": "2h 3m 36s", "remaining_time": "13h 1m 7s"}
{"loss": 0.49033585, "token_acc": 0.84394904, "grad_norm": 2.89102674, "learning_rate": 9.79e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.13751264, "global_step/max_steps": "170/1237", "percentage": "13.74%", "elapsed_time": "2h 4m 19s", "remaining_time": "13h 0m 22s"}
{"loss": 0.51463544, "token_acc": 0.87096774, "grad_norm": 2.6435051, "learning_rate": 9.79e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.13832154, "global_step/max_steps": "171/1237", "percentage": "13.82%", "elapsed_time": "2h 5m 3s", "remaining_time": "12h 59m 37s"}
{"loss": 0.51509237, "token_acc": 0.796875, "grad_norm": 2.84234762, "learning_rate": 9.79e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.13913043, "global_step/max_steps": "172/1237", "percentage": "13.90%", "elapsed_time": "2h 5m 47s", "remaining_time": "12h 58m 53s"}
{"loss": 0.48086378, "token_acc": 0.829653, "grad_norm": 2.4324863, "learning_rate": 9.78e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.13993933, "global_step/max_steps": "173/1237", "percentage": "13.99%", "elapsed_time": "2h 6m 31s", "remaining_time": "12h 58m 10s"}
{"loss": 0.4378691, "token_acc": 0.85714286, "grad_norm": 2.24035478, "learning_rate": 9.78e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.14074823, "global_step/max_steps": "174/1237", "percentage": "14.07%", "elapsed_time": "2h 7m 15s", "remaining_time": "12h 57m 26s"}
{"loss": 0.49104676, "token_acc": 0.83695652, "grad_norm": 2.5522747, "learning_rate": 9.77e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.14155713, "global_step/max_steps": "175/1237", "percentage": "14.15%", "elapsed_time": "2h 7m 59s", "remaining_time": "12h 56m 42s"}
{"loss": 0.55782264, "token_acc": 0.82745098, "grad_norm": 2.84434128, "learning_rate": 9.77e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02277, "epoch": 0.14236603, "global_step/max_steps": "176/1237", "percentage": "14.23%", "elapsed_time": "2h 8m 43s", "remaining_time": "12h 55m 57s"}
{"loss": 0.44412744, "token_acc": 0.85436893, "grad_norm": 2.70074248, "learning_rate": 9.77e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02277, "epoch": 0.14317492, "global_step/max_steps": "177/1237", "percentage": "14.31%", "elapsed_time": "2h 9m 26s", "remaining_time": "12h 55m 13s"}
{"loss": 0.5075165, "token_acc": 0.82222222, "grad_norm": 2.82436419, "learning_rate": 9.76e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022771, "epoch": 0.14398382, "global_step/max_steps": "178/1237", "percentage": "14.39%", "elapsed_time": "2h 10m 10s", "remaining_time": "12h 54m 29s"}
{"loss": 0.4700079, "token_acc": 0.828125, "grad_norm": 3.22051263, "learning_rate": 9.76e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022772, "epoch": 0.14479272, "global_step/max_steps": "179/1237", "percentage": "14.47%", "elapsed_time": "2h 10m 54s", "remaining_time": "12h 53m 43s"}
{"loss": 0.51430154, "token_acc": 0.85304659, "grad_norm": 2.34555769, "learning_rate": 9.75e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022771, "epoch": 0.14560162, "global_step/max_steps": "180/1237", "percentage": "14.55%", "elapsed_time": "2h 11m 38s", "remaining_time": "12h 53m 0s"}
{"loss": 0.55058622, "token_acc": 0.84756098, "grad_norm": 3.07524514, "learning_rate": 9.75e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022772, "epoch": 0.14641052, "global_step/max_steps": "181/1237", "percentage": "14.63%", "elapsed_time": "2h 12m 21s", "remaining_time": "12h 52m 14s"}
{"loss": 0.50132066, "token_acc": 0.87301587, "grad_norm": 2.66206455, "learning_rate": 9.74e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022772, "epoch": 0.14721941, "global_step/max_steps": "182/1237", "percentage": "14.71%", "elapsed_time": "2h 13m 5s", "remaining_time": "12h 51m 31s"}
{"loss": 0.55466044, "token_acc": 0.83882784, "grad_norm": 3.02705026, "learning_rate": 9.74e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022772, "epoch": 0.14802831, "global_step/max_steps": "183/1237", "percentage": "14.79%", "elapsed_time": "2h 13m 49s", "remaining_time": "12h 50m 46s"}
{"loss": 0.51063967, "token_acc": 0.7979798, "grad_norm": 3.55436635, "learning_rate": 9.74e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.14883721, "global_step/max_steps": "184/1237", "percentage": "14.87%", "elapsed_time": "2h 14m 33s", "remaining_time": "12h 50m 2s"}
{"loss": 0.53290993, "token_acc": 0.82783883, "grad_norm": 3.82107759, "learning_rate": 9.73e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.14964611, "global_step/max_steps": "185/1237", "percentage": "14.96%", "elapsed_time": "2h 15m 17s", "remaining_time": "12h 49m 18s"}
{"loss": 0.48308447, "token_acc": 0.8556701, "grad_norm": 2.86158633, "learning_rate": 9.73e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.15045501, "global_step/max_steps": "186/1237", "percentage": "15.04%", "elapsed_time": "2h 16m 1s", "remaining_time": "12h 48m 34s"}
{"loss": 0.48739776, "token_acc": 0.84265734, "grad_norm": 3.02551246, "learning_rate": 9.72e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.1512639, "global_step/max_steps": "187/1237", "percentage": "15.12%", "elapsed_time": "2h 16m 45s", "remaining_time": "12h 47m 51s"}
{"loss": 0.53851211, "token_acc": 0.81553398, "grad_norm": 2.57451129, "learning_rate": 9.72e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.1520728, "global_step/max_steps": "188/1237", "percentage": "15.20%", "elapsed_time": "2h 17m 29s", "remaining_time": "12h 47m 7s"}
{"loss": 0.53430444, "token_acc": 0.79770992, "grad_norm": 2.98532081, "learning_rate": 9.71e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.1528817, "global_step/max_steps": "189/1237", "percentage": "15.28%", "elapsed_time": "2h 18m 12s", "remaining_time": "12h 46m 23s"}
{"loss": 0.50870353, "token_acc": 0.84782609, "grad_norm": 3.33910704, "learning_rate": 9.71e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022774, "epoch": 0.1536906, "global_step/max_steps": "190/1237", "percentage": "15.36%", "elapsed_time": "2h 18m 56s", "remaining_time": "12h 45m 38s"}
{"loss": 0.49982688, "token_acc": 0.85140562, "grad_norm": 2.71299911, "learning_rate": 9.71e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022774, "epoch": 0.15449949, "global_step/max_steps": "191/1237", "percentage": "15.44%", "elapsed_time": "2h 19m 40s", "remaining_time": "12h 44m 53s"}
{"loss": 0.49224466, "token_acc": 0.81012658, "grad_norm": 3.62830114, "learning_rate": 9.7e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.15530839, "global_step/max_steps": "192/1237", "percentage": "15.52%", "elapsed_time": "2h 20m 23s", "remaining_time": "12h 44m 8s"}
{"loss": 0.52135509, "token_acc": 0.8381295, "grad_norm": 2.54650402, "learning_rate": 9.7e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.15611729, "global_step/max_steps": "193/1237", "percentage": "15.60%", "elapsed_time": "2h 21m 7s", "remaining_time": "12h 43m 24s"}
{"loss": 0.50977141, "token_acc": 0.80669145, "grad_norm": 3.09828615, "learning_rate": 9.69e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.15692619, "global_step/max_steps": "194/1237", "percentage": "15.68%", "elapsed_time": "2h 21m 51s", "remaining_time": "12h 42m 40s"}
{"loss": 0.55945951, "token_acc": 0.86222222, "grad_norm": 2.84962177, "learning_rate": 9.69e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.15773509, "global_step/max_steps": "195/1237", "percentage": "15.76%", "elapsed_time": "2h 22m 35s", "remaining_time": "12h 41m 55s"}
{"loss": 0.57742625, "token_acc": 0.79757085, "grad_norm": 2.69398165, "learning_rate": 9.68e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.15854398, "global_step/max_steps": "196/1237", "percentage": "15.84%", "elapsed_time": "2h 23m 19s", "remaining_time": "12h 41m 12s"}
{"loss": 0.51033103, "token_acc": 0.81290323, "grad_norm": 3.64921808, "learning_rate": 9.68e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.15935288, "global_step/max_steps": "197/1237", "percentage": "15.93%", "elapsed_time": "2h 24m 3s", "remaining_time": "12h 40m 29s"}
{"loss": 0.47449535, "token_acc": 0.8699187, "grad_norm": 2.6552608, "learning_rate": 9.67e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16016178, "global_step/max_steps": "198/1237", "percentage": "16.01%", "elapsed_time": "2h 24m 47s", "remaining_time": "12h 39m 45s"}
{"loss": 0.4586221, "token_acc": 0.8583691, "grad_norm": 2.77244163, "learning_rate": 9.67e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16097068, "global_step/max_steps": "199/1237", "percentage": "16.09%", "elapsed_time": "2h 25m 31s", "remaining_time": "12h 39m 1s"}
{"loss": 0.60707122, "token_acc": 0.81313131, "grad_norm": 3.14848995, "learning_rate": 9.66e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.16177958, "global_step/max_steps": "200/1237", "percentage": "16.17%", "elapsed_time": "2h 26m 14s", "remaining_time": "12h 38m 17s"}
{"loss": 0.55796528, "token_acc": 0.85245902, "grad_norm": 4.57511425, "learning_rate": 9.66e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.16258847, "global_step/max_steps": "201/1237", "percentage": "16.25%", "elapsed_time": "2h 26m 58s", "remaining_time": "12h 37m 34s"}
{"loss": 0.47080252, "token_acc": 0.90588235, "grad_norm": 2.38481331, "learning_rate": 9.65e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16339737, "global_step/max_steps": "202/1237", "percentage": "16.33%", "elapsed_time": "2h 27m 42s", "remaining_time": "12h 36m 51s"}
{"loss": 0.46535662, "token_acc": 0.81385281, "grad_norm": 2.68684316, "learning_rate": 9.65e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16420627, "global_step/max_steps": "203/1237", "percentage": "16.41%", "elapsed_time": "2h 28m 26s", "remaining_time": "12h 36m 7s"}
{"loss": 0.4240244, "token_acc": 0.87072243, "grad_norm": 3.42516088, "learning_rate": 9.64e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16501517, "global_step/max_steps": "204/1237", "percentage": "16.49%", "elapsed_time": "2h 29m 10s", "remaining_time": "12h 35m 23s"}
{"loss": 0.53137636, "token_acc": 0.80622837, "grad_norm": 3.01933908, "learning_rate": 9.64e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16582406, "global_step/max_steps": "205/1237", "percentage": "16.57%", "elapsed_time": "2h 29m 54s", "remaining_time": "12h 34m 39s"}
{"loss": 0.47857386, "token_acc": 0.82043344, "grad_norm": 2.44394755, "learning_rate": 9.63e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16663296, "global_step/max_steps": "206/1237", "percentage": "16.65%", "elapsed_time": "2h 30m 38s", "remaining_time": "12h 33m 55s"}
{"loss": 0.50551331, "token_acc": 0.86148649, "grad_norm": 2.9912324, "learning_rate": 9.63e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16744186, "global_step/max_steps": "207/1237", "percentage": "16.73%", "elapsed_time": "2h 31m 22s", "remaining_time": "12h 33m 13s"}
{"loss": 0.48094457, "token_acc": 0.85171103, "grad_norm": 2.89148283, "learning_rate": 9.62e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022774, "epoch": 0.16825076, "global_step/max_steps": "208/1237", "percentage": "16.81%", "elapsed_time": "2h 32m 6s", "remaining_time": "12h 32m 30s"}
{"loss": 0.46442625, "token_acc": 0.84590164, "grad_norm": 3.07913876, "learning_rate": 9.62e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16905966, "global_step/max_steps": "209/1237", "percentage": "16.90%", "elapsed_time": "2h 32m 50s", "remaining_time": "12h 31m 46s"}
{"loss": 0.49402916, "token_acc": 0.80232558, "grad_norm": 3.35388494, "learning_rate": 9.61e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16986855, "global_step/max_steps": "210/1237", "percentage": "16.98%", "elapsed_time": "2h 33m 34s", "remaining_time": "12h 31m 1s"}
{"loss": 0.52422154, "token_acc": 0.84269663, "grad_norm": 2.82531166, "learning_rate": 9.61e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17067745, "global_step/max_steps": "211/1237", "percentage": "17.06%", "elapsed_time": "2h 34m 17s", "remaining_time": "12h 30m 17s"}
{"loss": 0.43876964, "token_acc": 0.83842795, "grad_norm": 3.11188817, "learning_rate": 9.6e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.17148635, "global_step/max_steps": "212/1237", "percentage": "17.14%", "elapsed_time": "2h 35m 1s", "remaining_time": "12h 29m 33s"}
{"loss": 0.45704749, "token_acc": 0.84234234, "grad_norm": 3.05646563, "learning_rate": 9.6e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17229525, "global_step/max_steps": "213/1237", "percentage": "17.22%", "elapsed_time": "2h 35m 45s", "remaining_time": "12h 28m 49s"}
{"loss": 0.4705919, "token_acc": 0.89003436, "grad_norm": 2.17340302, "learning_rate": 9.59e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.17310415, "global_step/max_steps": "214/1237", "percentage": "17.30%", "elapsed_time": "2h 36m 29s", "remaining_time": "12h 28m 5s"}
{"loss": 0.45938087, "token_acc": 0.8425656, "grad_norm": 2.67645741, "learning_rate": 9.59e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.17391304, "global_step/max_steps": "215/1237", "percentage": "17.38%", "elapsed_time": "2h 37m 13s", "remaining_time": "12h 27m 21s"}
{"loss": 0.51209235, "token_acc": 0.84025559, "grad_norm": 2.62764406, "learning_rate": 9.58e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17472194, "global_step/max_steps": "216/1237", "percentage": "17.46%", "elapsed_time": "2h 37m 57s", "remaining_time": "12h 26m 38s"}
{"loss": 0.54098213, "token_acc": 0.87868852, "grad_norm": 2.92231274, "learning_rate": 9.58e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17553084, "global_step/max_steps": "217/1237", "percentage": "17.54%", "elapsed_time": "2h 38m 41s", "remaining_time": "12h 25m 54s"}
{"loss": 0.51958019, "token_acc": 0.89047619, "grad_norm": 2.79437375, "learning_rate": 9.57e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17633974, "global_step/max_steps": "218/1237", "percentage": "17.62%", "elapsed_time": "2h 39m 25s", "remaining_time": "12h 25m 11s"}
{"loss": 0.52009231, "token_acc": 0.81818182, "grad_norm": 3.10221148, "learning_rate": 9.57e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17714863, "global_step/max_steps": "219/1237", "percentage": "17.70%", "elapsed_time": "2h 40m 9s", "remaining_time": "12h 24m 28s"}
{"loss": 0.50913751, "token_acc": 0.82304527, "grad_norm": 2.57017612, "learning_rate": 9.56e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17795753, "global_step/max_steps": "220/1237", "percentage": "17.78%", "elapsed_time": "2h 40m 53s", "remaining_time": "12h 23m 44s"}
{"loss": 0.478109, "token_acc": 0.85440613, "grad_norm": 3.00337434, "learning_rate": 9.55e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17876643, "global_step/max_steps": "221/1237", "percentage": "17.87%", "elapsed_time": "2h 41m 36s", "remaining_time": "12h 22m 59s"}
{"loss": 0.43149066, "token_acc": 0.88510638, "grad_norm": 2.63181829, "learning_rate": 9.55e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17957533, "global_step/max_steps": "222/1237", "percentage": "17.95%", "elapsed_time": "2h 42m 20s", "remaining_time": "12h 22m 16s"}
{"loss": 0.52461874, "token_acc": 0.81404959, "grad_norm": 2.8283627, "learning_rate": 9.54e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18038423, "global_step/max_steps": "223/1237", "percentage": "18.03%", "elapsed_time": "2h 43m 4s", "remaining_time": "12h 21m 31s"}
{"loss": 0.58311236, "token_acc": 0.83168317, "grad_norm": 2.76043677, "learning_rate": 9.54e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18119312, "global_step/max_steps": "224/1237", "percentage": "18.11%", "elapsed_time": "2h 43m 48s", "remaining_time": "12h 20m 47s"}
{"loss": 0.52701885, "token_acc": 0.81974249, "grad_norm": 2.84444451, "learning_rate": 9.53e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18200202, "global_step/max_steps": "225/1237", "percentage": "18.19%", "elapsed_time": "2h 44m 32s", "remaining_time": "12h 20m 2s"}
{"loss": 0.60988128, "token_acc": 0.85281385, "grad_norm": 3.43141317, "learning_rate": 9.53e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.18281092, "global_step/max_steps": "226/1237", "percentage": "18.27%", "elapsed_time": "2h 45m 15s", "remaining_time": "12h 19m 18s"}
{"loss": 0.52205789, "token_acc": 0.81118881, "grad_norm": 3.65177107, "learning_rate": 9.52e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18361982, "global_step/max_steps": "227/1237", "percentage": "18.35%", "elapsed_time": "2h 46m 0s", "remaining_time": "12h 18m 36s"}
{"loss": 0.53610623, "token_acc": 0.83181818, "grad_norm": 2.58683896, "learning_rate": 9.52e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18442872, "global_step/max_steps": "228/1237", "percentage": "18.43%", "elapsed_time": "2h 46m 44s", "remaining_time": "12h 17m 52s"}
{"loss": 0.50479484, "token_acc": 0.83, "grad_norm": 3.40928483, "learning_rate": 9.51e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18523761, "global_step/max_steps": "229/1237", "percentage": "18.51%", "elapsed_time": "2h 47m 28s", "remaining_time": "12h 17m 9s"}
{"loss": 0.41995609, "token_acc": 0.83043478, "grad_norm": 2.87478542, "learning_rate": 9.5e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18604651, "global_step/max_steps": "230/1237", "percentage": "18.59%", "elapsed_time": "2h 48m 12s", "remaining_time": "12h 16m 25s"}
{"loss": 0.48431632, "token_acc": 0.85889571, "grad_norm": 3.5379498, "learning_rate": 9.5e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.18685541, "global_step/max_steps": "231/1237", "percentage": "18.67%", "elapsed_time": "2h 48m 56s", "remaining_time": "12h 15m 42s"}
{"loss": 0.43944597, "token_acc": 0.83870968, "grad_norm": 2.27086449, "learning_rate": 9.49e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.18766431, "global_step/max_steps": "232/1237", "percentage": "18.76%", "elapsed_time": "2h 49m 39s", "remaining_time": "12h 14m 58s"}
{"loss": 0.49497265, "token_acc": 0.82442748, "grad_norm": 2.34239841, "learning_rate": 9.49e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.18847321, "global_step/max_steps": "233/1237", "percentage": "18.84%", "elapsed_time": "2h 50m 24s", "remaining_time": "12h 14m 15s"}
{"loss": 0.52472526, "token_acc": 0.82565789, "grad_norm": 2.18622518, "learning_rate": 9.48e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.1892821, "global_step/max_steps": "234/1237", "percentage": "18.92%", "elapsed_time": "2h 51m 7s", "remaining_time": "12h 13m 31s"}
{"loss": 0.55621183, "token_acc": 0.8156682, "grad_norm": 6.91671419, "learning_rate": 9.47e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.190091, "global_step/max_steps": "235/1237", "percentage": "19.00%", "elapsed_time": "2h 51m 52s", "remaining_time": "12h 12m 48s"}
{"loss": 0.46487406, "token_acc": 0.84042553, "grad_norm": 2.66956496, "learning_rate": 9.47e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.1908999, "global_step/max_steps": "236/1237", "percentage": "19.08%", "elapsed_time": "2h 52m 35s", "remaining_time": "12h 12m 4s"}
{"loss": 0.47179466, "token_acc": 0.82969432, "grad_norm": 2.74463677, "learning_rate": 9.46e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.1917088, "global_step/max_steps": "237/1237", "percentage": "19.16%", "elapsed_time": "2h 53m 19s", "remaining_time": "12h 11m 20s"}
{"loss": 0.43457282, "token_acc": 0.83828383, "grad_norm": 2.73318505, "learning_rate": 9.46e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19251769, "global_step/max_steps": "238/1237", "percentage": "19.24%", "elapsed_time": "2h 54m 3s", "remaining_time": "12h 10m 35s"}
{"loss": 0.52080274, "token_acc": 0.84946237, "grad_norm": 2.79258633, "learning_rate": 9.45e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19332659, "global_step/max_steps": "239/1237", "percentage": "19.32%", "elapsed_time": "2h 54m 47s", "remaining_time": "12h 9m 51s"}
{"loss": 0.50691557, "token_acc": 0.82191781, "grad_norm": 3.10678816, "learning_rate": 9.44e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19413549, "global_step/max_steps": "240/1237", "percentage": "19.40%", "elapsed_time": "2h 55m 30s", "remaining_time": "12h 9m 7s"}
{"loss": 0.48083267, "token_acc": 0.875, "grad_norm": 2.5453043, "learning_rate": 9.44e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19494439, "global_step/max_steps": "241/1237", "percentage": "19.48%", "elapsed_time": "2h 56m 14s", "remaining_time": "12h 8m 23s"}
{"loss": 0.45232368, "token_acc": 0.85840708, "grad_norm": 2.35451245, "learning_rate": 9.43e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19575329, "global_step/max_steps": "242/1237", "percentage": "19.56%", "elapsed_time": "2h 56m 58s", "remaining_time": "12h 7m 39s"}
{"loss": 0.46154851, "token_acc": 0.84818482, "grad_norm": 2.42467093, "learning_rate": 9.43e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19656218, "global_step/max_steps": "243/1237", "percentage": "19.64%", "elapsed_time": "2h 57m 42s", "remaining_time": "12h 6m 57s"}
{"loss": 0.52166629, "token_acc": 0.83817427, "grad_norm": 3.06218958, "learning_rate": 9.42e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.19737108, "global_step/max_steps": "244/1237", "percentage": "19.73%", "elapsed_time": "2h 58m 26s", "remaining_time": "12h 6m 13s"}
{"loss": 0.5783909, "token_acc": 0.8411215, "grad_norm": 3.48002911, "learning_rate": 9.41e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19817998, "global_step/max_steps": "245/1237", "percentage": "19.81%", "elapsed_time": "2h 59m 10s", "remaining_time": "12h 5m 28s"}
{"loss": 0.45752767, "token_acc": 0.84528302, "grad_norm": 2.88779163, "learning_rate": 9.41e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19898888, "global_step/max_steps": "246/1237", "percentage": "19.89%", "elapsed_time": "2h 59m 54s", "remaining_time": "12h 4m 44s"}
{"loss": 0.47424284, "token_acc": 0.84920635, "grad_norm": 2.99157, "learning_rate": 9.4e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19979778, "global_step/max_steps": "247/1237", "percentage": "19.97%", "elapsed_time": "3h 0m 38s", "remaining_time": "12h 4m 0s"}
{"loss": 0.45580304, "token_acc": 0.84716157, "grad_norm": 2.22276378, "learning_rate": 9.39e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20060667, "global_step/max_steps": "248/1237", "percentage": "20.05%", "elapsed_time": "3h 1m 21s", "remaining_time": "12h 3m 15s"}
{"loss": 0.47976819, "token_acc": 0.88780488, "grad_norm": 2.18121076, "learning_rate": 9.39e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20141557, "global_step/max_steps": "249/1237", "percentage": "20.13%", "elapsed_time": "3h 2m 5s", "remaining_time": "12h 2m 31s"}
{"loss": 0.42482299, "token_acc": 0.86619718, "grad_norm": 2.44635367, "learning_rate": 9.38e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20222447, "global_step/max_steps": "250/1237", "percentage": "20.21%", "elapsed_time": "3h 2m 49s", "remaining_time": "12h 1m 47s"}
{"loss": 0.484227, "token_acc": 0.82909091, "grad_norm": 2.22210121, "learning_rate": 9.38e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20303337, "global_step/max_steps": "251/1237", "percentage": "20.29%", "elapsed_time": "3h 3m 33s", "remaining_time": "12h 1m 3s"}
{"loss": 0.49549243, "token_acc": 0.8470948, "grad_norm": 2.43214607, "learning_rate": 9.37e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20384226, "global_step/max_steps": "252/1237", "percentage": "20.37%", "elapsed_time": "3h 4m 17s", "remaining_time": "12h 0m 20s"}
{"loss": 0.60482442, "token_acc": 0.83544304, "grad_norm": 2.90559864, "learning_rate": 9.36e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20465116, "global_step/max_steps": "253/1237", "percentage": "20.45%", "elapsed_time": "3h 5m 1s", "remaining_time": "11h 59m 36s"}
{"loss": 0.43147779, "token_acc": 0.8907563, "grad_norm": 2.30083585, "learning_rate": 9.36e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20546006, "global_step/max_steps": "254/1237", "percentage": "20.53%", "elapsed_time": "3h 5m 45s", "remaining_time": "11h 58m 52s"}
{"loss": 0.4882834, "token_acc": 0.84234234, "grad_norm": 2.77014852, "learning_rate": 9.35e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.20626896, "global_step/max_steps": "255/1237", "percentage": "20.61%", "elapsed_time": "3h 6m 28s", "remaining_time": "11h 58m 7s"}
{"loss": 0.5174039, "token_acc": 0.82550336, "grad_norm": 3.3866539, "learning_rate": 9.34e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.20707786, "global_step/max_steps": "256/1237", "percentage": "20.70%", "elapsed_time": "3h 7m 12s", "remaining_time": "11h 57m 23s"}
{"loss": 0.5126313, "token_acc": 0.8125, "grad_norm": 3.17025065, "learning_rate": 9.34e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.20788675, "global_step/max_steps": "257/1237", "percentage": "20.78%", "elapsed_time": "3h 7m 56s", "remaining_time": "11h 56m 39s"}
{"loss": 0.38750273, "token_acc": 0.79545455, "grad_norm": 2.17586756, "learning_rate": 9.33e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.20869565, "global_step/max_steps": "258/1237", "percentage": "20.86%", "elapsed_time": "3h 8m 40s", "remaining_time": "11h 55m 55s"}
{"loss": 0.47084993, "token_acc": 0.87437186, "grad_norm": 2.4927094, "learning_rate": 9.32e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.20950455, "global_step/max_steps": "259/1237", "percentage": "20.94%", "elapsed_time": "3h 9m 23s", "remaining_time": "11h 55m 11s"}
{"loss": 0.48012182, "token_acc": 0.84790875, "grad_norm": 3.26608658, "learning_rate": 9.32e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.21031345, "global_step/max_steps": "260/1237", "percentage": "21.02%", "elapsed_time": "3h 10m 7s", "remaining_time": "11h 54m 27s"}
{"loss": 0.46797526, "token_acc": 0.81395349, "grad_norm": 2.60784483, "learning_rate": 9.31e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.21112235, "global_step/max_steps": "261/1237", "percentage": "21.10%", "elapsed_time": "3h 10m 51s", "remaining_time": "11h 53m 43s"}
{"loss": 0.47132838, "token_acc": 0.86872587, "grad_norm": 2.98130131, "learning_rate": 9.3e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21193124, "global_step/max_steps": "262/1237", "percentage": "21.18%", "elapsed_time": "3h 11m 35s", "remaining_time": "11h 52m 59s"}
{"loss": 0.47330913, "token_acc": 0.84656085, "grad_norm": 2.99726486, "learning_rate": 9.3e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21274014, "global_step/max_steps": "263/1237", "percentage": "21.26%", "elapsed_time": "3h 12m 19s", "remaining_time": "11h 52m 15s"}
{"loss": 0.52024513, "token_acc": 0.83950617, "grad_norm": 2.75690031, "learning_rate": 9.29e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21354904, "global_step/max_steps": "264/1237", "percentage": "21.34%", "elapsed_time": "3h 13m 3s", "remaining_time": "11h 51m 30s"}
{"loss": 0.51385713, "token_acc": 0.82638889, "grad_norm": 3.45589757, "learning_rate": 9.28e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21435794, "global_step/max_steps": "265/1237", "percentage": "21.42%", "elapsed_time": "3h 13m 47s", "remaining_time": "11h 50m 47s"}
{"loss": 0.45872661, "token_acc": 0.81165919, "grad_norm": 2.40211129, "learning_rate": 9.27e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21516684, "global_step/max_steps": "266/1237", "percentage": "21.50%", "elapsed_time": "3h 14m 30s", "remaining_time": "11h 50m 3s"}
{"loss": 0.51649499, "token_acc": 0.84577114, "grad_norm": 2.76269126, "learning_rate": 9.27e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21597573, "global_step/max_steps": "267/1237", "percentage": "21.58%", "elapsed_time": "3h 15m 14s", "remaining_time": "11h 49m 19s"}
{"loss": 0.47523603, "token_acc": 0.82022472, "grad_norm": 2.13817573, "learning_rate": 9.26e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.21678463, "global_step/max_steps": "268/1237", "percentage": "21.67%", "elapsed_time": "3h 15m 58s", "remaining_time": "11h 48m 34s"}
{"loss": 0.51098788, "token_acc": 0.82795699, "grad_norm": 3.38649607, "learning_rate": 9.25e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.21759353, "global_step/max_steps": "269/1237", "percentage": "21.75%", "elapsed_time": "3h 16m 42s", "remaining_time": "11h 47m 50s"}
{"loss": 0.47165534, "token_acc": 0.8557047, "grad_norm": 3.03625989, "learning_rate": 9.25e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.21840243, "global_step/max_steps": "270/1237", "percentage": "21.83%", "elapsed_time": "3h 17m 25s", "remaining_time": "11h 47m 6s"}
{"loss": 0.45224237, "token_acc": 0.90504451, "grad_norm": 2.29533648, "learning_rate": 9.24e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.21921132, "global_step/max_steps": "271/1237", "percentage": "21.91%", "elapsed_time": "3h 18m 9s", "remaining_time": "11h 46m 22s"}
{"loss": 0.53695929, "token_acc": 0.8627451, "grad_norm": 3.22906637, "learning_rate": 9.23e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.22002022, "global_step/max_steps": "272/1237", "percentage": "21.99%", "elapsed_time": "3h 18m 53s", "remaining_time": "11h 45m 38s"}
{"loss": 0.46493036, "token_acc": 0.81854839, "grad_norm": 2.62891579, "learning_rate": 9.23e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.22082912, "global_step/max_steps": "273/1237", "percentage": "22.07%", "elapsed_time": "3h 19m 37s", "remaining_time": "11h 44m 55s"}
{"loss": 0.46253848, "token_acc": 0.84563758, "grad_norm": 2.30898333, "learning_rate": 9.22e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.22163802, "global_step/max_steps": "274/1237", "percentage": "22.15%", "elapsed_time": "3h 20m 21s", "remaining_time": "11h 44m 11s"}
{"loss": 0.43489784, "token_acc": 0.84274194, "grad_norm": 3.00023055, "learning_rate": 9.21e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.22244692, "global_step/max_steps": "275/1237", "percentage": "22.23%", "elapsed_time": "3h 21m 5s", "remaining_time": "11h 43m 27s"}
{"loss": 0.4636372, "token_acc": 0.87244898, "grad_norm": 2.60252786, "learning_rate": 9.2e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022781, "epoch": 0.22325581, "global_step/max_steps": "276/1237", "percentage": "22.31%", "elapsed_time": "3h 21m 49s", "remaining_time": "11h 42m 42s"}
{"loss": 0.46590668, "token_acc": 0.87368421, "grad_norm": 3.22578382, "learning_rate": 9.2e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022781, "epoch": 0.22406471, "global_step/max_steps": "277/1237", "percentage": "22.39%", "elapsed_time": "3h 22m 32s", "remaining_time": "11h 41m 58s"}
{"loss": 0.47200006, "token_acc": 0.89908257, "grad_norm": 2.47644544, "learning_rate": 9.19e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022781, "epoch": 0.22487361, "global_step/max_steps": "278/1237", "percentage": "22.47%", "elapsed_time": "3h 23m 16s", "remaining_time": "11h 41m 14s"}
{"loss": 0.4329688, "token_acc": 0.82978723, "grad_norm": 1.93996632, "learning_rate": 9.18e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022782, "epoch": 0.22568251, "global_step/max_steps": "279/1237", "percentage": "22.55%", "elapsed_time": "3h 24m 0s", "remaining_time": "11h 40m 29s"}
{"loss": 0.43587637, "token_acc": 0.89516129, "grad_norm": 2.53000855, "learning_rate": 9.17e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022782, "epoch": 0.22649141, "global_step/max_steps": "280/1237", "percentage": "22.64%", "elapsed_time": "3h 24m 43s", "remaining_time": "11h 39m 44s"}
{"loss": 0.38681465, "token_acc": 0.84259259, "grad_norm": 2.78688693, "learning_rate": 9.17e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022783, "epoch": 0.2273003, "global_step/max_steps": "281/1237", "percentage": "22.72%", "elapsed_time": "3h 25m 27s", "remaining_time": "11h 39m 0s"}
{"loss": 0.4020673, "token_acc": 0.88947368, "grad_norm": 2.67158985, "learning_rate": 9.16e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022783, "epoch": 0.2281092, "global_step/max_steps": "282/1237", "percentage": "22.80%", "elapsed_time": "3h 26m 11s", "remaining_time": "11h 38m 15s"}
{"loss": 0.58064377, "token_acc": 0.79237288, "grad_norm": 2.36309552, "learning_rate": 9.15e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022783, "epoch": 0.2289181, "global_step/max_steps": "283/1237", "percentage": "22.88%", "elapsed_time": "3h 26m 54s", "remaining_time": "11h 37m 31s"}
{"loss": 0.40160593, "token_acc": 0.87209302, "grad_norm": 2.14525294, "learning_rate": 9.14e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022783, "epoch": 0.229727, "global_step/max_steps": "284/1237", "percentage": "22.96%", "elapsed_time": "3h 27m 38s", "remaining_time": "11h 36m 47s"}
{"loss": 0.39092577, "token_acc": 0.88054608, "grad_norm": 2.5642252, "learning_rate": 9.14e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022783, "epoch": 0.23053589, "global_step/max_steps": "285/1237", "percentage": "23.04%", "elapsed_time": "3h 28m 22s", "remaining_time": "11h 36m 3s"}
{"loss": 0.4310419, "token_acc": 0.86448598, "grad_norm": 2.21181822, "learning_rate": 9.13e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.23134479, "global_step/max_steps": "286/1237", "percentage": "23.12%", "elapsed_time": "3h 29m 6s", "remaining_time": "11h 35m 19s"}
{"loss": 0.43590471, "token_acc": 0.864, "grad_norm": 3.1847713, "learning_rate": 9.12e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.23215369, "global_step/max_steps": "287/1237", "percentage": "23.20%", "elapsed_time": "3h 29m 50s", "remaining_time": "11h 34m 34s"}
{"loss": 0.44421214, "token_acc": 0.884, "grad_norm": 2.47793341, "learning_rate": 9.11e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.23296259, "global_step/max_steps": "288/1237", "percentage": "23.28%", "elapsed_time": "3h 30m 34s", "remaining_time": "11h 33m 50s"}
{"loss": 0.47166556, "token_acc": 0.85714286, "grad_norm": 3.27462268, "learning_rate": 9.11e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.23377149, "global_step/max_steps": "289/1237", "percentage": "23.36%", "elapsed_time": "3h 31m 17s", "remaining_time": "11h 33m 7s"}
{"loss": 0.46739423, "token_acc": 0.85022026, "grad_norm": 3.14505267, "learning_rate": 9.1e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.23458038, "global_step/max_steps": "290/1237", "percentage": "23.44%", "elapsed_time": "3h 32m 1s", "remaining_time": "11h 32m 22s"}
{"loss": 0.41937304, "token_acc": 0.88284519, "grad_norm": 2.33640122, "learning_rate": 9.09e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23538928, "global_step/max_steps": "291/1237", "percentage": "23.52%", "elapsed_time": "3h 32m 45s", "remaining_time": "11h 31m 38s"}
{"loss": 0.50263655, "token_acc": 0.85714286, "grad_norm": 2.82724261, "learning_rate": 9.08e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23619818, "global_step/max_steps": "292/1237", "percentage": "23.61%", "elapsed_time": "3h 33m 29s", "remaining_time": "11h 30m 54s"}
{"loss": 0.467924, "token_acc": 0.88148148, "grad_norm": 3.12822652, "learning_rate": 9.08e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23700708, "global_step/max_steps": "293/1237", "percentage": "23.69%", "elapsed_time": "3h 34m 13s", "remaining_time": "11h 30m 10s"}
{"loss": 0.48813871, "token_acc": 0.86641221, "grad_norm": 2.65954971, "learning_rate": 9.07e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23781598, "global_step/max_steps": "294/1237", "percentage": "23.77%", "elapsed_time": "3h 34m 56s", "remaining_time": "11h 29m 26s"}
{"loss": 0.4249405, "token_acc": 0.81506849, "grad_norm": 2.28600717, "learning_rate": 9.06e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23862487, "global_step/max_steps": "295/1237", "percentage": "23.85%", "elapsed_time": "3h 35m 40s", "remaining_time": "11h 28m 42s"}
{"loss": 0.5840835, "token_acc": 0.86307054, "grad_norm": 2.84907031, "learning_rate": 9.05e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23943377, "global_step/max_steps": "296/1237", "percentage": "23.93%", "elapsed_time": "3h 36m 24s", "remaining_time": "11h 27m 58s"}
{"loss": 0.49336284, "token_acc": 0.84883721, "grad_norm": 2.5748632, "learning_rate": 9.05e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24024267, "global_step/max_steps": "297/1237", "percentage": "24.01%", "elapsed_time": "3h 37m 8s", "remaining_time": "11h 27m 15s"}
{"loss": 0.4779374, "token_acc": 0.89637306, "grad_norm": 2.21277618, "learning_rate": 9.04e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.24105157, "global_step/max_steps": "298/1237", "percentage": "24.09%", "elapsed_time": "3h 37m 52s", "remaining_time": "11h 26m 32s"}
{"loss": 0.45782912, "token_acc": 0.81318681, "grad_norm": 2.80141664, "learning_rate": 9.03e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.24186047, "global_step/max_steps": "299/1237", "percentage": "24.17%", "elapsed_time": "3h 38m 36s", "remaining_time": "11h 25m 48s"}
{"loss": 0.52572984, "token_acc": 0.82291667, "grad_norm": 2.59869981, "learning_rate": 9.02e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.24266936, "global_step/max_steps": "300/1237", "percentage": "24.25%", "elapsed_time": "3h 39m 20s", "remaining_time": "11h 25m 4s"}
{"loss": 0.50105834, "token_acc": 0.85903084, "grad_norm": 2.7166779, "learning_rate": 9.01e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.24347826, "global_step/max_steps": "301/1237", "percentage": "24.33%", "elapsed_time": "3h 40m 4s", "remaining_time": "11h 24m 20s"}
{"loss": 0.4537707, "token_acc": 0.86590038, "grad_norm": 2.93479276, "learning_rate": 9.01e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24428716, "global_step/max_steps": "302/1237", "percentage": "24.41%", "elapsed_time": "3h 40m 48s", "remaining_time": "11h 23m 36s"}
{"loss": 0.3976354, "token_acc": 0.86904762, "grad_norm": 2.41546512, "learning_rate": 9e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24509606, "global_step/max_steps": "303/1237", "percentage": "24.49%", "elapsed_time": "3h 41m 31s", "remaining_time": "11h 22m 52s"}
{"loss": 0.51607072, "token_acc": 0.86147186, "grad_norm": 2.50245643, "learning_rate": 8.99e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24590495, "global_step/max_steps": "304/1237", "percentage": "24.58%", "elapsed_time": "3h 42m 15s", "remaining_time": "11h 22m 8s"}
{"loss": 0.46165463, "token_acc": 0.8442029, "grad_norm": 2.64694977, "learning_rate": 8.98e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24671385, "global_step/max_steps": "305/1237", "percentage": "24.66%", "elapsed_time": "3h 42m 59s", "remaining_time": "11h 21m 25s"}
{"loss": 0.42548537, "token_acc": 0.85258964, "grad_norm": 2.61302662, "learning_rate": 8.97e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24752275, "global_step/max_steps": "306/1237", "percentage": "24.74%", "elapsed_time": "3h 43m 43s", "remaining_time": "11h 20m 40s"}
{"loss": 0.48335642, "token_acc": 0.84644195, "grad_norm": 2.57845116, "learning_rate": 8.97e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24833165, "global_step/max_steps": "307/1237", "percentage": "24.82%", "elapsed_time": "3h 44m 27s", "remaining_time": "11h 19m 56s"}
{"loss": 0.47363618, "token_acc": 0.84489796, "grad_norm": 2.42997265, "learning_rate": 8.96e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24914055, "global_step/max_steps": "308/1237", "percentage": "24.90%", "elapsed_time": "3h 45m 11s", "remaining_time": "11h 19m 12s"}
{"loss": 0.5032537, "token_acc": 0.84664537, "grad_norm": 2.81629324, "learning_rate": 8.95e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24994944, "global_step/max_steps": "309/1237", "percentage": "24.98%", "elapsed_time": "3h 45m 54s", "remaining_time": "11h 18m 28s"}
{"loss": 0.4304862, "token_acc": 0.82622951, "grad_norm": 2.67188382, "learning_rate": 8.94e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.25075834, "global_step/max_steps": "310/1237", "percentage": "25.06%", "elapsed_time": "3h 46m 38s", "remaining_time": "11h 17m 44s"}
{"loss": 0.5135392, "token_acc": 0.84120172, "grad_norm": 2.43070984, "learning_rate": 8.93e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.25156724, "global_step/max_steps": "311/1237", "percentage": "25.14%", "elapsed_time": "3h 47m 22s", "remaining_time": "11h 17m 0s"}
{"loss": 0.45866466, "token_acc": 0.86925795, "grad_norm": 2.66625166, "learning_rate": 8.92e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25237614, "global_step/max_steps": "312/1237", "percentage": "25.22%", "elapsed_time": "3h 48m 6s", "remaining_time": "11h 16m 16s"}
{"loss": 0.52999073, "token_acc": 0.85820896, "grad_norm": 3.02797079, "learning_rate": 8.92e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25318504, "global_step/max_steps": "313/1237", "percentage": "25.30%", "elapsed_time": "3h 48m 50s", "remaining_time": "11h 15m 32s"}
{"loss": 0.51990229, "token_acc": 0.81168831, "grad_norm": 2.60454226, "learning_rate": 8.91e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.25399393, "global_step/max_steps": "314/1237", "percentage": "25.38%", "elapsed_time": "3h 49m 34s", "remaining_time": "11h 14m 49s"}
{"loss": 0.45891786, "token_acc": 0.82432432, "grad_norm": 2.72729564, "learning_rate": 8.9e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25480283, "global_step/max_steps": "315/1237", "percentage": "25.46%", "elapsed_time": "3h 50m 18s", "remaining_time": "11h 14m 5s"}
{"loss": 0.39891768, "token_acc": 0.8440678, "grad_norm": 2.20007753, "learning_rate": 8.89e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25561173, "global_step/max_steps": "316/1237", "percentage": "25.55%", "elapsed_time": "3h 51m 1s", "remaining_time": "11h 13m 20s"}
{"loss": 0.45993167, "token_acc": 0.83253589, "grad_norm": 2.30103254, "learning_rate": 8.88e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25642063, "global_step/max_steps": "317/1237", "percentage": "25.63%", "elapsed_time": "3h 51m 45s", "remaining_time": "11h 12m 37s"}
{"loss": 0.45907646, "token_acc": 0.83939394, "grad_norm": 2.61465645, "learning_rate": 8.87e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25722952, "global_step/max_steps": "318/1237", "percentage": "25.71%", "elapsed_time": "3h 52m 29s", "remaining_time": "11h 11m 53s"}
{"loss": 0.39890218, "token_acc": 0.83043478, "grad_norm": 2.14069438, "learning_rate": 8.87e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25803842, "global_step/max_steps": "319/1237", "percentage": "25.79%", "elapsed_time": "3h 53m 13s", "remaining_time": "11h 11m 9s"}
{"loss": 0.42562652, "token_acc": 0.87179487, "grad_norm": 2.52988529, "learning_rate": 8.86e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25884732, "global_step/max_steps": "320/1237", "percentage": "25.87%", "elapsed_time": "3h 53m 57s", "remaining_time": "11h 10m 25s"}
{"loss": 0.39501807, "token_acc": 0.88844622, "grad_norm": 2.34665227, "learning_rate": 8.85e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25965622, "global_step/max_steps": "321/1237", "percentage": "25.95%", "elapsed_time": "3h 54m 41s", "remaining_time": "11h 9m 41s"}
{"loss": 0.46186584, "token_acc": 0.83870968, "grad_norm": 2.67526174, "learning_rate": 8.84e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.26046512, "global_step/max_steps": "322/1237", "percentage": "26.03%", "elapsed_time": "3h 55m 24s", "remaining_time": "11h 8m 57s"}
{"loss": 0.42096627, "token_acc": 0.88306452, "grad_norm": 2.24833298, "learning_rate": 8.83e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.26127401, "global_step/max_steps": "323/1237", "percentage": "26.11%", "elapsed_time": "3h 56m 9s", "remaining_time": "11h 8m 14s"}
{"loss": 0.47623774, "token_acc": 0.88105727, "grad_norm": 2.69680882, "learning_rate": 8.82e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.26208291, "global_step/max_steps": "324/1237", "percentage": "26.19%", "elapsed_time": "3h 56m 52s", "remaining_time": "11h 7m 30s"}
{"loss": 0.51547849, "token_acc": 0.84942085, "grad_norm": 3.22101331, "learning_rate": 8.81e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.26289181, "global_step/max_steps": "325/1237", "percentage": "26.27%", "elapsed_time": "3h 57m 36s", "remaining_time": "11h 6m 45s"}
{"loss": 0.47922519, "token_acc": 0.84126984, "grad_norm": 1.97918272, "learning_rate": 8.81e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.26370071, "global_step/max_steps": "326/1237", "percentage": "26.35%", "elapsed_time": "3h 58m 20s", "remaining_time": "11h 6m 1s"}
{"loss": 0.40877694, "token_acc": 0.83606557, "grad_norm": 1.93992627, "learning_rate": 8.8e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.26450961, "global_step/max_steps": "327/1237", "percentage": "26.43%", "elapsed_time": "3h 59m 4s", "remaining_time": "11h 5m 17s"}
{"loss": 0.49197519, "token_acc": 0.82934132, "grad_norm": 2.34452367, "learning_rate": 8.79e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2653185, "global_step/max_steps": "328/1237", "percentage": "26.52%", "elapsed_time": "3h 59m 48s", "remaining_time": "11h 4m 34s"}
{"loss": 0.46106106, "token_acc": 0.84079602, "grad_norm": 2.54904222, "learning_rate": 8.78e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.2661274, "global_step/max_steps": "329/1237", "percentage": "26.60%", "elapsed_time": "4h 0m 31s", "remaining_time": "11h 3m 50s"}
{"loss": 0.53494406, "token_acc": 0.86192469, "grad_norm": 7.02335119, "learning_rate": 8.77e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2669363, "global_step/max_steps": "330/1237", "percentage": "26.68%", "elapsed_time": "4h 1m 15s", "remaining_time": "11h 3m 6s"}
{"loss": 0.46497542, "token_acc": 0.88702929, "grad_norm": 3.55215597, "learning_rate": 8.76e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2677452, "global_step/max_steps": "331/1237", "percentage": "26.76%", "elapsed_time": "4h 1m 59s", "remaining_time": "11h 2m 23s"}
{"loss": 0.47798598, "token_acc": 0.83769634, "grad_norm": 2.68469667, "learning_rate": 8.75e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2685541, "global_step/max_steps": "332/1237", "percentage": "26.84%", "elapsed_time": "4h 2m 43s", "remaining_time": "11h 1m 39s"}
{"loss": 0.43780291, "token_acc": 0.86923077, "grad_norm": 2.12319231, "learning_rate": 8.74e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.26936299, "global_step/max_steps": "333/1237", "percentage": "26.92%", "elapsed_time": "4h 3m 27s", "remaining_time": "11h 0m 56s"}
{"loss": 0.43149373, "token_acc": 0.85, "grad_norm": 2.41621256, "learning_rate": 8.74e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.27017189, "global_step/max_steps": "334/1237", "percentage": "27.00%", "elapsed_time": "4h 4m 11s", "remaining_time": "11h 0m 11s"}
{"loss": 0.4639371, "token_acc": 0.84782609, "grad_norm": 2.40772676, "learning_rate": 8.73e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.27098079, "global_step/max_steps": "335/1237", "percentage": "27.08%", "elapsed_time": "4h 4m 55s", "remaining_time": "10h 59m 27s"}
{"loss": 0.48346356, "token_acc": 0.85443038, "grad_norm": 2.26038837, "learning_rate": 8.72e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.27178969, "global_step/max_steps": "336/1237", "percentage": "27.16%", "elapsed_time": "4h 5m 39s", "remaining_time": "10h 58m 44s"}
{"loss": 0.41761127, "token_acc": 0.88020833, "grad_norm": 2.37703514, "learning_rate": 8.71e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.27259858, "global_step/max_steps": "337/1237", "percentage": "27.24%", "elapsed_time": "4h 6m 23s", "remaining_time": "10h 57m 59s"}
{"loss": 0.48771983, "token_acc": 0.85929648, "grad_norm": 2.85590053, "learning_rate": 8.7e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27340748, "global_step/max_steps": "338/1237", "percentage": "27.32%", "elapsed_time": "4h 7m 6s", "remaining_time": "10h 57m 15s"}
{"loss": 0.44448498, "token_acc": 0.87606838, "grad_norm": 3.34950209, "learning_rate": 8.69e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27421638, "global_step/max_steps": "339/1237", "percentage": "27.41%", "elapsed_time": "4h 7m 50s", "remaining_time": "10h 56m 32s"}
{"loss": 0.47281522, "token_acc": 0.82251082, "grad_norm": 2.20490956, "learning_rate": 8.68e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27502528, "global_step/max_steps": "340/1237", "percentage": "27.49%", "elapsed_time": "4h 8m 34s", "remaining_time": "10h 55m 47s"}
{"loss": 0.42724931, "token_acc": 0.875, "grad_norm": 2.29510522, "learning_rate": 8.67e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27583418, "global_step/max_steps": "341/1237", "percentage": "27.57%", "elapsed_time": "4h 9m 18s", "remaining_time": "10h 55m 4s"}
{"loss": 0.52141863, "token_acc": 0.82051282, "grad_norm": 3.00166488, "learning_rate": 8.66e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27664307, "global_step/max_steps": "342/1237", "percentage": "27.65%", "elapsed_time": "4h 10m 2s", "remaining_time": "10h 54m 20s"}
{"loss": 0.43387383, "token_acc": 0.90825688, "grad_norm": 2.66539574, "learning_rate": 8.65e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27745197, "global_step/max_steps": "343/1237", "percentage": "27.73%", "elapsed_time": "4h 10m 46s", "remaining_time": "10h 53m 36s"}
{"loss": 0.52461445, "token_acc": 0.82592593, "grad_norm": 2.32176232, "learning_rate": 8.64e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27826087, "global_step/max_steps": "344/1237", "percentage": "27.81%", "elapsed_time": "4h 11m 29s", "remaining_time": "10h 52m 52s"}
{"loss": 0.48798543, "token_acc": 0.84878049, "grad_norm": 2.45585632, "learning_rate": 8.64e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27906977, "global_step/max_steps": "345/1237", "percentage": "27.89%", "elapsed_time": "4h 12m 13s", "remaining_time": "10h 52m 8s"}
{"loss": 0.50876606, "token_acc": 0.83116883, "grad_norm": 2.18670964, "learning_rate": 8.63e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27987867, "global_step/max_steps": "346/1237", "percentage": "27.97%", "elapsed_time": "4h 12m 57s", "remaining_time": "10h 51m 24s"}
{"loss": 0.43445641, "token_acc": 0.85714286, "grad_norm": 2.22171879, "learning_rate": 8.62e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.28068756, "global_step/max_steps": "347/1237", "percentage": "28.05%", "elapsed_time": "4h 13m 41s", "remaining_time": "10h 50m 40s"}
{"loss": 0.45049787, "token_acc": 0.85238095, "grad_norm": 2.62979531, "learning_rate": 8.61e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.28149646, "global_step/max_steps": "348/1237", "percentage": "28.13%", "elapsed_time": "4h 14m 25s", "remaining_time": "10h 49m 56s"}
{"loss": 0.45087773, "token_acc": 0.85654008, "grad_norm": 3.71749616, "learning_rate": 8.6e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.28230536, "global_step/max_steps": "349/1237", "percentage": "28.21%", "elapsed_time": "4h 15m 8s", "remaining_time": "10h 49m 12s"}
{"loss": 0.41054547, "token_acc": 0.85667752, "grad_norm": 2.35304093, "learning_rate": 8.59e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.28311426, "global_step/max_steps": "350/1237", "percentage": "28.29%", "elapsed_time": "4h 15m 52s", "remaining_time": "10h 48m 28s"}
{"loss": 0.52550113, "token_acc": 0.83464567, "grad_norm": 2.34276724, "learning_rate": 8.58e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.28392315, "global_step/max_steps": "351/1237", "percentage": "28.38%", "elapsed_time": "4h 16m 36s", "remaining_time": "10h 47m 44s"}
{"loss": 0.44326782, "token_acc": 0.83141762, "grad_norm": 2.32755542, "learning_rate": 8.57e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.28473205, "global_step/max_steps": "352/1237", "percentage": "28.46%", "elapsed_time": "4h 17m 20s", "remaining_time": "10h 47m 1s"}
{"loss": 0.46880352, "token_acc": 0.83754513, "grad_norm": 2.16235161, "learning_rate": 8.56e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.28554095, "global_step/max_steps": "353/1237", "percentage": "28.54%", "elapsed_time": "4h 18m 4s", "remaining_time": "10h 46m 17s"}
{"loss": 0.48800421, "token_acc": 0.81192661, "grad_norm": 2.12707281, "learning_rate": 8.55e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.28634985, "global_step/max_steps": "354/1237", "percentage": "28.62%", "elapsed_time": "4h 18m 48s", "remaining_time": "10h 45m 33s"}
{"loss": 0.44881603, "token_acc": 0.81960784, "grad_norm": 2.73175979, "learning_rate": 8.54e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.28715875, "global_step/max_steps": "355/1237", "percentage": "28.70%", "elapsed_time": "4h 19m 32s", "remaining_time": "10h 44m 50s"}
{"loss": 0.3923991, "token_acc": 0.83629893, "grad_norm": 2.02513671, "learning_rate": 8.53e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.28796764, "global_step/max_steps": "356/1237", "percentage": "28.78%", "elapsed_time": "4h 20m 16s", "remaining_time": "10h 44m 6s"}
{"loss": 0.46766937, "token_acc": 0.82608696, "grad_norm": 2.50119448, "learning_rate": 8.52e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.28877654, "global_step/max_steps": "357/1237", "percentage": "28.86%", "elapsed_time": "4h 21m 0s", "remaining_time": "10h 43m 22s"}
{"loss": 0.48559022, "token_acc": 0.86328125, "grad_norm": 2.19286418, "learning_rate": 8.51e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.28958544, "global_step/max_steps": "358/1237", "percentage": "28.94%", "elapsed_time": "4h 21m 43s", "remaining_time": "10h 42m 37s"}
{"loss": 0.50471753, "token_acc": 0.8647541, "grad_norm": 2.92289472, "learning_rate": 8.5e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.29039434, "global_step/max_steps": "359/1237", "percentage": "29.02%", "elapsed_time": "4h 22m 27s", "remaining_time": "10h 41m 53s"}
{"loss": 0.44641426, "token_acc": 0.84115523, "grad_norm": 2.38833117, "learning_rate": 8.5e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.29120324, "global_step/max_steps": "360/1237", "percentage": "29.10%", "elapsed_time": "4h 23m 11s", "remaining_time": "10h 41m 9s"}
{"loss": 0.44610536, "token_acc": 0.89201878, "grad_norm": 3.44400382, "learning_rate": 8.49e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.29201213, "global_step/max_steps": "361/1237", "percentage": "29.18%", "elapsed_time": "4h 23m 55s", "remaining_time": "10h 40m 25s"}
{"loss": 0.43880612, "token_acc": 0.86324786, "grad_norm": 2.41623449, "learning_rate": 8.48e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.29282103, "global_step/max_steps": "362/1237", "percentage": "29.26%", "elapsed_time": "4h 24m 38s", "remaining_time": "10h 39m 41s"}
{"loss": 0.41682696, "token_acc": 0.85433071, "grad_norm": 2.43985295, "learning_rate": 8.47e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.29362993, "global_step/max_steps": "363/1237", "percentage": "29.35%", "elapsed_time": "4h 25m 22s", "remaining_time": "10h 38m 57s"}
{"loss": 0.4725669, "token_acc": 0.85436893, "grad_norm": 2.51781821, "learning_rate": 8.46e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.29443883, "global_step/max_steps": "364/1237", "percentage": "29.43%", "elapsed_time": "4h 26m 6s", "remaining_time": "10h 38m 13s"}
{"loss": 0.52131015, "token_acc": 0.83934426, "grad_norm": 2.52672291, "learning_rate": 8.45e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.29524772, "global_step/max_steps": "365/1237", "percentage": "29.51%", "elapsed_time": "4h 26m 50s", "remaining_time": "10h 37m 29s"}
{"loss": 0.48780751, "token_acc": 0.86206897, "grad_norm": 2.39710712, "learning_rate": 8.44e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.29605662, "global_step/max_steps": "366/1237", "percentage": "29.59%", "elapsed_time": "4h 27m 34s", "remaining_time": "10h 36m 45s"}
{"loss": 0.38472825, "token_acc": 0.85384615, "grad_norm": 3.86580753, "learning_rate": 8.43e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.29686552, "global_step/max_steps": "367/1237", "percentage": "29.67%", "elapsed_time": "4h 28m 17s", "remaining_time": "10h 36m 1s"}
{"loss": 0.50189948, "token_acc": 0.83757962, "grad_norm": 2.59405589, "learning_rate": 8.42e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.29767442, "global_step/max_steps": "368/1237", "percentage": "29.75%", "elapsed_time": "4h 29m 1s", "remaining_time": "10h 35m 17s"}
{"loss": 0.45184442, "token_acc": 0.84581498, "grad_norm": 2.45655036, "learning_rate": 8.41e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.29848332, "global_step/max_steps": "369/1237", "percentage": "29.83%", "elapsed_time": "4h 29m 45s", "remaining_time": "10h 34m 33s"}
{"loss": 0.44442558, "token_acc": 0.87864078, "grad_norm": 3.4539547, "learning_rate": 8.4e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.29929221, "global_step/max_steps": "370/1237", "percentage": "29.91%", "elapsed_time": "4h 30m 29s", "remaining_time": "10h 33m 48s"}
{"loss": 0.43594342, "token_acc": 0.84158416, "grad_norm": 2.5049355, "learning_rate": 8.39e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.30010111, "global_step/max_steps": "371/1237", "percentage": "29.99%", "elapsed_time": "4h 31m 12s", "remaining_time": "10h 33m 4s"}
{"loss": 0.40711108, "token_acc": 0.85169492, "grad_norm": 2.72110987, "learning_rate": 8.38e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.30091001, "global_step/max_steps": "372/1237", "percentage": "30.07%", "elapsed_time": "4h 31m 56s", "remaining_time": "10h 32m 20s"}
{"loss": 0.44904771, "token_acc": 0.86046512, "grad_norm": 2.07213259, "learning_rate": 8.37e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.30171891, "global_step/max_steps": "373/1237", "percentage": "30.15%", "elapsed_time": "4h 32m 40s", "remaining_time": "10h 31m 36s"}
{"loss": 0.43667987, "token_acc": 0.86725664, "grad_norm": 2.66944957, "learning_rate": 8.36e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.30252781, "global_step/max_steps": "374/1237", "percentage": "30.23%", "elapsed_time": "4h 33m 24s", "remaining_time": "10h 30m 52s"}
{"loss": 0.45225576, "token_acc": 0.84816754, "grad_norm": 2.60447502, "learning_rate": 8.35e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.3033367, "global_step/max_steps": "375/1237", "percentage": "30.32%", "elapsed_time": "4h 34m 8s", "remaining_time": "10h 30m 8s"}
{"loss": 0.39903498, "token_acc": 0.83935743, "grad_norm": 2.26830196, "learning_rate": 8.34e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.3041456, "global_step/max_steps": "376/1237", "percentage": "30.40%", "elapsed_time": "4h 34m 51s", "remaining_time": "10h 29m 24s"}
{"loss": 0.47003981, "token_acc": 0.8828125, "grad_norm": 2.60981059, "learning_rate": 8.33e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.3049545, "global_step/max_steps": "377/1237", "percentage": "30.48%", "elapsed_time": "4h 35m 35s", "remaining_time": "10h 28m 40s"}
{"loss": 0.46801502, "token_acc": 0.80246914, "grad_norm": 2.75664854, "learning_rate": 8.32e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.3057634, "global_step/max_steps": "378/1237", "percentage": "30.56%", "elapsed_time": "4h 36m 19s", "remaining_time": "10h 27m 56s"}
{"loss": 0.45518428, "token_acc": 0.86328125, "grad_norm": 2.43513584, "learning_rate": 8.31e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.3065723, "global_step/max_steps": "379/1237", "percentage": "30.64%", "elapsed_time": "4h 37m 3s", "remaining_time": "10h 27m 12s"}
{"loss": 0.40630266, "token_acc": 0.86521739, "grad_norm": 2.30554914, "learning_rate": 8.3e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.30738119, "global_step/max_steps": "380/1237", "percentage": "30.72%", "elapsed_time": "4h 37m 47s", "remaining_time": "10h 26m 28s"}
{"loss": 0.52758229, "token_acc": 0.86528497, "grad_norm": 2.88131881, "learning_rate": 8.29e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.30819009, "global_step/max_steps": "381/1237", "percentage": "30.80%", "elapsed_time": "4h 38m 30s", "remaining_time": "10h 25m 43s"}
{"loss": 0.46578085, "token_acc": 0.80816327, "grad_norm": 2.28837609, "learning_rate": 8.28e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.30899899, "global_step/max_steps": "382/1237", "percentage": "30.88%", "elapsed_time": "4h 39m 14s", "remaining_time": "10h 25m 0s"}
{"loss": 0.48991582, "token_acc": 0.87763713, "grad_norm": 2.43372226, "learning_rate": 8.27e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.30980789, "global_step/max_steps": "383/1237", "percentage": "30.96%", "elapsed_time": "4h 39m 58s", "remaining_time": "10h 24m 16s"}
{"loss": 0.49139786, "token_acc": 0.84549356, "grad_norm": 2.35947108, "learning_rate": 8.26e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.31061678, "global_step/max_steps": "384/1237", "percentage": "31.04%", "elapsed_time": "4h 40m 42s", "remaining_time": "10h 23m 32s"}
{"loss": 0.39543632, "token_acc": 0.87698413, "grad_norm": 2.94610643, "learning_rate": 8.25e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31142568, "global_step/max_steps": "385/1237", "percentage": "31.12%", "elapsed_time": "4h 41m 25s", "remaining_time": "10h 22m 48s"}
{"loss": 0.43667212, "token_acc": 0.84262295, "grad_norm": 2.6762743, "learning_rate": 8.24e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.31223458, "global_step/max_steps": "386/1237", "percentage": "31.20%", "elapsed_time": "4h 42m 9s", "remaining_time": "10h 22m 4s"}
{"loss": 0.42428279, "token_acc": 0.87241379, "grad_norm": 2.28007936, "learning_rate": 8.23e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31304348, "global_step/max_steps": "387/1237", "percentage": "31.29%", "elapsed_time": "4h 42m 53s", "remaining_time": "10h 21m 20s"}
{"loss": 0.44696489, "token_acc": 0.87593985, "grad_norm": 2.12620091, "learning_rate": 8.22e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31385238, "global_step/max_steps": "388/1237", "percentage": "31.37%", "elapsed_time": "4h 43m 37s", "remaining_time": "10h 20m 36s"}
{"loss": 0.45063227, "token_acc": 0.88235294, "grad_norm": 2.38913012, "learning_rate": 8.21e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31466127, "global_step/max_steps": "389/1237", "percentage": "31.45%", "elapsed_time": "4h 44m 21s", "remaining_time": "10h 19m 52s"}
{"loss": 0.41685021, "token_acc": 0.88652482, "grad_norm": 2.29624963, "learning_rate": 8.2e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31547017, "global_step/max_steps": "390/1237", "percentage": "31.53%", "elapsed_time": "4h 45m 5s", "remaining_time": "10h 19m 8s"}
{"loss": 0.42394435, "token_acc": 0.84115523, "grad_norm": 2.06825256, "learning_rate": 8.19e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31627907, "global_step/max_steps": "391/1237", "percentage": "31.61%", "elapsed_time": "4h 45m 48s", "remaining_time": "10h 18m 24s"}
{"loss": 0.44383469, "token_acc": 0.89777778, "grad_norm": 2.43737531, "learning_rate": 8.18e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31708797, "global_step/max_steps": "392/1237", "percentage": "31.69%", "elapsed_time": "4h 46m 32s", "remaining_time": "10h 17m 40s"}
{"loss": 0.46697733, "token_acc": 0.85714286, "grad_norm": 3.0157485, "learning_rate": 8.17e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31789687, "global_step/max_steps": "393/1237", "percentage": "31.77%", "elapsed_time": "4h 47m 16s", "remaining_time": "10h 16m 56s"}
{"loss": 0.46818388, "token_acc": 0.78333333, "grad_norm": 2.43430257, "learning_rate": 8.16e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31870576, "global_step/max_steps": "394/1237", "percentage": "31.85%", "elapsed_time": "4h 48m 0s", "remaining_time": "10h 16m 12s"}
{"loss": 0.45939022, "token_acc": 0.84249084, "grad_norm": 2.06392527, "learning_rate": 8.15e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31951466, "global_step/max_steps": "395/1237", "percentage": "31.93%", "elapsed_time": "4h 48m 44s", "remaining_time": "10h 15m 28s"}
{"loss": 0.51390254, "token_acc": 0.84411765, "grad_norm": 2.52077913, "learning_rate": 8.14e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.32032356, "global_step/max_steps": "396/1237", "percentage": "32.01%", "elapsed_time": "4h 49m 27s", "remaining_time": "10h 14m 44s"}
{"loss": 0.4349075, "token_acc": 0.85201794, "grad_norm": 2.6876812, "learning_rate": 8.12e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.32113246, "global_step/max_steps": "397/1237", "percentage": "32.09%", "elapsed_time": "4h 50m 11s", "remaining_time": "10h 14m 1s"}
{"loss": 0.45465523, "token_acc": 0.87148594, "grad_norm": 2.19860697, "learning_rate": 8.11e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32194135, "global_step/max_steps": "398/1237", "percentage": "32.17%", "elapsed_time": "4h 50m 55s", "remaining_time": "10h 13m 16s"}
{"loss": 0.53863001, "token_acc": 0.85531915, "grad_norm": 2.67964911, "learning_rate": 8.1e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32275025, "global_step/max_steps": "399/1237", "percentage": "32.26%", "elapsed_time": "4h 51m 39s", "remaining_time": "10h 12m 32s"}
{"loss": 0.44705707, "token_acc": 0.802589, "grad_norm": 2.46575236, "learning_rate": 8.09e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32355915, "global_step/max_steps": "400/1237", "percentage": "32.34%", "elapsed_time": "4h 52m 22s", "remaining_time": "10h 11m 48s"}
{"loss": 0.46309984, "token_acc": 0.82527881, "grad_norm": 2.69577312, "learning_rate": 8.08e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32436805, "global_step/max_steps": "401/1237", "percentage": "32.42%", "elapsed_time": "4h 53m 6s", "remaining_time": "10h 11m 4s"}
{"loss": 0.47690147, "token_acc": 0.85654008, "grad_norm": 2.63882565, "learning_rate": 8.07e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32517695, "global_step/max_steps": "402/1237", "percentage": "32.50%", "elapsed_time": "4h 53m 50s", "remaining_time": "10h 10m 19s"}
{"loss": 0.5046311, "token_acc": 0.825, "grad_norm": 2.65868545, "learning_rate": 8.06e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32598584, "global_step/max_steps": "403/1237", "percentage": "32.58%", "elapsed_time": "4h 54m 34s", "remaining_time": "10h 9m 36s"}
{"loss": 0.45166928, "token_acc": 0.87254902, "grad_norm": 2.57514882, "learning_rate": 8.05e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.32679474, "global_step/max_steps": "404/1237", "percentage": "32.66%", "elapsed_time": "4h 55m 17s", "remaining_time": "10h 8m 52s"}
{"loss": 0.4770453, "token_acc": 0.85396825, "grad_norm": 2.75208354, "learning_rate": 8.04e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32760364, "global_step/max_steps": "405/1237", "percentage": "32.74%", "elapsed_time": "4h 56m 1s", "remaining_time": "10h 8m 8s"}
{"loss": 0.44387978, "token_acc": 0.85062241, "grad_norm": 2.68217683, "learning_rate": 8.03e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32841254, "global_step/max_steps": "406/1237", "percentage": "32.82%", "elapsed_time": "4h 56m 45s", "remaining_time": "10h 7m 24s"}
{"loss": 0.47109008, "token_acc": 0.84153005, "grad_norm": 2.59034467, "learning_rate": 8.02e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.32922144, "global_step/max_steps": "407/1237", "percentage": "32.90%", "elapsed_time": "4h 57m 29s", "remaining_time": "10h 6m 40s"}
{"loss": 0.42762351, "token_acc": 0.86915888, "grad_norm": 1.94219816, "learning_rate": 8.01e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33003033, "global_step/max_steps": "408/1237", "percentage": "32.98%", "elapsed_time": "4h 58m 13s", "remaining_time": "10h 5m 56s"}
{"loss": 0.43998957, "token_acc": 0.81538462, "grad_norm": 1.92745674, "learning_rate": 8e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33083923, "global_step/max_steps": "409/1237", "percentage": "33.06%", "elapsed_time": "4h 58m 57s", "remaining_time": "10h 5m 12s"}
{"loss": 0.43715045, "token_acc": 0.84474886, "grad_norm": 2.34969592, "learning_rate": 7.99e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33164813, "global_step/max_steps": "410/1237", "percentage": "33.14%", "elapsed_time": "4h 59m 40s", "remaining_time": "10h 4m 28s"}
{"loss": 0.43923849, "token_acc": 0.84536082, "grad_norm": 2.50802374, "learning_rate": 7.98e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33245703, "global_step/max_steps": "411/1237", "percentage": "33.23%", "elapsed_time": "5h 0m 24s", "remaining_time": "10h 3m 45s"}
{"loss": 0.42986417, "token_acc": 0.85042735, "grad_norm": 2.00715995, "learning_rate": 7.97e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.33326593, "global_step/max_steps": "412/1237", "percentage": "33.31%", "elapsed_time": "5h 1m 8s", "remaining_time": "10h 3m 1s"}
{"loss": 0.45020729, "token_acc": 0.85460993, "grad_norm": 2.33189654, "learning_rate": 7.96e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33407482, "global_step/max_steps": "413/1237", "percentage": "33.39%", "elapsed_time": "5h 1m 52s", "remaining_time": "10h 2m 17s"}
{"loss": 0.45305842, "token_acc": 0.88961039, "grad_norm": 2.5200367, "learning_rate": 7.94e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33488372, "global_step/max_steps": "414/1237", "percentage": "33.47%", "elapsed_time": "5h 2m 36s", "remaining_time": "10h 1m 33s"}
{"loss": 0.44627559, "token_acc": 0.875, "grad_norm": 2.35382557, "learning_rate": 7.93e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33569262, "global_step/max_steps": "415/1237", "percentage": "33.55%", "elapsed_time": "5h 3m 20s", "remaining_time": "10h 0m 50s"}
{"loss": 0.44542032, "token_acc": 0.81512605, "grad_norm": 2.27104402, "learning_rate": 7.92e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33650152, "global_step/max_steps": "416/1237", "percentage": "33.63%", "elapsed_time": "5h 4m 4s", "remaining_time": "10h 0m 5s"}
{"loss": 0.43954569, "token_acc": 0.86170213, "grad_norm": 2.46996903, "learning_rate": 7.91e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33731041, "global_step/max_steps": "417/1237", "percentage": "33.71%", "elapsed_time": "5h 4m 47s", "remaining_time": "9h 59m 21s"}
{"loss": 0.4436686, "token_acc": 0.88644689, "grad_norm": 2.30894065, "learning_rate": 7.9e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33811931, "global_step/max_steps": "418/1237", "percentage": "33.79%", "elapsed_time": "5h 5m 31s", "remaining_time": "9h 58m 37s"}
{"loss": 0.4890894, "token_acc": 0.85931559, "grad_norm": 2.10535359, "learning_rate": 7.89e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33892821, "global_step/max_steps": "419/1237", "percentage": "33.87%", "elapsed_time": "5h 6m 15s", "remaining_time": "9h 57m 53s"}
{"loss": 0.4750371, "token_acc": 0.88444444, "grad_norm": 2.43587828, "learning_rate": 7.88e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022795, "epoch": 0.33973711, "global_step/max_steps": "420/1237", "percentage": "33.95%", "elapsed_time": "5h 6m 58s", "remaining_time": "9h 57m 9s"}
{"loss": 0.47563773, "token_acc": 0.84870849, "grad_norm": 2.5879097, "learning_rate": 7.87e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022795, "epoch": 0.34054601, "global_step/max_steps": "421/1237", "percentage": "34.03%", "elapsed_time": "5h 7m 42s", "remaining_time": "9h 56m 25s"}
{"loss": 0.42771766, "token_acc": 0.84931507, "grad_norm": 2.22818875, "learning_rate": 7.86e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.3413549, "global_step/max_steps": "422/1237", "percentage": "34.11%", "elapsed_time": "5h 8m 26s", "remaining_time": "9h 55m 41s"}
{"loss": 0.48055747, "token_acc": 0.88372093, "grad_norm": 2.57526493, "learning_rate": 7.85e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.3421638, "global_step/max_steps": "423/1237", "percentage": "34.20%", "elapsed_time": "5h 9m 10s", "remaining_time": "9h 54m 57s"}
{"loss": 0.47507077, "token_acc": 0.85766423, "grad_norm": 2.5864892, "learning_rate": 7.84e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.3429727, "global_step/max_steps": "424/1237", "percentage": "34.28%", "elapsed_time": "5h 9m 54s", "remaining_time": "9h 54m 13s"}
{"loss": 0.51772392, "token_acc": 0.85258964, "grad_norm": 2.45091867, "learning_rate": 7.82e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.3437816, "global_step/max_steps": "425/1237", "percentage": "34.36%", "elapsed_time": "5h 10m 37s", "remaining_time": "9h 53m 29s"}
{"loss": 0.46518609, "token_acc": 0.84236453, "grad_norm": 2.37227082, "learning_rate": 7.81e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.3445905, "global_step/max_steps": "426/1237", "percentage": "34.44%", "elapsed_time": "5h 11m 21s", "remaining_time": "9h 52m 45s"}
{"loss": 0.48389181, "token_acc": 0.84347826, "grad_norm": 2.58416653, "learning_rate": 7.8e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.34539939, "global_step/max_steps": "427/1237", "percentage": "34.52%", "elapsed_time": "5h 12m 5s", "remaining_time": "9h 52m 1s"}
{"loss": 0.42157137, "token_acc": 0.84046693, "grad_norm": 2.31928754, "learning_rate": 7.79e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.34620829, "global_step/max_steps": "428/1237", "percentage": "34.60%", "elapsed_time": "5h 12m 49s", "remaining_time": "9h 51m 17s"}
{"loss": 0.4023537, "token_acc": 0.87349398, "grad_norm": 2.49680495, "learning_rate": 7.78e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.34701719, "global_step/max_steps": "429/1237", "percentage": "34.68%", "elapsed_time": "5h 13m 32s", "remaining_time": "9h 50m 32s"}
{"loss": 0.37253955, "token_acc": 0.92248062, "grad_norm": 2.02302599, "learning_rate": 7.77e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.34782609, "global_step/max_steps": "430/1237", "percentage": "34.76%", "elapsed_time": "5h 14m 16s", "remaining_time": "9h 49m 49s"}
{"loss": 0.48749048, "token_acc": 0.85920578, "grad_norm": 2.31405067, "learning_rate": 7.76e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.34863498, "global_step/max_steps": "431/1237", "percentage": "34.84%", "elapsed_time": "5h 15m 0s", "remaining_time": "9h 49m 5s"}
{"loss": 0.37930745, "token_acc": 0.87649402, "grad_norm": 2.21253467, "learning_rate": 7.75e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.34944388, "global_step/max_steps": "432/1237", "percentage": "34.92%", "elapsed_time": "5h 15m 44s", "remaining_time": "9h 48m 21s"}
{"loss": 0.4766939, "token_acc": 0.87108014, "grad_norm": 2.24059081, "learning_rate": 7.74e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35025278, "global_step/max_steps": "433/1237", "percentage": "35.00%", "elapsed_time": "5h 16m 28s", "remaining_time": "9h 47m 37s"}
{"loss": 0.47423223, "token_acc": 0.85365854, "grad_norm": 2.51011491, "learning_rate": 7.72e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35106168, "global_step/max_steps": "434/1237", "percentage": "35.08%", "elapsed_time": "5h 17m 12s", "remaining_time": "9h 46m 54s"}
{"loss": 0.44924179, "token_acc": 0.83333333, "grad_norm": 2.47695899, "learning_rate": 7.71e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.35187058, "global_step/max_steps": "435/1237", "percentage": "35.17%", "elapsed_time": "5h 17m 56s", "remaining_time": "9h 46m 10s"}
{"loss": 0.44814795, "token_acc": 0.86013986, "grad_norm": 2.0986371, "learning_rate": 7.7e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35267947, "global_step/max_steps": "436/1237", "percentage": "35.25%", "elapsed_time": "5h 18m 39s", "remaining_time": "9h 45m 26s"}
{"loss": 0.43956852, "token_acc": 0.86290323, "grad_norm": 2.24696875, "learning_rate": 7.69e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35348837, "global_step/max_steps": "437/1237", "percentage": "35.33%", "elapsed_time": "5h 19m 23s", "remaining_time": "9h 44m 42s"}
{"loss": 0.46260309, "token_acc": 0.86808511, "grad_norm": 2.87387156, "learning_rate": 7.68e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35429727, "global_step/max_steps": "438/1237", "percentage": "35.41%", "elapsed_time": "5h 20m 7s", "remaining_time": "9h 43m 58s"}
{"loss": 0.45615172, "token_acc": 0.80882353, "grad_norm": 2.63829136, "learning_rate": 7.67e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35510617, "global_step/max_steps": "439/1237", "percentage": "35.49%", "elapsed_time": "5h 20m 51s", "remaining_time": "9h 43m 14s"}
{"loss": 0.41244608, "token_acc": 0.86111111, "grad_norm": 2.25863266, "learning_rate": 7.66e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35591507, "global_step/max_steps": "440/1237", "percentage": "35.57%", "elapsed_time": "5h 21m 35s", "remaining_time": "9h 42m 30s"}
{"loss": 0.42751682, "token_acc": 0.84870849, "grad_norm": 2.37450027, "learning_rate": 7.65e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35672396, "global_step/max_steps": "441/1237", "percentage": "35.65%", "elapsed_time": "5h 22m 19s", "remaining_time": "9h 41m 46s"}
{"loss": 0.39098731, "token_acc": 0.88686131, "grad_norm": 1.99978685, "learning_rate": 7.63e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35753286, "global_step/max_steps": "442/1237", "percentage": "35.73%", "elapsed_time": "5h 23m 3s", "remaining_time": "9h 41m 3s"}
{"loss": 0.43666255, "token_acc": 0.87044534, "grad_norm": 4.92692471, "learning_rate": 7.62e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35834176, "global_step/max_steps": "443/1237", "percentage": "35.81%", "elapsed_time": "5h 23m 46s", "remaining_time": "9h 40m 18s"}
{"loss": 0.44106507, "token_acc": 0.80597015, "grad_norm": 2.31733084, "learning_rate": 7.61e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35915066, "global_step/max_steps": "444/1237", "percentage": "35.89%", "elapsed_time": "5h 24m 30s", "remaining_time": "9h 39m 34s"}
{"loss": 0.465312, "token_acc": 0.79310345, "grad_norm": 2.58359385, "learning_rate": 7.6e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.35995956, "global_step/max_steps": "445/1237", "percentage": "35.97%", "elapsed_time": "5h 25m 14s", "remaining_time": "9h 38m 50s"}
{"loss": 0.51871663, "token_acc": 0.80991736, "grad_norm": 2.80042267, "learning_rate": 7.59e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36076845, "global_step/max_steps": "446/1237", "percentage": "36.05%", "elapsed_time": "5h 25m 57s", "remaining_time": "9h 38m 6s"}
{"loss": 0.4742564, "token_acc": 0.80851064, "grad_norm": 2.72650719, "learning_rate": 7.58e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36157735, "global_step/max_steps": "447/1237", "percentage": "36.14%", "elapsed_time": "5h 26m 41s", "remaining_time": "9h 37m 22s"}
{"loss": 0.4435674, "token_acc": 0.86315789, "grad_norm": 2.13281775, "learning_rate": 7.57e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36238625, "global_step/max_steps": "448/1237", "percentage": "36.22%", "elapsed_time": "5h 27m 25s", "remaining_time": "9h 36m 38s"}
{"loss": 0.41679224, "token_acc": 0.89082969, "grad_norm": 2.46723723, "learning_rate": 7.55e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36319515, "global_step/max_steps": "449/1237", "percentage": "36.30%", "elapsed_time": "5h 28m 9s", "remaining_time": "9h 35m 55s"}
{"loss": 0.51797348, "token_acc": 0.76444444, "grad_norm": 2.67231083, "learning_rate": 7.54e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36400404, "global_step/max_steps": "450/1237", "percentage": "36.38%", "elapsed_time": "5h 28m 53s", "remaining_time": "9h 35m 11s"}
{"loss": 0.42643517, "token_acc": 0.9, "grad_norm": 3.75099874, "learning_rate": 7.53e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36481294, "global_step/max_steps": "451/1237", "percentage": "36.46%", "elapsed_time": "5h 29m 37s", "remaining_time": "9h 34m 27s"}
{"loss": 0.47893345, "token_acc": 0.82509506, "grad_norm": 1.98518753, "learning_rate": 7.52e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36562184, "global_step/max_steps": "452/1237", "percentage": "36.54%", "elapsed_time": "5h 30m 20s", "remaining_time": "9h 33m 43s"}
{"loss": 0.36344388, "token_acc": 0.8487395, "grad_norm": 2.21183705, "learning_rate": 7.51e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36643074, "global_step/max_steps": "453/1237", "percentage": "36.62%", "elapsed_time": "5h 31m 4s", "remaining_time": "9h 32m 59s"}
{"loss": 0.42247999, "token_acc": 0.88130564, "grad_norm": 1.61356068, "learning_rate": 7.5e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36723964, "global_step/max_steps": "454/1237", "percentage": "36.70%", "elapsed_time": "5h 31m 48s", "remaining_time": "9h 32m 15s"}
{"loss": 0.43684164, "token_acc": 0.8559322, "grad_norm": 2.45155287, "learning_rate": 7.48e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36804853, "global_step/max_steps": "455/1237", "percentage": "36.78%", "elapsed_time": "5h 32m 32s", "remaining_time": "9h 31m 32s"}
{"loss": 0.39676264, "token_acc": 0.82178218, "grad_norm": 2.2103138, "learning_rate": 7.47e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36885743, "global_step/max_steps": "456/1237", "percentage": "36.86%", "elapsed_time": "5h 33m 16s", "remaining_time": "9h 30m 48s"}
{"loss": 0.45169345, "token_acc": 0.85357143, "grad_norm": 2.52275205, "learning_rate": 7.46e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36966633, "global_step/max_steps": "457/1237", "percentage": "36.94%", "elapsed_time": "5h 34m 0s", "remaining_time": "9h 30m 4s"}
{"loss": 0.3783738, "token_acc": 0.91085271, "grad_norm": 3.0310843, "learning_rate": 7.45e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37047523, "global_step/max_steps": "458/1237", "percentage": "37.03%", "elapsed_time": "5h 34m 43s", "remaining_time": "9h 29m 20s"}
{"loss": 0.44610685, "token_acc": 0.87072243, "grad_norm": 2.20862341, "learning_rate": 7.44e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37128413, "global_step/max_steps": "459/1237", "percentage": "37.11%", "elapsed_time": "5h 35m 27s", "remaining_time": "9h 28m 36s"}
{"loss": 0.40157717, "token_acc": 0.8907563, "grad_norm": 2.48626781, "learning_rate": 7.43e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37209302, "global_step/max_steps": "460/1237", "percentage": "37.19%", "elapsed_time": "5h 36m 11s", "remaining_time": "9h 27m 52s"}
{"loss": 0.41520405, "token_acc": 0.92488263, "grad_norm": 2.0166738, "learning_rate": 7.41e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37290192, "global_step/max_steps": "461/1237", "percentage": "37.27%", "elapsed_time": "5h 36m 55s", "remaining_time": "9h 27m 8s"}
{"loss": 0.56213349, "token_acc": 0.86283186, "grad_norm": 2.44895101, "learning_rate": 7.4e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37371082, "global_step/max_steps": "462/1237", "percentage": "37.35%", "elapsed_time": "5h 37m 39s", "remaining_time": "9h 26m 24s"}
{"loss": 0.46130687, "token_acc": 0.81886792, "grad_norm": 2.18665218, "learning_rate": 7.39e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37451972, "global_step/max_steps": "463/1237", "percentage": "37.43%", "elapsed_time": "5h 38m 23s", "remaining_time": "9h 25m 40s"}
{"loss": 0.49190068, "token_acc": 0.84717608, "grad_norm": 2.27400732, "learning_rate": 7.38e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37532861, "global_step/max_steps": "464/1237", "percentage": "37.51%", "elapsed_time": "5h 39m 7s", "remaining_time": "9h 24m 57s"}
{"loss": 0.42273247, "token_acc": 0.86220472, "grad_norm": 2.15853858, "learning_rate": 7.37e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37613751, "global_step/max_steps": "465/1237", "percentage": "37.59%", "elapsed_time": "5h 39m 50s", "remaining_time": "9h 24m 13s"}
{"loss": 0.50972891, "token_acc": 0.91780822, "grad_norm": 3.03665066, "learning_rate": 7.36e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37694641, "global_step/max_steps": "466/1237", "percentage": "37.67%", "elapsed_time": "5h 40m 34s", "remaining_time": "9h 23m 29s"}
{"loss": 0.5165025, "token_acc": 0.80064309, "grad_norm": 2.28493619, "learning_rate": 7.34e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37775531, "global_step/max_steps": "467/1237", "percentage": "37.75%", "elapsed_time": "5h 41m 18s", "remaining_time": "9h 22m 45s"}
{"loss": 0.43670583, "token_acc": 0.86785714, "grad_norm": 1.75319481, "learning_rate": 7.33e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37856421, "global_step/max_steps": "468/1237", "percentage": "37.83%", "elapsed_time": "5h 42m 2s", "remaining_time": "9h 22m 1s"}
{"loss": 0.41317999, "token_acc": 0.82572614, "grad_norm": 1.9058224, "learning_rate": 7.32e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3793731, "global_step/max_steps": "469/1237", "percentage": "37.91%", "elapsed_time": "5h 42m 46s", "remaining_time": "9h 21m 17s"}
{"loss": 0.37005076, "token_acc": 0.86879433, "grad_norm": 2.45920968, "learning_rate": 7.31e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.380182, "global_step/max_steps": "470/1237", "percentage": "38.00%", "elapsed_time": "5h 43m 30s", "remaining_time": "9h 20m 33s"}
{"loss": 0.4018994, "token_acc": 0.87179487, "grad_norm": 1.86417162, "learning_rate": 7.3e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3809909, "global_step/max_steps": "471/1237", "percentage": "38.08%", "elapsed_time": "5h 44m 14s", "remaining_time": "9h 19m 50s"}
{"loss": 0.44303823, "token_acc": 0.8419244, "grad_norm": 2.24010873, "learning_rate": 7.28e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3817998, "global_step/max_steps": "472/1237", "percentage": "38.16%", "elapsed_time": "5h 44m 57s", "remaining_time": "9h 19m 6s"}
{"loss": 0.47558793, "token_acc": 0.84862385, "grad_norm": 2.41655064, "learning_rate": 7.27e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3826087, "global_step/max_steps": "473/1237", "percentage": "38.24%", "elapsed_time": "5h 45m 41s", "remaining_time": "9h 18m 22s"}
{"loss": 0.44997457, "token_acc": 0.76719577, "grad_norm": 2.26034594, "learning_rate": 7.26e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38341759, "global_step/max_steps": "474/1237", "percentage": "38.32%", "elapsed_time": "5h 46m 25s", "remaining_time": "9h 17m 38s"}
{"loss": 0.47697365, "token_acc": 0.86283186, "grad_norm": 2.26105666, "learning_rate": 7.25e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38422649, "global_step/max_steps": "475/1237", "percentage": "38.40%", "elapsed_time": "5h 47m 9s", "remaining_time": "9h 16m 54s"}
{"loss": 0.38273472, "token_acc": 0.84789644, "grad_norm": 2.01357746, "learning_rate": 7.24e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38503539, "global_step/max_steps": "476/1237", "percentage": "38.48%", "elapsed_time": "5h 47m 53s", "remaining_time": "9h 16m 10s"}
{"loss": 0.40540656, "token_acc": 0.8630137, "grad_norm": 2.19730735, "learning_rate": 7.23e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38584429, "global_step/max_steps": "477/1237", "percentage": "38.56%", "elapsed_time": "5h 48m 37s", "remaining_time": "9h 15m 27s"}
{"loss": 0.41364682, "token_acc": 0.83391003, "grad_norm": 2.24813914, "learning_rate": 7.21e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38665319, "global_step/max_steps": "478/1237", "percentage": "38.64%", "elapsed_time": "5h 49m 21s", "remaining_time": "9h 14m 43s"}
{"loss": 0.42043093, "token_acc": 0.88709677, "grad_norm": 2.15019011, "learning_rate": 7.2e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38746208, "global_step/max_steps": "479/1237", "percentage": "38.72%", "elapsed_time": "5h 50m 5s", "remaining_time": "9h 13m 59s"}
{"loss": 0.41970658, "token_acc": 0.81609195, "grad_norm": 2.13051581, "learning_rate": 7.19e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38827098, "global_step/max_steps": "480/1237", "percentage": "38.80%", "elapsed_time": "5h 50m 49s", "remaining_time": "9h 13m 16s"}
{"loss": 0.40642756, "token_acc": 0.89071038, "grad_norm": 2.52695417, "learning_rate": 7.18e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38907988, "global_step/max_steps": "481/1237", "percentage": "38.88%", "elapsed_time": "5h 51m 32s", "remaining_time": "9h 12m 31s"}
{"loss": 0.46176213, "token_acc": 0.8349835, "grad_norm": 3.27745628, "learning_rate": 7.17e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38988878, "global_step/max_steps": "482/1237", "percentage": "38.97%", "elapsed_time": "5h 52m 16s", "remaining_time": "9h 11m 48s"}
{"loss": 0.39116096, "token_acc": 0.89099526, "grad_norm": 2.33739018, "learning_rate": 7.15e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39069767, "global_step/max_steps": "483/1237", "percentage": "39.05%", "elapsed_time": "5h 53m 0s", "remaining_time": "9h 11m 4s"}
{"loss": 0.43842605, "token_acc": 0.84455959, "grad_norm": 2.27365375, "learning_rate": 7.14e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39150657, "global_step/max_steps": "484/1237", "percentage": "39.13%", "elapsed_time": "5h 53m 44s", "remaining_time": "9h 10m 20s"}
{"loss": 0.41556501, "token_acc": 0.84590164, "grad_norm": 2.8424964, "learning_rate": 7.13e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39231547, "global_step/max_steps": "485/1237", "percentage": "39.21%", "elapsed_time": "5h 54m 28s", "remaining_time": "9h 9m 36s"}
{"loss": 0.43126309, "token_acc": 0.85664336, "grad_norm": 2.35214162, "learning_rate": 7.12e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39312437, "global_step/max_steps": "486/1237", "percentage": "39.29%", "elapsed_time": "5h 55m 12s", "remaining_time": "9h 8m 53s"}
{"loss": 0.46468154, "token_acc": 0.80786026, "grad_norm": 2.24117398, "learning_rate": 7.1e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39393327, "global_step/max_steps": "487/1237", "percentage": "39.37%", "elapsed_time": "5h 55m 56s", "remaining_time": "9h 8m 9s"}
{"loss": 0.41715699, "token_acc": 0.86363636, "grad_norm": 2.26692533, "learning_rate": 7.09e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39474216, "global_step/max_steps": "488/1237", "percentage": "39.45%", "elapsed_time": "5h 56m 39s", "remaining_time": "9h 7m 25s"}
{"loss": 0.39702219, "token_acc": 0.86315789, "grad_norm": 2.12720418, "learning_rate": 7.08e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39555106, "global_step/max_steps": "489/1237", "percentage": "39.53%", "elapsed_time": "5h 57m 23s", "remaining_time": "9h 6m 41s"}
{"loss": 0.38259286, "token_acc": 0.89867841, "grad_norm": 1.90544248, "learning_rate": 7.07e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39635996, "global_step/max_steps": "490/1237", "percentage": "39.61%", "elapsed_time": "5h 58m 7s", "remaining_time": "9h 5m 57s"}
{"loss": 0.45161957, "token_acc": 0.87288136, "grad_norm": 1.94477475, "learning_rate": 7.06e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39716886, "global_step/max_steps": "491/1237", "percentage": "39.69%", "elapsed_time": "5h 58m 51s", "remaining_time": "9h 5m 14s"}
{"loss": 0.41795415, "token_acc": 0.8817734, "grad_norm": 2.29543328, "learning_rate": 7.04e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39797776, "global_step/max_steps": "492/1237", "percentage": "39.77%", "elapsed_time": "5h 59m 35s", "remaining_time": "9h 4m 30s"}
{"loss": 0.44328284, "token_acc": 0.79858657, "grad_norm": 2.26563168, "learning_rate": 7.03e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39878665, "global_step/max_steps": "493/1237", "percentage": "39.85%", "elapsed_time": "6h 0m 19s", "remaining_time": "9h 3m 46s"}
{"loss": 0.4488374, "token_acc": 0.92035398, "grad_norm": 2.96211767, "learning_rate": 7.02e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39959555, "global_step/max_steps": "494/1237", "percentage": "39.94%", "elapsed_time": "6h 1m 3s", "remaining_time": "9h 3m 2s"}
{"loss": 0.48823321, "token_acc": 0.87368421, "grad_norm": 2.92664433, "learning_rate": 7.01e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.40040445, "global_step/max_steps": "495/1237", "percentage": "40.02%", "elapsed_time": "6h 1m 46s", "remaining_time": "9h 2m 18s"}
{"loss": 0.4188754, "token_acc": 0.8600823, "grad_norm": 3.55019379, "learning_rate": 6.99e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.40121335, "global_step/max_steps": "496/1237", "percentage": "40.10%", "elapsed_time": "6h 2m 31s", "remaining_time": "9h 1m 34s"}
{"loss": 0.46066523, "token_acc": 0.80660377, "grad_norm": 2.96111894, "learning_rate": 6.98e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.40202224, "global_step/max_steps": "497/1237", "percentage": "40.18%", "elapsed_time": "6h 3m 14s", "remaining_time": "9h 0m 51s"}
{"loss": 0.42445844, "token_acc": 0.88095238, "grad_norm": 2.55626345, "learning_rate": 6.97e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.40283114, "global_step/max_steps": "498/1237", "percentage": "40.26%", "elapsed_time": "6h 3m 58s", "remaining_time": "9h 0m 6s"}
{"loss": 0.41396636, "token_acc": 0.86122449, "grad_norm": 2.26128387, "learning_rate": 6.96e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.40364004, "global_step/max_steps": "499/1237", "percentage": "40.34%", "elapsed_time": "6h 4m 42s", "remaining_time": "8h 59m 22s"}
{"loss": 0.44244528, "token_acc": 0.8401487, "grad_norm": 2.09812522, "learning_rate": 6.95e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022798, "epoch": 0.40444894, "global_step/max_steps": "500/1237", "percentage": "40.42%", "elapsed_time": "6h 5m 25s", "remaining_time": "8h 58m 38s"}
{"eval_loss": 0.42885029, "eval_token_acc": 0.85773242, "eval_runtime": 431.8839, "eval_samples_per_second": 3.7, "eval_steps_per_second": 0.116, "epoch": 0.40444894, "global_step/max_steps": "500/1237", "percentage": "40.42%", "elapsed_time": "6h 12m 37s", "remaining_time": "9h 9m 15s"}
{"loss": 0.43692183, "token_acc": 0.85143354, "grad_norm": 2.12166524, "learning_rate": 6.93e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022355, "epoch": 0.40525784, "global_step/max_steps": "501/1237", "percentage": "40.50%", "elapsed_time": "6h 13m 24s", "remaining_time": "9h 8m 34s"}
{"loss": 0.46589878, "token_acc": 0.85820896, "grad_norm": 2.56483364, "learning_rate": 6.92e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022356, "epoch": 0.40606673, "global_step/max_steps": "502/1237", "percentage": "40.58%", "elapsed_time": "6h 14m 8s", "remaining_time": "9h 7m 47s"}
{"loss": 0.41194206, "token_acc": 0.83870968, "grad_norm": 1.8351506, "learning_rate": 6.91e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022357, "epoch": 0.40687563, "global_step/max_steps": "503/1237", "percentage": "40.66%", "elapsed_time": "6h 14m 52s", "remaining_time": "9h 7m 1s"}
{"loss": 0.45484626, "token_acc": 0.85407725, "grad_norm": 2.23738074, "learning_rate": 6.9e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022358, "epoch": 0.40768453, "global_step/max_steps": "504/1237", "percentage": "40.74%", "elapsed_time": "6h 15m 36s", "remaining_time": "9h 6m 15s"}
{"loss": 0.39302105, "token_acc": 0.91810345, "grad_norm": 2.12041378, "learning_rate": 6.88e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022359, "epoch": 0.40849343, "global_step/max_steps": "505/1237", "percentage": "40.82%", "elapsed_time": "6h 16m 19s", "remaining_time": "9h 5m 29s"}
{"loss": 0.4383778, "token_acc": 0.87037037, "grad_norm": 2.19595528, "learning_rate": 6.87e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022359, "epoch": 0.40930233, "global_step/max_steps": "506/1237", "percentage": "40.91%", "elapsed_time": "6h 17m 3s", "remaining_time": "9h 4m 43s"}
{"loss": 0.54213619, "token_acc": 0.87452471, "grad_norm": 2.44986224, "learning_rate": 6.86e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02236, "epoch": 0.41011122, "global_step/max_steps": "507/1237", "percentage": "40.99%", "elapsed_time": "6h 17m 47s", "remaining_time": "9h 3m 57s"}
{"loss": 0.34484455, "token_acc": 0.88311688, "grad_norm": 2.88136578, "learning_rate": 6.85e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022361, "epoch": 0.41092012, "global_step/max_steps": "508/1237", "percentage": "41.07%", "elapsed_time": "6h 18m 31s", "remaining_time": "9h 3m 11s"}
{"loss": 0.40410224, "token_acc": 0.95752896, "grad_norm": 2.25875545, "learning_rate": 6.83e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022362, "epoch": 0.41172902, "global_step/max_steps": "509/1237", "percentage": "41.15%", "elapsed_time": "6h 19m 15s", "remaining_time": "9h 2m 25s"}
{"loss": 0.44982058, "token_acc": 0.83112583, "grad_norm": 2.20556545, "learning_rate": 6.82e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022363, "epoch": 0.41253792, "global_step/max_steps": "510/1237", "percentage": "41.23%", "elapsed_time": "6h 19m 59s", "remaining_time": "9h 1m 39s"}
{"loss": 0.41864479, "token_acc": 0.84437086, "grad_norm": 2.17154217, "learning_rate": 6.81e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022364, "epoch": 0.41334681, "global_step/max_steps": "511/1237", "percentage": "41.31%", "elapsed_time": "6h 20m 43s", "remaining_time": "9h 0m 54s"}
{"loss": 0.40816727, "token_acc": 0.85185185, "grad_norm": 2.50950742, "learning_rate": 6.8e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022364, "epoch": 0.41415571, "global_step/max_steps": "512/1237", "percentage": "41.39%", "elapsed_time": "6h 21m 26s", "remaining_time": "9h 0m 8s"}
{"loss": 0.47926599, "token_acc": 0.85714286, "grad_norm": 2.31027055, "learning_rate": 6.78e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022365, "epoch": 0.41496461, "global_step/max_steps": "513/1237", "percentage": "41.47%", "elapsed_time": "6h 22m 10s", "remaining_time": "8h 59m 22s"}
{"loss": 0.41006017, "token_acc": 0.83809524, "grad_norm": 2.72449827, "learning_rate": 6.77e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022366, "epoch": 0.41577351, "global_step/max_steps": "514/1237", "percentage": "41.55%", "elapsed_time": "6h 22m 54s", "remaining_time": "8h 58m 36s"}
{"loss": 0.41557407, "token_acc": 0.88034188, "grad_norm": 2.30301547, "learning_rate": 6.76e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022367, "epoch": 0.41658241, "global_step/max_steps": "515/1237", "percentage": "41.63%", "elapsed_time": "6h 23m 38s", "remaining_time": "8h 57m 50s"}
{"loss": 0.44036746, "token_acc": 0.84864865, "grad_norm": 3.13872647, "learning_rate": 6.75e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022368, "epoch": 0.4173913, "global_step/max_steps": "516/1237", "percentage": "41.71%", "elapsed_time": "6h 24m 22s", "remaining_time": "8h 57m 4s"}
{"loss": 0.51103985, "token_acc": 0.84664537, "grad_norm": 2.33260536, "learning_rate": 6.73e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022369, "epoch": 0.4182002, "global_step/max_steps": "517/1237", "percentage": "41.79%", "elapsed_time": "6h 25m 6s", "remaining_time": "8h 56m 18s"}
{"loss": 0.39456922, "token_acc": 0.84263959, "grad_norm": 1.9813267, "learning_rate": 6.72e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02237, "epoch": 0.4190091, "global_step/max_steps": "518/1237", "percentage": "41.88%", "elapsed_time": "6h 25m 49s", "remaining_time": "8h 55m 32s"}
{"loss": 0.39808992, "token_acc": 0.84259259, "grad_norm": 2.02427149, "learning_rate": 6.71e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022371, "epoch": 0.419818, "global_step/max_steps": "519/1237", "percentage": "41.96%", "elapsed_time": "6h 26m 33s", "remaining_time": "8h 54m 46s"}
{"loss": 0.41873485, "token_acc": 0.9004329, "grad_norm": 2.29792523, "learning_rate": 6.7e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022372, "epoch": 0.4206269, "global_step/max_steps": "520/1237", "percentage": "42.04%", "elapsed_time": "6h 27m 17s", "remaining_time": "8h 54m 0s"}
{"loss": 0.41827825, "token_acc": 0.89641434, "grad_norm": 2.15491223, "learning_rate": 6.68e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022372, "epoch": 0.42143579, "global_step/max_steps": "521/1237", "percentage": "42.12%", "elapsed_time": "6h 28m 1s", "remaining_time": "8h 53m 14s"}
{"loss": 0.41942286, "token_acc": 0.79237288, "grad_norm": 2.35405159, "learning_rate": 6.67e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022373, "epoch": 0.42224469, "global_step/max_steps": "522/1237", "percentage": "42.20%", "elapsed_time": "6h 28m 44s", "remaining_time": "8h 52m 28s"}
{"loss": 0.48690981, "token_acc": 0.89565217, "grad_norm": 2.7469995, "learning_rate": 6.66e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022374, "epoch": 0.42305359, "global_step/max_steps": "523/1237", "percentage": "42.28%", "elapsed_time": "6h 29m 28s", "remaining_time": "8h 51m 42s"}
{"loss": 0.41001442, "token_acc": 0.87124464, "grad_norm": 2.66565943, "learning_rate": 6.65e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022375, "epoch": 0.42386249, "global_step/max_steps": "524/1237", "percentage": "42.36%", "elapsed_time": "6h 30m 12s", "remaining_time": "8h 50m 56s"}
{"loss": 0.39765525, "token_acc": 0.89325843, "grad_norm": 3.28788447, "learning_rate": 6.63e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022376, "epoch": 0.42467139, "global_step/max_steps": "525/1237", "percentage": "42.44%", "elapsed_time": "6h 30m 55s", "remaining_time": "8h 50m 10s"}
{"loss": 0.40812773, "token_acc": 0.83802817, "grad_norm": 1.88212192, "learning_rate": 6.62e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022377, "epoch": 0.42548028, "global_step/max_steps": "526/1237", "percentage": "42.52%", "elapsed_time": "6h 31m 39s", "remaining_time": "8h 49m 24s"}
{"loss": 0.4923144, "token_acc": 0.86219081, "grad_norm": 2.29753852, "learning_rate": 6.61e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022378, "epoch": 0.42628918, "global_step/max_steps": "527/1237", "percentage": "42.60%", "elapsed_time": "6h 32m 23s", "remaining_time": "8h 48m 38s"}
{"loss": 0.42522329, "token_acc": 0.8579235, "grad_norm": 2.01412868, "learning_rate": 6.6e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022379, "epoch": 0.42709808, "global_step/max_steps": "528/1237", "percentage": "42.68%", "elapsed_time": "6h 33m 7s", "remaining_time": "8h 47m 53s"}
{"loss": 0.44975501, "token_acc": 0.89150943, "grad_norm": 2.74469376, "learning_rate": 6.58e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022379, "epoch": 0.42790698, "global_step/max_steps": "529/1237", "percentage": "42.76%", "elapsed_time": "6h 33m 51s", "remaining_time": "8h 47m 7s"}
{"loss": 0.48890427, "token_acc": 0.82370821, "grad_norm": 2.20772171, "learning_rate": 6.57e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02238, "epoch": 0.42871587, "global_step/max_steps": "530/1237", "percentage": "42.85%", "elapsed_time": "6h 34m 35s", "remaining_time": "8h 46m 21s"}
{"loss": 0.39835629, "token_acc": 0.83139535, "grad_norm": 1.9948324, "learning_rate": 6.56e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022381, "epoch": 0.42952477, "global_step/max_steps": "531/1237", "percentage": "42.93%", "elapsed_time": "6h 35m 19s", "remaining_time": "8h 45m 36s"}
{"loss": 0.40673101, "token_acc": 0.84818482, "grad_norm": 2.0337956, "learning_rate": 6.55e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022382, "epoch": 0.43033367, "global_step/max_steps": "532/1237", "percentage": "43.01%", "elapsed_time": "6h 36m 2s", "remaining_time": "8h 44m 50s"}
{"loss": 0.43902755, "token_acc": 0.79479769, "grad_norm": 1.67388463, "learning_rate": 6.53e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022382, "epoch": 0.43114257, "global_step/max_steps": "533/1237", "percentage": "43.09%", "elapsed_time": "6h 36m 46s", "remaining_time": "8h 44m 4s"}
{"loss": 0.40432245, "token_acc": 0.86764706, "grad_norm": 2.29953647, "learning_rate": 6.52e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022383, "epoch": 0.43195147, "global_step/max_steps": "534/1237", "percentage": "43.17%", "elapsed_time": "6h 37m 30s", "remaining_time": "8h 43m 18s"}
{"loss": 0.42441308, "token_acc": 0.83333333, "grad_norm": 2.33384895, "learning_rate": 6.51e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022384, "epoch": 0.43276036, "global_step/max_steps": "535/1237", "percentage": "43.25%", "elapsed_time": "6h 38m 14s", "remaining_time": "8h 42m 33s"}
{"loss": 0.4339698, "token_acc": 0.89583333, "grad_norm": 3.96220708, "learning_rate": 6.49e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022385, "epoch": 0.43356926, "global_step/max_steps": "536/1237", "percentage": "43.33%", "elapsed_time": "6h 38m 58s", "remaining_time": "8h 41m 47s"}
{"loss": 0.42147678, "token_acc": 0.92, "grad_norm": 2.2048378, "learning_rate": 6.48e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022385, "epoch": 0.43437816, "global_step/max_steps": "537/1237", "percentage": "43.41%", "elapsed_time": "6h 39m 42s", "remaining_time": "8h 41m 1s"}
{"loss": 0.47981611, "token_acc": 0.86153846, "grad_norm": 2.12755322, "learning_rate": 6.47e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022386, "epoch": 0.43518706, "global_step/max_steps": "538/1237", "percentage": "43.49%", "elapsed_time": "6h 40m 26s", "remaining_time": "8h 40m 16s"}
{"loss": 0.38348579, "token_acc": 0.89622642, "grad_norm": 2.52529454, "learning_rate": 6.46e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022387, "epoch": 0.43599596, "global_step/max_steps": "539/1237", "percentage": "43.57%", "elapsed_time": "6h 41m 10s", "remaining_time": "8h 39m 30s"}
{"loss": 0.4347086, "token_acc": 0.84836066, "grad_norm": 1.90198648, "learning_rate": 6.44e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022388, "epoch": 0.43680485, "global_step/max_steps": "540/1237", "percentage": "43.65%", "elapsed_time": "6h 41m 53s", "remaining_time": "8h 38m 44s"}
{"loss": 0.38735691, "token_acc": 0.84581498, "grad_norm": 2.10292983, "learning_rate": 6.43e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022388, "epoch": 0.43761375, "global_step/max_steps": "541/1237", "percentage": "43.73%", "elapsed_time": "6h 42m 37s", "remaining_time": "8h 37m 59s"}
{"loss": 0.41179243, "token_acc": 0.84331797, "grad_norm": 2.20393419, "learning_rate": 6.42e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022389, "epoch": 0.43842265, "global_step/max_steps": "542/1237", "percentage": "43.82%", "elapsed_time": "6h 43m 21s", "remaining_time": "8h 37m 13s"}
{"loss": 0.37544376, "token_acc": 0.86956522, "grad_norm": 1.98514009, "learning_rate": 6.4e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02239, "epoch": 0.43923155, "global_step/max_steps": "543/1237", "percentage": "43.90%", "elapsed_time": "6h 44m 5s", "remaining_time": "8h 36m 27s"}
{"loss": 0.38246182, "token_acc": 0.84637681, "grad_norm": 2.12911177, "learning_rate": 6.39e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022391, "epoch": 0.44004044, "global_step/max_steps": "544/1237", "percentage": "43.98%", "elapsed_time": "6h 44m 49s", "remaining_time": "8h 35m 42s"}
{"loss": 0.41792727, "token_acc": 0.88834951, "grad_norm": 2.16436958, "learning_rate": 6.38e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022391, "epoch": 0.44084934, "global_step/max_steps": "545/1237", "percentage": "44.06%", "elapsed_time": "6h 45m 33s", "remaining_time": "8h 34m 56s"}
{"loss": 0.42167988, "token_acc": 0.86134454, "grad_norm": 2.03038836, "learning_rate": 6.37e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022392, "epoch": 0.44165824, "global_step/max_steps": "546/1237", "percentage": "44.14%", "elapsed_time": "6h 46m 17s", "remaining_time": "8h 34m 10s"}
{"loss": 0.38236085, "token_acc": 0.84228188, "grad_norm": 1.95912194, "learning_rate": 6.35e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022393, "epoch": 0.44246714, "global_step/max_steps": "547/1237", "percentage": "44.22%", "elapsed_time": "6h 47m 1s", "remaining_time": "8h 33m 25s"}
{"loss": 0.43888304, "token_acc": 0.84259259, "grad_norm": 2.54756737, "learning_rate": 6.34e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022393, "epoch": 0.44327604, "global_step/max_steps": "548/1237", "percentage": "44.30%", "elapsed_time": "6h 47m 44s", "remaining_time": "8h 32m 39s"}
{"loss": 0.399533, "token_acc": 0.8996139, "grad_norm": 2.00347829, "learning_rate": 6.33e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022394, "epoch": 0.44408493, "global_step/max_steps": "549/1237", "percentage": "44.38%", "elapsed_time": "6h 48m 28s", "remaining_time": "8h 31m 54s"}
{"loss": 0.41217458, "token_acc": 0.84274194, "grad_norm": 2.48952508, "learning_rate": 6.31e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022395, "epoch": 0.44489383, "global_step/max_steps": "550/1237", "percentage": "44.46%", "elapsed_time": "6h 49m 12s", "remaining_time": "8h 31m 8s"}
{"loss": 0.41989517, "token_acc": 0.84090909, "grad_norm": 2.64759755, "learning_rate": 6.3e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022395, "epoch": 0.44570273, "global_step/max_steps": "551/1237", "percentage": "44.54%", "elapsed_time": "6h 49m 56s", "remaining_time": "8h 30m 23s"}
{"loss": 0.36342883, "token_acc": 0.86538462, "grad_norm": 3.15737367, "learning_rate": 6.29e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022396, "epoch": 0.44651163, "global_step/max_steps": "552/1237", "percentage": "44.62%", "elapsed_time": "6h 50m 40s", "remaining_time": "8h 29m 37s"}
{"loss": 0.44572881, "token_acc": 0.84274194, "grad_norm": 2.43197775, "learning_rate": 6.28e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022397, "epoch": 0.44732053, "global_step/max_steps": "553/1237", "percentage": "44.70%", "elapsed_time": "6h 51m 24s", "remaining_time": "8h 28m 51s"}
{"loss": 0.39890951, "token_acc": 0.86486486, "grad_norm": 2.04441333, "learning_rate": 6.26e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022398, "epoch": 0.44812942, "global_step/max_steps": "554/1237", "percentage": "44.79%", "elapsed_time": "6h 52m 8s", "remaining_time": "8h 28m 6s"}
{"loss": 0.41678032, "token_acc": 0.86813187, "grad_norm": 2.09192753, "learning_rate": 6.25e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022398, "epoch": 0.44893832, "global_step/max_steps": "555/1237", "percentage": "44.87%", "elapsed_time": "6h 52m 52s", "remaining_time": "8h 27m 20s"}
{"loss": 0.43416649, "token_acc": 0.85714286, "grad_norm": 2.33678627, "learning_rate": 6.24e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022399, "epoch": 0.44974722, "global_step/max_steps": "556/1237", "percentage": "44.95%", "elapsed_time": "6h 53m 36s", "remaining_time": "8h 26m 35s"}
{"loss": 0.45105749, "token_acc": 0.8170347, "grad_norm": 2.4917326, "learning_rate": 6.22e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0224, "epoch": 0.45055612, "global_step/max_steps": "557/1237", "percentage": "45.03%", "elapsed_time": "6h 54m 20s", "remaining_time": "8h 25m 49s"}
{"loss": 0.40879604, "token_acc": 0.88359788, "grad_norm": 2.02024746, "learning_rate": 6.21e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0224, "epoch": 0.45136502, "global_step/max_steps": "558/1237", "percentage": "45.11%", "elapsed_time": "6h 55m 3s", "remaining_time": "8h 25m 4s"}
{"loss": 0.42803431, "token_acc": 0.84180791, "grad_norm": 2.91474581, "learning_rate": 6.2e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022401, "epoch": 0.45217391, "global_step/max_steps": "559/1237", "percentage": "45.19%", "elapsed_time": "6h 55m 47s", "remaining_time": "8h 24m 18s"}
{"loss": 0.42182779, "token_acc": 0.84117647, "grad_norm": 2.47050786, "learning_rate": 6.19e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022402, "epoch": 0.45298281, "global_step/max_steps": "560/1237", "percentage": "45.27%", "elapsed_time": "6h 56m 31s", "remaining_time": "8h 23m 32s"}
{"loss": 0.39409411, "token_acc": 0.85079365, "grad_norm": 1.90571272, "learning_rate": 6.17e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022403, "epoch": 0.45379171, "global_step/max_steps": "561/1237", "percentage": "45.35%", "elapsed_time": "6h 57m 15s", "remaining_time": "8h 22m 47s"}
{"loss": 0.41586664, "token_acc": 0.88095238, "grad_norm": 3.12653184, "learning_rate": 6.16e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022403, "epoch": 0.45460061, "global_step/max_steps": "562/1237", "percentage": "45.43%", "elapsed_time": "6h 57m 59s", "remaining_time": "8h 22m 1s"}
{"loss": 0.41118532, "token_acc": 0.89447236, "grad_norm": 2.34079599, "learning_rate": 6.15e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022404, "epoch": 0.4554095, "global_step/max_steps": "563/1237", "percentage": "45.51%", "elapsed_time": "6h 58m 42s", "remaining_time": "8h 21m 16s"}
{"loss": 0.41796184, "token_acc": 0.84150943, "grad_norm": 2.63930058, "learning_rate": 6.13e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022405, "epoch": 0.4562184, "global_step/max_steps": "564/1237", "percentage": "45.59%", "elapsed_time": "6h 59m 26s", "remaining_time": "8h 20m 30s"}
{"loss": 0.40478027, "token_acc": 0.89017341, "grad_norm": 2.0815928, "learning_rate": 6.12e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022406, "epoch": 0.4570273, "global_step/max_steps": "565/1237", "percentage": "45.68%", "elapsed_time": "7h 0m 10s", "remaining_time": "8h 19m 44s"}
{"loss": 0.45547983, "token_acc": 0.85849057, "grad_norm": 2.18672299, "learning_rate": 6.11e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022406, "epoch": 0.4578362, "global_step/max_steps": "566/1237", "percentage": "45.76%", "elapsed_time": "7h 0m 54s", "remaining_time": "8h 18m 59s"}
{"loss": 0.43550938, "token_acc": 0.89219331, "grad_norm": 2.11372852, "learning_rate": 6.09e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022407, "epoch": 0.4586451, "global_step/max_steps": "567/1237", "percentage": "45.84%", "elapsed_time": "7h 1m 38s", "remaining_time": "8h 18m 13s"}
{"loss": 0.51923716, "token_acc": 0.87665198, "grad_norm": 2.74037981, "learning_rate": 6.08e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022408, "epoch": 0.45945399, "global_step/max_steps": "568/1237", "percentage": "45.92%", "elapsed_time": "7h 2m 21s", "remaining_time": "8h 17m 28s"}
{"loss": 0.34348968, "token_acc": 0.92640693, "grad_norm": 2.20802116, "learning_rate": 6.07e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022408, "epoch": 0.46026289, "global_step/max_steps": "569/1237", "percentage": "46.00%", "elapsed_time": "7h 3m 5s", "remaining_time": "8h 16m 42s"}
{"loss": 0.44255209, "token_acc": 0.89047619, "grad_norm": 2.19667172, "learning_rate": 6.05e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022409, "epoch": 0.46107179, "global_step/max_steps": "570/1237", "percentage": "46.08%", "elapsed_time": "7h 3m 49s", "remaining_time": "8h 15m 57s"}
{"loss": 0.46032375, "token_acc": 0.86060606, "grad_norm": 2.07996893, "learning_rate": 6.04e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02241, "epoch": 0.46188069, "global_step/max_steps": "571/1237", "percentage": "46.16%", "elapsed_time": "7h 4m 33s", "remaining_time": "8h 15m 11s"}
{"loss": 0.39656362, "token_acc": 0.80882353, "grad_norm": 2.26595211, "learning_rate": 6.03e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02241, "epoch": 0.46268959, "global_step/max_steps": "572/1237", "percentage": "46.24%", "elapsed_time": "7h 5m 17s", "remaining_time": "8h 14m 26s"}
{"loss": 0.37590122, "token_acc": 0.87423313, "grad_norm": 1.90873992, "learning_rate": 6.02e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022411, "epoch": 0.46349848, "global_step/max_steps": "573/1237", "percentage": "46.32%", "elapsed_time": "7h 6m 1s", "remaining_time": "8h 13m 40s"}
{"loss": 0.45862114, "token_acc": 0.83281734, "grad_norm": 1.98203361, "learning_rate": 6e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022411, "epoch": 0.46430738, "global_step/max_steps": "574/1237", "percentage": "46.40%", "elapsed_time": "7h 6m 45s", "remaining_time": "8h 12m 55s"}
{"loss": 0.47833583, "token_acc": 0.8853211, "grad_norm": 3.03006148, "learning_rate": 5.99e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022412, "epoch": 0.46511628, "global_step/max_steps": "575/1237", "percentage": "46.48%", "elapsed_time": "7h 7m 29s", "remaining_time": "8h 12m 10s"}
{"loss": 0.44611683, "token_acc": 0.84126984, "grad_norm": 2.15118742, "learning_rate": 5.98e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022413, "epoch": 0.46592518, "global_step/max_steps": "576/1237", "percentage": "46.56%", "elapsed_time": "7h 8m 13s", "remaining_time": "8h 11m 24s"}
{"loss": 0.36400041, "token_acc": 0.88085106, "grad_norm": 2.32400942, "learning_rate": 5.96e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022413, "epoch": 0.46673407, "global_step/max_steps": "577/1237", "percentage": "46.65%", "elapsed_time": "7h 8m 57s", "remaining_time": "8h 10m 39s"}
{"loss": 0.3626942, "token_acc": 0.86153846, "grad_norm": 2.60529184, "learning_rate": 5.95e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022414, "epoch": 0.46754297, "global_step/max_steps": "578/1237", "percentage": "46.73%", "elapsed_time": "7h 9m 40s", "remaining_time": "8h 9m 53s"}
{"loss": 0.42411268, "token_acc": 0.88819876, "grad_norm": 3.03754258, "learning_rate": 5.94e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022415, "epoch": 0.46835187, "global_step/max_steps": "579/1237", "percentage": "46.81%", "elapsed_time": "7h 10m 24s", "remaining_time": "8h 9m 7s"}
{"loss": 0.44794506, "token_acc": 0.86160714, "grad_norm": 2.63693976, "learning_rate": 5.92e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022416, "epoch": 0.46916077, "global_step/max_steps": "580/1237", "percentage": "46.89%", "elapsed_time": "7h 11m 8s", "remaining_time": "8h 8m 22s"}
{"loss": 0.37398702, "token_acc": 0.8115942, "grad_norm": 1.999511, "learning_rate": 5.91e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022416, "epoch": 0.46996967, "global_step/max_steps": "581/1237", "percentage": "46.97%", "elapsed_time": "7h 11m 52s", "remaining_time": "8h 7m 36s"}
{"loss": 0.4055723, "token_acc": 0.8668942, "grad_norm": 2.14960623, "learning_rate": 5.9e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022417, "epoch": 0.47077856, "global_step/max_steps": "582/1237", "percentage": "47.05%", "elapsed_time": "7h 12m 35s", "remaining_time": "8h 6m 51s"}
{"loss": 0.38462675, "token_acc": 0.88695652, "grad_norm": 3.8420856, "learning_rate": 5.88e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.47158746, "global_step/max_steps": "583/1237", "percentage": "47.13%", "elapsed_time": "7h 13m 19s", "remaining_time": "8h 6m 6s"}
{"loss": 0.45382333, "token_acc": 0.82638889, "grad_norm": 2.59977555, "learning_rate": 5.87e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.47239636, "global_step/max_steps": "584/1237", "percentage": "47.21%", "elapsed_time": "7h 14m 3s", "remaining_time": "8h 5m 20s"}
{"loss": 0.39639097, "token_acc": 0.84883721, "grad_norm": 2.1884644, "learning_rate": 5.86e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022419, "epoch": 0.47320526, "global_step/max_steps": "585/1237", "percentage": "47.29%", "elapsed_time": "7h 14m 47s", "remaining_time": "8h 4m 35s"}
{"loss": 0.40574947, "token_acc": 0.8630137, "grad_norm": 2.07777834, "learning_rate": 5.84e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02242, "epoch": 0.47401416, "global_step/max_steps": "586/1237", "percentage": "47.37%", "elapsed_time": "7h 15m 31s", "remaining_time": "8h 3m 49s"}
{"loss": 0.45737153, "token_acc": 0.83333333, "grad_norm": 2.12065005, "learning_rate": 5.83e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022421, "epoch": 0.47482305, "global_step/max_steps": "587/1237", "percentage": "47.45%", "elapsed_time": "7h 16m 14s", "remaining_time": "8h 3m 4s"}
{"loss": 0.39603499, "token_acc": 0.88028169, "grad_norm": 2.06845975, "learning_rate": 5.82e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022421, "epoch": 0.47563195, "global_step/max_steps": "588/1237", "percentage": "47.53%", "elapsed_time": "7h 16m 58s", "remaining_time": "8h 2m 18s"}
{"loss": 0.42105371, "token_acc": 0.89814815, "grad_norm": 2.6534543, "learning_rate": 5.81e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022422, "epoch": 0.47644085, "global_step/max_steps": "589/1237", "percentage": "47.62%", "elapsed_time": "7h 17m 42s", "remaining_time": "8h 1m 33s"}
{"loss": 0.37584743, "token_acc": 0.8515625, "grad_norm": 2.24369836, "learning_rate": 5.79e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022423, "epoch": 0.47724975, "global_step/max_steps": "590/1237", "percentage": "47.70%", "elapsed_time": "7h 18m 26s", "remaining_time": "8h 0m 47s"}
{"loss": 0.46240398, "token_acc": 0.80338983, "grad_norm": 3.63573146, "learning_rate": 5.78e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022423, "epoch": 0.47805865, "global_step/max_steps": "591/1237", "percentage": "47.78%", "elapsed_time": "7h 19m 10s", "remaining_time": "8h 0m 2s"}
{"loss": 0.40418059, "token_acc": 0.86206897, "grad_norm": 2.07793307, "learning_rate": 5.77e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.47886754, "global_step/max_steps": "592/1237", "percentage": "47.86%", "elapsed_time": "7h 19m 54s", "remaining_time": "7h 59m 17s"}
{"loss": 0.39600533, "token_acc": 0.82287823, "grad_norm": 2.6547122, "learning_rate": 5.75e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.47967644, "global_step/max_steps": "593/1237", "percentage": "47.94%", "elapsed_time": "7h 20m 37s", "remaining_time": "7h 58m 31s"}
{"loss": 0.41592419, "token_acc": 0.78475336, "grad_norm": 2.46425533, "learning_rate": 5.74e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022425, "epoch": 0.48048534, "global_step/max_steps": "594/1237", "percentage": "48.02%", "elapsed_time": "7h 21m 21s", "remaining_time": "7h 57m 46s"}
{"loss": 0.46111101, "token_acc": 0.8361204, "grad_norm": 2.25502539, "learning_rate": 5.73e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022426, "epoch": 0.48129424, "global_step/max_steps": "595/1237", "percentage": "48.10%", "elapsed_time": "7h 22m 5s", "remaining_time": "7h 57m 0s"}
{"loss": 0.5086416, "token_acc": 0.82840237, "grad_norm": 2.8922863, "learning_rate": 5.71e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.48210313, "global_step/max_steps": "596/1237", "percentage": "48.18%", "elapsed_time": "7h 22m 49s", "remaining_time": "7h 56m 15s"}
{"loss": 0.45955491, "token_acc": 0.87866109, "grad_norm": 2.17373705, "learning_rate": 5.7e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.48291203, "global_step/max_steps": "597/1237", "percentage": "48.26%", "elapsed_time": "7h 23m 32s", "remaining_time": "7h 55m 29s"}
{"loss": 0.41277927, "token_acc": 0.87121212, "grad_norm": 1.99489844, "learning_rate": 5.69e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.48372093, "global_step/max_steps": "598/1237", "percentage": "48.34%", "elapsed_time": "7h 24m 16s", "remaining_time": "7h 54m 44s"}
{"loss": 0.40159383, "token_acc": 0.85022026, "grad_norm": 2.44625902, "learning_rate": 5.67e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.48452983, "global_step/max_steps": "599/1237", "percentage": "48.42%", "elapsed_time": "7h 25m 0s", "remaining_time": "7h 53m 58s"}
{"loss": 0.44586971, "token_acc": 0.84824903, "grad_norm": 2.78114462, "learning_rate": 5.66e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.48533873, "global_step/max_steps": "600/1237", "percentage": "48.50%", "elapsed_time": "7h 25m 44s", "remaining_time": "7h 53m 13s"}
{"loss": 0.36807919, "token_acc": 0.86486486, "grad_norm": 2.26748943, "learning_rate": 5.65e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.48614762, "global_step/max_steps": "601/1237", "percentage": "48.59%", "elapsed_time": "7h 26m 28s", "remaining_time": "7h 52m 28s"}
{"loss": 0.43270832, "token_acc": 0.85971223, "grad_norm": 2.30260468, "learning_rate": 5.63e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.48695652, "global_step/max_steps": "602/1237", "percentage": "48.67%", "elapsed_time": "7h 27m 12s", "remaining_time": "7h 51m 42s"}
{"loss": 0.44607389, "token_acc": 0.87111111, "grad_norm": 2.63598442, "learning_rate": 5.62e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.48776542, "global_step/max_steps": "603/1237", "percentage": "48.75%", "elapsed_time": "7h 27m 56s", "remaining_time": "7h 50m 57s"}
{"loss": 0.39175051, "token_acc": 0.9137931, "grad_norm": 2.59927511, "learning_rate": 5.61e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.48857432, "global_step/max_steps": "604/1237", "percentage": "48.83%", "elapsed_time": "7h 28m 40s", "remaining_time": "7h 50m 12s"}
{"loss": 0.41896379, "token_acc": 0.88215488, "grad_norm": 2.3977952, "learning_rate": 5.59e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.48938322, "global_step/max_steps": "605/1237", "percentage": "48.91%", "elapsed_time": "7h 29m 23s", "remaining_time": "7h 49m 27s"}
{"loss": 0.43632719, "token_acc": 0.87378641, "grad_norm": 2.12685132, "learning_rate": 5.58e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.49019211, "global_step/max_steps": "606/1237", "percentage": "48.99%", "elapsed_time": "7h 30m 7s", "remaining_time": "7h 48m 42s"}
{"loss": 0.44089258, "token_acc": 0.90957447, "grad_norm": 3.28900719, "learning_rate": 5.57e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.49100101, "global_step/max_steps": "607/1237", "percentage": "49.07%", "elapsed_time": "7h 30m 51s", "remaining_time": "7h 47m 56s"}
{"loss": 0.46782929, "token_acc": 0.88888889, "grad_norm": 2.21766424, "learning_rate": 5.55e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.49180991, "global_step/max_steps": "608/1237", "percentage": "49.15%", "elapsed_time": "7h 31m 35s", "remaining_time": "7h 47m 11s"}
{"loss": 0.43599927, "token_acc": 0.87539936, "grad_norm": 2.87562513, "learning_rate": 5.54e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.49261881, "global_step/max_steps": "609/1237", "percentage": "49.23%", "elapsed_time": "7h 32m 19s", "remaining_time": "7h 46m 26s"}
{"loss": 0.47470143, "token_acc": 0.88979592, "grad_norm": 2.96466613, "learning_rate": 5.53e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.4934277, "global_step/max_steps": "610/1237", "percentage": "49.31%", "elapsed_time": "7h 33m 3s", "remaining_time": "7h 45m 41s"}
{"loss": 0.42813766, "token_acc": 0.87890625, "grad_norm": 2.28903413, "learning_rate": 5.51e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.4942366, "global_step/max_steps": "611/1237", "percentage": "49.39%", "elapsed_time": "7h 33m 47s", "remaining_time": "7h 44m 55s"}
{"loss": 0.45447612, "token_acc": 0.83464567, "grad_norm": 2.54161859, "learning_rate": 5.5e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.4950455, "global_step/max_steps": "612/1237", "percentage": "49.47%", "elapsed_time": "7h 34m 31s", "remaining_time": "7h 44m 10s"}
{"loss": 0.43508497, "token_acc": 0.85833333, "grad_norm": 3.06506395, "learning_rate": 5.49e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.4958544, "global_step/max_steps": "613/1237", "percentage": "49.56%", "elapsed_time": "7h 35m 15s", "remaining_time": "7h 43m 25s"}
{"loss": 0.40306723, "token_acc": 0.85273973, "grad_norm": 1.94163036, "learning_rate": 5.47e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.4966633, "global_step/max_steps": "614/1237", "percentage": "49.64%", "elapsed_time": "7h 35m 59s", "remaining_time": "7h 42m 40s"}
{"loss": 0.43261084, "token_acc": 0.88311688, "grad_norm": 2.46377683, "learning_rate": 5.46e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.49747219, "global_step/max_steps": "615/1237", "percentage": "49.72%", "elapsed_time": "7h 36m 43s", "remaining_time": "7h 41m 55s"}
{"loss": 0.42490727, "token_acc": 0.85714286, "grad_norm": 2.78000021, "learning_rate": 5.45e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.49828109, "global_step/max_steps": "616/1237", "percentage": "49.80%", "elapsed_time": "7h 37m 26s", "remaining_time": "7h 41m 9s"}
{"loss": 0.39446378, "token_acc": 0.88888889, "grad_norm": 4.72098017, "learning_rate": 5.43e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.49908999, "global_step/max_steps": "617/1237", "percentage": "49.88%", "elapsed_time": "7h 38m 10s", "remaining_time": "7h 40m 24s"}
{"loss": 0.41358453, "token_acc": 0.87162162, "grad_norm": 2.47833824, "learning_rate": 5.42e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.49989889, "global_step/max_steps": "618/1237", "percentage": "49.96%", "elapsed_time": "7h 38m 54s", "remaining_time": "7h 39m 39s"}
{"loss": 0.38549104, "token_acc": 0.85652174, "grad_norm": 2.46510124, "learning_rate": 5.41e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.50070779, "global_step/max_steps": "619/1237", "percentage": "50.04%", "elapsed_time": "7h 39m 57s", "remaining_time": "7h 39m 12s"}
{"loss": 0.38155624, "token_acc": 0.88813559, "grad_norm": 2.05347347, "learning_rate": 5.39e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022425, "epoch": 0.50151668, "global_step/max_steps": "620/1237", "percentage": "50.12%", "elapsed_time": "7h 40m 41s", "remaining_time": "7h 38m 27s"}
{"loss": 0.45562464, "token_acc": 0.84265734, "grad_norm": 2.16351676, "learning_rate": 5.38e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022426, "epoch": 0.50232558, "global_step/max_steps": "621/1237", "percentage": "50.20%", "elapsed_time": "7h 41m 24s", "remaining_time": "7h 37m 41s"}
{"loss": 0.40033299, "token_acc": 0.84444444, "grad_norm": 2.17592382, "learning_rate": 5.37e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.50313448, "global_step/max_steps": "622/1237", "percentage": "50.28%", "elapsed_time": "7h 42m 8s", "remaining_time": "7h 36m 56s"}
{"loss": 0.45063108, "token_acc": 0.82437276, "grad_norm": 2.39122128, "learning_rate": 5.35e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.50394338, "global_step/max_steps": "623/1237", "percentage": "50.36%", "elapsed_time": "7h 42m 52s", "remaining_time": "7h 36m 11s"}
{"loss": 0.37759832, "token_acc": 0.91780822, "grad_norm": 2.42200375, "learning_rate": 5.34e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.50475228, "global_step/max_steps": "624/1237", "percentage": "50.44%", "elapsed_time": "7h 43m 36s", "remaining_time": "7h 35m 25s"}
{"loss": 0.46088916, "token_acc": 0.82033898, "grad_norm": 2.82280111, "learning_rate": 5.33e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.50556117, "global_step/max_steps": "625/1237", "percentage": "50.53%", "elapsed_time": "7h 44m 20s", "remaining_time": "7h 34m 40s"}
{"loss": 0.42331898, "token_acc": 0.88929889, "grad_norm": 2.9713943, "learning_rate": 5.31e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.50637007, "global_step/max_steps": "626/1237", "percentage": "50.61%", "elapsed_time": "7h 45m 3s", "remaining_time": "7h 33m 55s"}
{"loss": 0.45002854, "token_acc": 0.8358209, "grad_norm": 2.24816632, "learning_rate": 5.3e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.50717897, "global_step/max_steps": "627/1237", "percentage": "50.69%", "elapsed_time": "7h 45m 47s", "remaining_time": "7h 33m 10s"}
{"loss": 0.4095521, "token_acc": 0.9, "grad_norm": 3.18022847, "learning_rate": 5.29e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.50798787, "global_step/max_steps": "628/1237", "percentage": "50.77%", "elapsed_time": "7h 46m 31s", "remaining_time": "7h 32m 24s"}
{"loss": 0.44126487, "token_acc": 0.86495177, "grad_norm": 2.97460175, "learning_rate": 5.27e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.50879676, "global_step/max_steps": "629/1237", "percentage": "50.85%", "elapsed_time": "7h 47m 15s", "remaining_time": "7h 31m 39s"}
{"loss": 0.43686399, "token_acc": 0.90677966, "grad_norm": 7.99587631, "learning_rate": 5.26e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.50960566, "global_step/max_steps": "630/1237", "percentage": "50.93%", "elapsed_time": "7h 47m 59s", "remaining_time": "7h 30m 54s"}
{"loss": 0.36015373, "token_acc": 0.93846154, "grad_norm": 4.12443924, "learning_rate": 5.25e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.51041456, "global_step/max_steps": "631/1237", "percentage": "51.01%", "elapsed_time": "7h 48m 43s", "remaining_time": "7h 30m 9s"}
{"loss": 0.49298689, "token_acc": 0.8697318, "grad_norm": 2.16349196, "learning_rate": 5.23e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.51122346, "global_step/max_steps": "632/1237", "percentage": "51.09%", "elapsed_time": "7h 49m 26s", "remaining_time": "7h 29m 23s"}
{"loss": 0.38060415, "token_acc": 0.9253112, "grad_norm": 3.21730328, "learning_rate": 5.22e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.51203236, "global_step/max_steps": "633/1237", "percentage": "51.17%", "elapsed_time": "7h 50m 10s", "remaining_time": "7h 28m 38s"}
{"loss": 0.41035759, "token_acc": 0.86328125, "grad_norm": 2.41950488, "learning_rate": 5.21e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.51284125, "global_step/max_steps": "634/1237", "percentage": "51.25%", "elapsed_time": "7h 50m 54s", "remaining_time": "7h 27m 53s"}
{"loss": 0.40409672, "token_acc": 0.90502793, "grad_norm": 2.59866285, "learning_rate": 5.19e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.51365015, "global_step/max_steps": "635/1237", "percentage": "51.33%", "elapsed_time": "7h 51m 38s", "remaining_time": "7h 27m 8s"}
{"loss": 0.41635737, "token_acc": 0.85774059, "grad_norm": 3.15803909, "learning_rate": 5.18e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.51445905, "global_step/max_steps": "636/1237", "percentage": "51.41%", "elapsed_time": "7h 52m 22s", "remaining_time": "7h 26m 22s"}
{"loss": 0.43788815, "token_acc": 0.83181818, "grad_norm": 2.90249562, "learning_rate": 5.17e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.51526795, "global_step/max_steps": "637/1237", "percentage": "51.50%", "elapsed_time": "7h 53m 6s", "remaining_time": "7h 25m 37s"}
{"loss": 0.43005481, "token_acc": 0.85460993, "grad_norm": 5.88484001, "learning_rate": 5.15e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.51607685, "global_step/max_steps": "638/1237", "percentage": "51.58%", "elapsed_time": "7h 53m 50s", "remaining_time": "7h 24m 52s"}
{"loss": 0.44194204, "token_acc": 0.77777778, "grad_norm": 2.60730863, "learning_rate": 5.14e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.51688574, "global_step/max_steps": "639/1237", "percentage": "51.66%", "elapsed_time": "7h 54m 33s", "remaining_time": "7h 24m 6s"}
{"loss": 0.40762657, "token_acc": 0.90181818, "grad_norm": 2.60727644, "learning_rate": 5.13e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.51769464, "global_step/max_steps": "640/1237", "percentage": "51.74%", "elapsed_time": "7h 55m 17s", "remaining_time": "7h 23m 21s"}
{"loss": 0.43767849, "token_acc": 0.85714286, "grad_norm": 3.12853837, "learning_rate": 5.11e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.51850354, "global_step/max_steps": "641/1237", "percentage": "51.82%", "elapsed_time": "7h 56m 1s", "remaining_time": "7h 22m 36s"}
{"loss": 0.38721532, "token_acc": 0.89915966, "grad_norm": 2.1132288, "learning_rate": 5.1e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.51931244, "global_step/max_steps": "642/1237", "percentage": "51.90%", "elapsed_time": "7h 56m 45s", "remaining_time": "7h 21m 51s"}
{"loss": 0.44777155, "token_acc": 0.84459459, "grad_norm": 2.2944355, "learning_rate": 5.09e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.52012133, "global_step/max_steps": "643/1237", "percentage": "51.98%", "elapsed_time": "7h 57m 29s", "remaining_time": "7h 21m 6s"}
{"loss": 0.42040408, "token_acc": 0.89019608, "grad_norm": 4.42478657, "learning_rate": 5.07e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.52093023, "global_step/max_steps": "644/1237", "percentage": "52.06%", "elapsed_time": "7h 58m 13s", "remaining_time": "7h 20m 20s"}
{"loss": 0.43396342, "token_acc": 0.85992218, "grad_norm": 6.76961994, "learning_rate": 5.06e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02244, "epoch": 0.52173913, "global_step/max_steps": "645/1237", "percentage": "52.14%", "elapsed_time": "7h 58m 56s", "remaining_time": "7h 19m 35s"}
{"loss": 0.38716063, "token_acc": 0.9004329, "grad_norm": 2.29772019, "learning_rate": 5.05e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022441, "epoch": 0.52254803, "global_step/max_steps": "646/1237", "percentage": "52.22%", "elapsed_time": "7h 59m 40s", "remaining_time": "7h 18m 50s"}
{"loss": 0.38244146, "token_acc": 0.8989899, "grad_norm": 3.8223865, "learning_rate": 5.03e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022441, "epoch": 0.52335693, "global_step/max_steps": "647/1237", "percentage": "52.30%", "elapsed_time": "8h 0m 24s", "remaining_time": "7h 18m 5s"}
{"loss": 0.40017083, "token_acc": 0.89361702, "grad_norm": 2.30252481, "learning_rate": 5.02e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022442, "epoch": 0.52416582, "global_step/max_steps": "648/1237", "percentage": "52.38%", "elapsed_time": "8h 1m 8s", "remaining_time": "7h 17m 19s"}
{"loss": 0.38078403, "token_acc": 0.88235294, "grad_norm": 1.88133669, "learning_rate": 5.01e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022442, "epoch": 0.52497472, "global_step/max_steps": "649/1237", "percentage": "52.47%", "elapsed_time": "8h 1m 52s", "remaining_time": "7h 16m 34s"}
{"loss": 0.45456323, "token_acc": 0.83950617, "grad_norm": 2.80587053, "learning_rate": 4.99e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022443, "epoch": 0.52578362, "global_step/max_steps": "650/1237", "percentage": "52.55%", "elapsed_time": "8h 2m 36s", "remaining_time": "7h 15m 49s"}
{"loss": 0.394566, "token_acc": 0.86641221, "grad_norm": 2.46681166, "learning_rate": 4.98e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022443, "epoch": 0.52659252, "global_step/max_steps": "651/1237", "percentage": "52.63%", "elapsed_time": "8h 3m 19s", "remaining_time": "7h 15m 4s"}
{"loss": 0.39338779, "token_acc": 0.86547085, "grad_norm": 2.22489572, "learning_rate": 4.97e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022444, "epoch": 0.52740142, "global_step/max_steps": "652/1237", "percentage": "52.71%", "elapsed_time": "8h 4m 3s", "remaining_time": "7h 14m 19s"}
{"loss": 0.36528832, "token_acc": 0.90875912, "grad_norm": 2.53144193, "learning_rate": 4.95e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022444, "epoch": 0.52821031, "global_step/max_steps": "653/1237", "percentage": "52.79%", "elapsed_time": "8h 4m 47s", "remaining_time": "7h 13m 34s"}
{"loss": 0.39938468, "token_acc": 0.88721805, "grad_norm": 2.08521819, "learning_rate": 4.94e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022445, "epoch": 0.52901921, "global_step/max_steps": "654/1237", "percentage": "52.87%", "elapsed_time": "8h 5m 31s", "remaining_time": "7h 12m 48s"}
{"loss": 0.45876563, "token_acc": 0.9147541, "grad_norm": 2.47684097, "learning_rate": 4.93e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022446, "epoch": 0.52982811, "global_step/max_steps": "655/1237", "percentage": "52.95%", "elapsed_time": "8h 6m 15s", "remaining_time": "7h 12m 3s"}
{"loss": 0.40004942, "token_acc": 0.85889571, "grad_norm": 3.7685523, "learning_rate": 4.91e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022446, "epoch": 0.53063701, "global_step/max_steps": "656/1237", "percentage": "53.03%", "elapsed_time": "8h 6m 58s", "remaining_time": "7h 11m 18s"}
{"loss": 0.42587221, "token_acc": 0.87412587, "grad_norm": 2.79040861, "learning_rate": 4.9e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022447, "epoch": 0.5314459, "global_step/max_steps": "657/1237", "percentage": "53.11%", "elapsed_time": "8h 7m 42s", "remaining_time": "7h 10m 33s"}
{"loss": 0.38174745, "token_acc": 0.8697318, "grad_norm": 2.27743697, "learning_rate": 4.89e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022447, "epoch": 0.5322548, "global_step/max_steps": "658/1237", "percentage": "53.19%", "elapsed_time": "8h 8m 26s", "remaining_time": "7h 9m 47s"}
{"loss": 0.43406236, "token_acc": 0.85430464, "grad_norm": 2.04982138, "learning_rate": 4.87e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022448, "epoch": 0.5330637, "global_step/max_steps": "659/1237", "percentage": "53.27%", "elapsed_time": "8h 9m 10s", "remaining_time": "7h 9m 2s"}
{"loss": 0.35842258, "token_acc": 0.89333333, "grad_norm": 2.25261712, "learning_rate": 4.86e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022448, "epoch": 0.5338726, "global_step/max_steps": "660/1237", "percentage": "53.35%", "elapsed_time": "8h 9m 54s", "remaining_time": "7h 8m 17s"}
{"loss": 0.40685737, "token_acc": 0.87372014, "grad_norm": 2.16071177, "learning_rate": 4.85e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022449, "epoch": 0.5346815, "global_step/max_steps": "661/1237", "percentage": "53.44%", "elapsed_time": "8h 10m 37s", "remaining_time": "7h 7m 32s"}
{"loss": 0.44293731, "token_acc": 0.84656085, "grad_norm": 2.92450643, "learning_rate": 4.83e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02245, "epoch": 0.53549039, "global_step/max_steps": "662/1237", "percentage": "53.52%", "elapsed_time": "8h 11m 21s", "remaining_time": "7h 6m 47s"}
{"loss": 0.45856264, "token_acc": 0.85992218, "grad_norm": 3.00795221, "learning_rate": 4.82e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02245, "epoch": 0.53629929, "global_step/max_steps": "663/1237", "percentage": "53.60%", "elapsed_time": "8h 12m 5s", "remaining_time": "7h 6m 2s"}
{"loss": 0.41739786, "token_acc": 0.87218045, "grad_norm": 2.98686099, "learning_rate": 4.81e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022451, "epoch": 0.53710819, "global_step/max_steps": "664/1237", "percentage": "53.68%", "elapsed_time": "8h 12m 49s", "remaining_time": "7h 5m 17s"}
{"loss": 0.4020946, "token_acc": 0.8129771, "grad_norm": 2.1893158, "learning_rate": 4.79e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022451, "epoch": 0.53791709, "global_step/max_steps": "665/1237", "percentage": "53.76%", "elapsed_time": "8h 13m 33s", "remaining_time": "7h 4m 32s"}
{"loss": 0.47656059, "token_acc": 0.87062937, "grad_norm": 2.2716012, "learning_rate": 4.78e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022452, "epoch": 0.53872599, "global_step/max_steps": "666/1237", "percentage": "53.84%", "elapsed_time": "8h 14m 17s", "remaining_time": "7h 3m 46s"}
{"loss": 0.3971816, "token_acc": 0.85365854, "grad_norm": 2.23425555, "learning_rate": 4.77e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022452, "epoch": 0.53953488, "global_step/max_steps": "667/1237", "percentage": "53.92%", "elapsed_time": "8h 15m 0s", "remaining_time": "7h 3m 1s"}
{"loss": 0.49389863, "token_acc": 0.81016949, "grad_norm": 2.64725947, "learning_rate": 4.75e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022453, "epoch": 0.54034378, "global_step/max_steps": "668/1237", "percentage": "54.00%", "elapsed_time": "8h 15m 44s", "remaining_time": "7h 2m 16s"}
{"loss": 0.43769616, "token_acc": 0.8683274, "grad_norm": 2.08120251, "learning_rate": 4.74e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022453, "epoch": 0.54115268, "global_step/max_steps": "669/1237", "percentage": "54.08%", "elapsed_time": "8h 16m 28s", "remaining_time": "7h 1m 31s"}
{"loss": 0.36060756, "token_acc": 0.8583691, "grad_norm": 2.3195982, "learning_rate": 4.73e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022454, "epoch": 0.54196158, "global_step/max_steps": "670/1237", "percentage": "54.16%", "elapsed_time": "8h 17m 12s", "remaining_time": "7h 0m 46s"}
{"loss": 0.44290066, "token_acc": 0.84388186, "grad_norm": 2.11845827, "learning_rate": 4.71e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022454, "epoch": 0.54277048, "global_step/max_steps": "671/1237", "percentage": "54.24%", "elapsed_time": "8h 17m 56s", "remaining_time": "7h 0m 1s"}
{"loss": 0.41405189, "token_acc": 0.87906977, "grad_norm": 2.69419336, "learning_rate": 4.7e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022455, "epoch": 0.54357937, "global_step/max_steps": "672/1237", "percentage": "54.32%", "elapsed_time": "8h 18m 40s", "remaining_time": "6h 59m 16s"}
{"loss": 0.45703337, "token_acc": 0.86476868, "grad_norm": 2.46655059, "learning_rate": 4.69e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022455, "epoch": 0.54438827, "global_step/max_steps": "673/1237", "percentage": "54.41%", "elapsed_time": "8h 19m 24s", "remaining_time": "6h 58m 31s"}
{"loss": 0.36523831, "token_acc": 0.8957346, "grad_norm": 3.16057038, "learning_rate": 4.67e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022456, "epoch": 0.54519717, "global_step/max_steps": "674/1237", "percentage": "54.49%", "elapsed_time": "8h 20m 8s", "remaining_time": "6h 57m 46s"}
{"loss": 0.42060155, "token_acc": 0.88671875, "grad_norm": 2.54751158, "learning_rate": 4.66e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022456, "epoch": 0.54600607, "global_step/max_steps": "675/1237", "percentage": "54.57%", "elapsed_time": "8h 20m 52s", "remaining_time": "6h 57m 1s"}
{"loss": 0.42101002, "token_acc": 0.90540541, "grad_norm": 2.29084086, "learning_rate": 4.65e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022457, "epoch": 0.54681496, "global_step/max_steps": "676/1237", "percentage": "54.65%", "elapsed_time": "8h 21m 35s", "remaining_time": "6h 56m 16s"}
{"loss": 0.40172249, "token_acc": 0.86425339, "grad_norm": 2.61794233, "learning_rate": 4.63e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022457, "epoch": 0.54762386, "global_step/max_steps": "677/1237", "percentage": "54.73%", "elapsed_time": "8h 22m 19s", "remaining_time": "6h 55m 30s"}
{"loss": 0.36051023, "token_acc": 0.89270386, "grad_norm": 2.21480918, "learning_rate": 4.62e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022458, "epoch": 0.54843276, "global_step/max_steps": "678/1237", "percentage": "54.81%", "elapsed_time": "8h 23m 3s", "remaining_time": "6h 54m 45s"}
{"loss": 0.38409594, "token_acc": 0.82264151, "grad_norm": 2.38411593, "learning_rate": 4.61e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022458, "epoch": 0.54924166, "global_step/max_steps": "679/1237", "percentage": "54.89%", "elapsed_time": "8h 23m 47s", "remaining_time": "6h 54m 0s"}
{"loss": 0.4184559, "token_acc": 0.84615385, "grad_norm": 2.15250492, "learning_rate": 4.59e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022459, "epoch": 0.55005056, "global_step/max_steps": "680/1237", "percentage": "54.97%", "elapsed_time": "8h 24m 31s", "remaining_time": "6h 53m 15s"}
{"loss": 0.35380679, "token_acc": 0.83012821, "grad_norm": 2.0881815, "learning_rate": 4.58e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022459, "epoch": 0.55085945, "global_step/max_steps": "681/1237", "percentage": "55.05%", "elapsed_time": "8h 25m 14s", "remaining_time": "6h 52m 30s"}
{"loss": 0.41880989, "token_acc": 0.88087774, "grad_norm": 4.50685883, "learning_rate": 4.57e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02246, "epoch": 0.55166835, "global_step/max_steps": "682/1237", "percentage": "55.13%", "elapsed_time": "8h 25m 58s", "remaining_time": "6h 51m 45s"}
{"loss": 0.39499623, "token_acc": 0.87719298, "grad_norm": 7.24404764, "learning_rate": 4.55e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02246, "epoch": 0.55247725, "global_step/max_steps": "683/1237", "percentage": "55.21%", "elapsed_time": "8h 26m 42s", "remaining_time": "6h 51m 0s"}
{"loss": 0.36630768, "token_acc": 0.83986928, "grad_norm": 2.41081786, "learning_rate": 4.54e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022461, "epoch": 0.55328615, "global_step/max_steps": "684/1237", "percentage": "55.30%", "elapsed_time": "8h 27m 26s", "remaining_time": "6h 50m 15s"}
{"loss": 0.41436762, "token_acc": 0.84581498, "grad_norm": 3.47383976, "learning_rate": 4.53e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022461, "epoch": 0.55409505, "global_step/max_steps": "685/1237", "percentage": "55.38%", "elapsed_time": "8h 28m 10s", "remaining_time": "6h 49m 30s"}
{"loss": 0.39957285, "token_acc": 0.88474576, "grad_norm": 3.98959136, "learning_rate": 4.51e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022462, "epoch": 0.55490394, "global_step/max_steps": "686/1237", "percentage": "55.46%", "elapsed_time": "8h 28m 54s", "remaining_time": "6h 48m 45s"}
{"loss": 0.3500638, "token_acc": 0.84984026, "grad_norm": 2.368927, "learning_rate": 4.5e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022462, "epoch": 0.55571284, "global_step/max_steps": "687/1237", "percentage": "55.54%", "elapsed_time": "8h 29m 38s", "remaining_time": "6h 48m 0s"}
{"loss": 0.3939352, "token_acc": 0.90038314, "grad_norm": 2.14414525, "learning_rate": 4.49e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022463, "epoch": 0.55652174, "global_step/max_steps": "688/1237", "percentage": "55.62%", "elapsed_time": "8h 30m 22s", "remaining_time": "6h 47m 15s"}
{"loss": 0.41652551, "token_acc": 0.87419355, "grad_norm": 2.42962003, "learning_rate": 4.47e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022463, "epoch": 0.55733064, "global_step/max_steps": "689/1237", "percentage": "55.70%", "elapsed_time": "8h 31m 6s", "remaining_time": "6h 46m 30s"}
{"loss": 0.37789023, "token_acc": 0.85714286, "grad_norm": 2.07047153, "learning_rate": 4.46e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022464, "epoch": 0.55813953, "global_step/max_steps": "690/1237", "percentage": "55.78%", "elapsed_time": "8h 31m 49s", "remaining_time": "6h 45m 45s"}
{"loss": 0.36215138, "token_acc": 0.88038278, "grad_norm": 1.92885458, "learning_rate": 4.45e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022464, "epoch": 0.55894843, "global_step/max_steps": "691/1237", "percentage": "55.86%", "elapsed_time": "8h 32m 33s", "remaining_time": "6h 45m 0s"}
{"loss": 0.46439093, "token_acc": 0.84230769, "grad_norm": 2.87867737, "learning_rate": 4.43e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022465, "epoch": 0.55975733, "global_step/max_steps": "692/1237", "percentage": "55.94%", "elapsed_time": "8h 33m 17s", "remaining_time": "6h 44m 15s"}
{"loss": 0.35964751, "token_acc": 0.88888889, "grad_norm": 7.47246933, "learning_rate": 4.42e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022465, "epoch": 0.56056623, "global_step/max_steps": "693/1237", "percentage": "56.02%", "elapsed_time": "8h 34m 1s", "remaining_time": "6h 43m 30s"}
{"loss": 0.39849791, "token_acc": 0.86190476, "grad_norm": 2.21494174, "learning_rate": 4.41e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022466, "epoch": 0.56137513, "global_step/max_steps": "694/1237", "percentage": "56.10%", "elapsed_time": "8h 34m 44s", "remaining_time": "6h 42m 45s"}
{"loss": 0.33962417, "token_acc": 0.875, "grad_norm": 2.57370734, "learning_rate": 4.39e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022466, "epoch": 0.56218402, "global_step/max_steps": "695/1237", "percentage": "56.18%", "elapsed_time": "8h 35m 28s", "remaining_time": "6h 41m 59s"}
{"loss": 0.43496495, "token_acc": 0.84868421, "grad_norm": 2.20019197, "learning_rate": 4.38e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022467, "epoch": 0.56299292, "global_step/max_steps": "696/1237", "percentage": "56.27%", "elapsed_time": "8h 36m 12s", "remaining_time": "6h 41m 14s"}
{"loss": 0.36534673, "token_acc": 0.89919355, "grad_norm": 1.98721123, "learning_rate": 4.37e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022467, "epoch": 0.56380182, "global_step/max_steps": "697/1237", "percentage": "56.35%", "elapsed_time": "8h 36m 56s", "remaining_time": "6h 40m 29s"}
{"loss": 0.43838891, "token_acc": 0.8419244, "grad_norm": 2.00094652, "learning_rate": 4.35e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022468, "epoch": 0.56461072, "global_step/max_steps": "698/1237", "percentage": "56.43%", "elapsed_time": "8h 37m 40s", "remaining_time": "6h 39m 44s"}
{"loss": 0.4090406, "token_acc": 0.84541063, "grad_norm": 2.33160281, "learning_rate": 4.34e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022468, "epoch": 0.56541962, "global_step/max_steps": "699/1237", "percentage": "56.51%", "elapsed_time": "8h 38m 23s", "remaining_time": "6h 38m 59s"}
{"loss": 0.40262288, "token_acc": 0.87654321, "grad_norm": 2.31939173, "learning_rate": 4.33e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022469, "epoch": 0.56622851, "global_step/max_steps": "700/1237", "percentage": "56.59%", "elapsed_time": "8h 39m 7s", "remaining_time": "6h 38m 14s"}
{"loss": 0.4028888, "token_acc": 0.89930556, "grad_norm": 2.7743845, "learning_rate": 4.31e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022469, "epoch": 0.56703741, "global_step/max_steps": "701/1237", "percentage": "56.67%", "elapsed_time": "8h 39m 51s", "remaining_time": "6h 37m 29s"}
{"loss": 0.34644151, "token_acc": 0.86222222, "grad_norm": 1.95051837, "learning_rate": 4.3e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02247, "epoch": 0.56784631, "global_step/max_steps": "702/1237", "percentage": "56.75%", "elapsed_time": "8h 40m 35s", "remaining_time": "6h 36m 44s"}
{"loss": 0.42950293, "token_acc": 0.86614173, "grad_norm": 2.18372059, "learning_rate": 4.29e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022471, "epoch": 0.56865521, "global_step/max_steps": "703/1237", "percentage": "56.83%", "elapsed_time": "8h 41m 19s", "remaining_time": "6h 35m 59s"}
{"loss": 0.39105907, "token_acc": 0.84042553, "grad_norm": 2.04807377, "learning_rate": 4.27e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022471, "epoch": 0.56946411, "global_step/max_steps": "704/1237", "percentage": "56.91%", "elapsed_time": "8h 42m 2s", "remaining_time": "6h 35m 14s"}
{"loss": 0.45382118, "token_acc": 0.88627451, "grad_norm": 2.1780684, "learning_rate": 4.26e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022472, "epoch": 0.570273, "global_step/max_steps": "705/1237", "percentage": "56.99%", "elapsed_time": "8h 42m 46s", "remaining_time": "6h 34m 29s"}
{"loss": 0.39520663, "token_acc": 0.80124224, "grad_norm": 2.07521462, "learning_rate": 4.25e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022472, "epoch": 0.5710819, "global_step/max_steps": "706/1237", "percentage": "57.07%", "elapsed_time": "8h 43m 30s", "remaining_time": "6h 33m 44s"}
{"loss": 0.41306537, "token_acc": 0.86245353, "grad_norm": 2.0002594, "learning_rate": 4.23e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022473, "epoch": 0.5718908, "global_step/max_steps": "707/1237", "percentage": "57.15%", "elapsed_time": "8h 44m 14s", "remaining_time": "6h 32m 59s"}
{"loss": 0.36960453, "token_acc": 0.89818182, "grad_norm": 2.03123832, "learning_rate": 4.22e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022473, "epoch": 0.5726997, "global_step/max_steps": "708/1237", "percentage": "57.24%", "elapsed_time": "8h 44m 58s", "remaining_time": "6h 32m 14s"}
{"loss": 0.43690211, "token_acc": 0.84615385, "grad_norm": 2.35164785, "learning_rate": 4.21e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022474, "epoch": 0.57350859, "global_step/max_steps": "709/1237", "percentage": "57.32%", "elapsed_time": "8h 45m 41s", "remaining_time": "6h 31m 29s"}
{"loss": 0.37933707, "token_acc": 0.83935743, "grad_norm": 2.55927324, "learning_rate": 4.19e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022474, "epoch": 0.57431749, "global_step/max_steps": "710/1237", "percentage": "57.40%", "elapsed_time": "8h 46m 25s", "remaining_time": "6h 30m 44s"}
{"loss": 0.39188504, "token_acc": 0.90336134, "grad_norm": 2.09762383, "learning_rate": 4.18e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022475, "epoch": 0.57512639, "global_step/max_steps": "711/1237", "percentage": "57.48%", "elapsed_time": "8h 47m 9s", "remaining_time": "6h 29m 59s"}
{"loss": 0.41744855, "token_acc": 0.83467742, "grad_norm": 1.93037176, "learning_rate": 4.17e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022475, "epoch": 0.57593529, "global_step/max_steps": "712/1237", "percentage": "57.56%", "elapsed_time": "8h 47m 53s", "remaining_time": "6h 29m 14s"}
{"loss": 0.37187484, "token_acc": 0.87197232, "grad_norm": 2.56180191, "learning_rate": 4.16e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022475, "epoch": 0.57674419, "global_step/max_steps": "713/1237", "percentage": "57.64%", "elapsed_time": "8h 48m 37s", "remaining_time": "6h 28m 29s"}
{"loss": 0.3762382, "token_acc": 0.88744589, "grad_norm": 2.32285023, "learning_rate": 4.14e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022476, "epoch": 0.57755308, "global_step/max_steps": "714/1237", "percentage": "57.72%", "elapsed_time": "8h 49m 20s", "remaining_time": "6h 27m 44s"}
{"loss": 0.4015114, "token_acc": 0.85384615, "grad_norm": 2.18273592, "learning_rate": 4.13e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022476, "epoch": 0.57836198, "global_step/max_steps": "715/1237", "percentage": "57.80%", "elapsed_time": "8h 50m 4s", "remaining_time": "6h 26m 59s"}
{"loss": 0.34364283, "token_acc": 0.90344828, "grad_norm": 2.66470456, "learning_rate": 4.12e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022477, "epoch": 0.57917088, "global_step/max_steps": "716/1237", "percentage": "57.88%", "elapsed_time": "8h 50m 48s", "remaining_time": "6h 26m 14s"}
{"loss": 0.42024565, "token_acc": 0.8202765, "grad_norm": 2.08657885, "learning_rate": 4.1e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022477, "epoch": 0.57997978, "global_step/max_steps": "717/1237", "percentage": "57.96%", "elapsed_time": "8h 51m 32s", "remaining_time": "6h 25m 29s"}
{"loss": 0.37721166, "token_acc": 0.87841945, "grad_norm": 1.95248783, "learning_rate": 4.09e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022478, "epoch": 0.58078868, "global_step/max_steps": "718/1237", "percentage": "58.04%", "elapsed_time": "8h 52m 15s", "remaining_time": "6h 24m 44s"}
{"loss": 0.42397577, "token_acc": 0.8559322, "grad_norm": 1.99672127, "learning_rate": 4.08e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022479, "epoch": 0.58159757, "global_step/max_steps": "719/1237", "percentage": "58.12%", "elapsed_time": "8h 52m 59s", "remaining_time": "6h 23m 59s"}
{"loss": 0.38680619, "token_acc": 0.93133047, "grad_norm": 2.28180671, "learning_rate": 4.06e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022479, "epoch": 0.58240647, "global_step/max_steps": "720/1237", "percentage": "58.21%", "elapsed_time": "8h 53m 43s", "remaining_time": "6h 23m 14s"}
{"loss": 0.47143412, "token_acc": 0.83098592, "grad_norm": 2.52719975, "learning_rate": 4.05e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022479, "epoch": 0.58321537, "global_step/max_steps": "721/1237", "percentage": "58.29%", "elapsed_time": "8h 54m 27s", "remaining_time": "6h 22m 29s"}
{"loss": 0.40078855, "token_acc": 0.90456432, "grad_norm": 2.19300842, "learning_rate": 4.04e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02248, "epoch": 0.58402427, "global_step/max_steps": "722/1237", "percentage": "58.37%", "elapsed_time": "8h 55m 11s", "remaining_time": "6h 21m 44s"}
{"loss": 0.43455097, "token_acc": 0.85046729, "grad_norm": 2.20753026, "learning_rate": 4.02e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02248, "epoch": 0.58483316, "global_step/max_steps": "723/1237", "percentage": "58.45%", "elapsed_time": "8h 55m 55s", "remaining_time": "6h 21m 0s"}
{"loss": 0.39234722, "token_acc": 0.88381743, "grad_norm": 2.09395933, "learning_rate": 4.01e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022481, "epoch": 0.58564206, "global_step/max_steps": "724/1237", "percentage": "58.53%", "elapsed_time": "8h 56m 39s", "remaining_time": "6h 20m 15s"}
{"loss": 0.37710571, "token_acc": 0.87043189, "grad_norm": 2.8163023, "learning_rate": 4e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022481, "epoch": 0.58645096, "global_step/max_steps": "725/1237", "percentage": "58.61%", "elapsed_time": "8h 57m 23s", "remaining_time": "6h 19m 30s"}
{"loss": 0.33992162, "token_acc": 0.87817259, "grad_norm": 3.31025863, "learning_rate": 3.98e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022482, "epoch": 0.58725986, "global_step/max_steps": "726/1237", "percentage": "58.69%", "elapsed_time": "8h 58m 6s", "remaining_time": "6h 18m 45s"}
{"loss": 0.36120051, "token_acc": 0.85766423, "grad_norm": 2.12906957, "learning_rate": 3.97e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022482, "epoch": 0.58806876, "global_step/max_steps": "727/1237", "percentage": "58.77%", "elapsed_time": "8h 58m 50s", "remaining_time": "6h 18m 0s"}
{"loss": 0.39483345, "token_acc": 0.86259542, "grad_norm": 2.37074184, "learning_rate": 3.96e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022482, "epoch": 0.58887765, "global_step/max_steps": "728/1237", "percentage": "58.85%", "elapsed_time": "8h 59m 34s", "remaining_time": "6h 17m 15s"}
{"loss": 0.37849981, "token_acc": 0.86631016, "grad_norm": 1.96541619, "learning_rate": 3.95e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022483, "epoch": 0.58968655, "global_step/max_steps": "729/1237", "percentage": "58.93%", "elapsed_time": "9h 0m 17s", "remaining_time": "6h 16m 30s"}
{"loss": 0.43174118, "token_acc": 0.84137931, "grad_norm": 2.54046106, "learning_rate": 3.93e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022484, "epoch": 0.59049545, "global_step/max_steps": "730/1237", "percentage": "59.01%", "elapsed_time": "9h 1m 1s", "remaining_time": "6h 15m 45s"}
{"loss": 0.39798552, "token_acc": 0.86995516, "grad_norm": 1.93278992, "learning_rate": 3.92e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022484, "epoch": 0.59130435, "global_step/max_steps": "731/1237", "percentage": "59.09%", "elapsed_time": "9h 1m 45s", "remaining_time": "6h 15m 0s"}
{"loss": 0.41476071, "token_acc": 0.87128713, "grad_norm": 2.32203364, "learning_rate": 3.91e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022484, "epoch": 0.59211325, "global_step/max_steps": "732/1237", "percentage": "59.18%", "elapsed_time": "9h 2m 29s", "remaining_time": "6h 14m 15s"}
{"loss": 0.39684892, "token_acc": 0.84183673, "grad_norm": 2.06612611, "learning_rate": 3.89e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022485, "epoch": 0.59292214, "global_step/max_steps": "733/1237", "percentage": "59.26%", "elapsed_time": "9h 3m 13s", "remaining_time": "6h 13m 30s"}
{"loss": 0.34254152, "token_acc": 0.91052632, "grad_norm": 1.87939382, "learning_rate": 3.88e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022485, "epoch": 0.59373104, "global_step/max_steps": "734/1237", "percentage": "59.34%", "elapsed_time": "9h 3m 56s", "remaining_time": "6h 12m 45s"}
{"loss": 0.46473673, "token_acc": 0.864, "grad_norm": 3.24609017, "learning_rate": 3.87e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022486, "epoch": 0.59453994, "global_step/max_steps": "735/1237", "percentage": "59.42%", "elapsed_time": "9h 4m 40s", "remaining_time": "6h 12m 0s"}
{"loss": 0.4941932, "token_acc": 0.84306569, "grad_norm": 2.14905906, "learning_rate": 3.85e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022486, "epoch": 0.59534884, "global_step/max_steps": "736/1237", "percentage": "59.50%", "elapsed_time": "9h 5m 24s", "remaining_time": "6h 11m 15s"}
{"loss": 0.43801773, "token_acc": 0.79856115, "grad_norm": 2.94263244, "learning_rate": 3.84e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022487, "epoch": 0.59615774, "global_step/max_steps": "737/1237", "percentage": "59.58%", "elapsed_time": "9h 6m 8s", "remaining_time": "6h 10m 30s"}
{"loss": 0.3653231, "token_acc": 0.84848485, "grad_norm": 1.83078945, "learning_rate": 3.83e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022487, "epoch": 0.59696663, "global_step/max_steps": "738/1237", "percentage": "59.66%", "elapsed_time": "9h 6m 52s", "remaining_time": "6h 9m 46s"}
{"loss": 0.3788912, "token_acc": 0.86567164, "grad_norm": 1.68267632, "learning_rate": 3.81e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022488, "epoch": 0.59777553, "global_step/max_steps": "739/1237", "percentage": "59.74%", "elapsed_time": "9h 7m 36s", "remaining_time": "6h 9m 1s"}
{"loss": 0.39465457, "token_acc": 0.8245614, "grad_norm": 3.56408525, "learning_rate": 3.8e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022488, "epoch": 0.59858443, "global_step/max_steps": "740/1237", "percentage": "59.82%", "elapsed_time": "9h 8m 19s", "remaining_time": "6h 8m 16s"}
{"loss": 0.46392602, "token_acc": 0.86785714, "grad_norm": 3.61206079, "learning_rate": 3.79e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022489, "epoch": 0.59939333, "global_step/max_steps": "741/1237", "percentage": "59.90%", "elapsed_time": "9h 9m 3s", "remaining_time": "6h 7m 31s"}
{"loss": 0.37793714, "token_acc": 0.89622642, "grad_norm": 2.10774565, "learning_rate": 3.78e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022489, "epoch": 0.60020222, "global_step/max_steps": "742/1237", "percentage": "59.98%", "elapsed_time": "9h 9m 47s", "remaining_time": "6h 6m 46s"}
{"loss": 0.44156948, "token_acc": 0.87449393, "grad_norm": 2.06325221, "learning_rate": 3.76e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02249, "epoch": 0.60101112, "global_step/max_steps": "743/1237", "percentage": "60.06%", "elapsed_time": "9h 10m 31s", "remaining_time": "6h 6m 1s"}
{"loss": 0.43850905, "token_acc": 0.81818182, "grad_norm": 2.20847654, "learning_rate": 3.75e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02249, "epoch": 0.60182002, "global_step/max_steps": "744/1237", "percentage": "60.15%", "elapsed_time": "9h 11m 14s", "remaining_time": "6h 5m 16s"}
{"loss": 0.36739418, "token_acc": 0.86220472, "grad_norm": 3.25263548, "learning_rate": 3.74e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022491, "epoch": 0.60262892, "global_step/max_steps": "745/1237", "percentage": "60.23%", "elapsed_time": "9h 11m 58s", "remaining_time": "6h 4m 31s"}
{"loss": 0.39445218, "token_acc": 0.94656489, "grad_norm": 2.18628263, "learning_rate": 3.72e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022491, "epoch": 0.60343782, "global_step/max_steps": "746/1237", "percentage": "60.31%", "elapsed_time": "9h 12m 42s", "remaining_time": "6h 3m 46s"}
{"loss": 0.46001396, "token_acc": 0.85098039, "grad_norm": 1.96487904, "learning_rate": 3.71e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022491, "epoch": 0.60424671, "global_step/max_steps": "747/1237", "percentage": "60.39%", "elapsed_time": "9h 13m 26s", "remaining_time": "6h 3m 2s"}
{"loss": 0.38224441, "token_acc": 0.88014981, "grad_norm": 2.60293245, "learning_rate": 3.7e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022492, "epoch": 0.60505561, "global_step/max_steps": "748/1237", "percentage": "60.47%", "elapsed_time": "9h 14m 10s", "remaining_time": "6h 2m 17s"}
{"loss": 0.39337528, "token_acc": 0.86813187, "grad_norm": 2.07429504, "learning_rate": 3.69e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022492, "epoch": 0.60586451, "global_step/max_steps": "749/1237", "percentage": "60.55%", "elapsed_time": "9h 14m 54s", "remaining_time": "6h 1m 32s"}
{"loss": 0.39733976, "token_acc": 0.90661479, "grad_norm": 3.2914257, "learning_rate": 3.67e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022493, "epoch": 0.60667341, "global_step/max_steps": "750/1237", "percentage": "60.63%", "elapsed_time": "9h 15m 37s", "remaining_time": "6h 0m 47s"}
{"loss": 0.40482792, "token_acc": 0.85355649, "grad_norm": 1.90891159, "learning_rate": 3.66e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022493, "epoch": 0.60748231, "global_step/max_steps": "751/1237", "percentage": "60.71%", "elapsed_time": "9h 16m 21s", "remaining_time": "6h 0m 2s"}
{"loss": 0.53143358, "token_acc": 0.87078652, "grad_norm": 3.01401854, "learning_rate": 3.65e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022493, "epoch": 0.6082912, "global_step/max_steps": "752/1237", "percentage": "60.79%", "elapsed_time": "9h 17m 5s", "remaining_time": "5h 59m 17s"}
{"loss": 0.37042505, "token_acc": 0.88789238, "grad_norm": 2.30167031, "learning_rate": 3.63e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022494, "epoch": 0.6091001, "global_step/max_steps": "753/1237", "percentage": "60.87%", "elapsed_time": "9h 17m 49s", "remaining_time": "5h 58m 32s"}
{"loss": 0.41643506, "token_acc": 0.84924623, "grad_norm": 1.96387661, "learning_rate": 3.62e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022494, "epoch": 0.609909, "global_step/max_steps": "754/1237", "percentage": "60.95%", "elapsed_time": "9h 18m 33s", "remaining_time": "5h 57m 48s"}
{"loss": 0.40423936, "token_acc": 0.86792453, "grad_norm": 2.50568843, "learning_rate": 3.61e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022495, "epoch": 0.6107179, "global_step/max_steps": "755/1237", "percentage": "61.03%", "elapsed_time": "9h 19m 16s", "remaining_time": "5h 57m 3s"}
{"loss": 0.379917, "token_acc": 0.86705202, "grad_norm": 2.15283442, "learning_rate": 3.6e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022495, "epoch": 0.61152679, "global_step/max_steps": "756/1237", "percentage": "61.12%", "elapsed_time": "9h 20m 0s", "remaining_time": "5h 56m 18s"}
{"loss": 0.40563014, "token_acc": 0.85507246, "grad_norm": 2.53421307, "learning_rate": 3.58e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022496, "epoch": 0.61233569, "global_step/max_steps": "757/1237", "percentage": "61.20%", "elapsed_time": "9h 20m 44s", "remaining_time": "5h 55m 33s"}
{"loss": 0.40822393, "token_acc": 0.88888889, "grad_norm": 1.97864413, "learning_rate": 3.57e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022496, "epoch": 0.61314459, "global_step/max_steps": "758/1237", "percentage": "61.28%", "elapsed_time": "9h 21m 28s", "remaining_time": "5h 54m 48s"}
{"loss": 0.39076924, "token_acc": 0.87280702, "grad_norm": 1.87676942, "learning_rate": 3.56e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022496, "epoch": 0.61395349, "global_step/max_steps": "759/1237", "percentage": "61.36%", "elapsed_time": "9h 22m 12s", "remaining_time": "5h 54m 3s"}
{"loss": 0.44266671, "token_acc": 0.89864865, "grad_norm": 2.09862208, "learning_rate": 3.54e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022497, "epoch": 0.61476239, "global_step/max_steps": "760/1237", "percentage": "61.44%", "elapsed_time": "9h 22m 56s", "remaining_time": "5h 53m 19s"}
{"loss": 0.39799091, "token_acc": 0.87709497, "grad_norm": 2.34964705, "learning_rate": 3.53e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022497, "epoch": 0.61557128, "global_step/max_steps": "761/1237", "percentage": "61.52%", "elapsed_time": "9h 23m 40s", "remaining_time": "5h 52m 34s"}
{"loss": 0.36541584, "token_acc": 0.84489796, "grad_norm": 2.26760435, "learning_rate": 3.52e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022497, "epoch": 0.61638018, "global_step/max_steps": "762/1237", "percentage": "61.60%", "elapsed_time": "9h 24m 24s", "remaining_time": "5h 51m 49s"}
{"loss": 0.38983804, "token_acc": 0.86065574, "grad_norm": 2.62641287, "learning_rate": 3.51e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022497, "epoch": 0.61718908, "global_step/max_steps": "763/1237", "percentage": "61.68%", "elapsed_time": "9h 25m 8s", "remaining_time": "5h 51m 5s"}
{"loss": 0.45385638, "token_acc": 0.84482759, "grad_norm": 2.1349318, "learning_rate": 3.49e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022498, "epoch": 0.61799798, "global_step/max_steps": "764/1237", "percentage": "61.76%", "elapsed_time": "9h 25m 52s", "remaining_time": "5h 50m 20s"}
{"loss": 0.44239289, "token_acc": 0.8226601, "grad_norm": 2.11752629, "learning_rate": 3.48e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022498, "epoch": 0.61880688, "global_step/max_steps": "765/1237", "percentage": "61.84%", "elapsed_time": "9h 26m 36s", "remaining_time": "5h 49m 35s"}
{"loss": 0.3772938, "token_acc": 0.87445887, "grad_norm": 1.91570187, "learning_rate": 3.47e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022499, "epoch": 0.61961577, "global_step/max_steps": "766/1237", "percentage": "61.92%", "elapsed_time": "9h 27m 20s", "remaining_time": "5h 48m 50s"}
{"loss": 0.40089554, "token_acc": 0.90566038, "grad_norm": 2.06905484, "learning_rate": 3.45e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022499, "epoch": 0.62042467, "global_step/max_steps": "767/1237", "percentage": "62.00%", "elapsed_time": "9h 28m 3s", "remaining_time": "5h 48m 5s"}
{"loss": 0.37923118, "token_acc": 0.82867133, "grad_norm": 2.28415203, "learning_rate": 3.44e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022499, "epoch": 0.62123357, "global_step/max_steps": "768/1237", "percentage": "62.09%", "elapsed_time": "9h 28m 47s", "remaining_time": "5h 47m 21s"}
{"loss": 0.38093436, "token_acc": 0.86982249, "grad_norm": 3.00148273, "learning_rate": 3.43e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0225, "epoch": 0.62204247, "global_step/max_steps": "769/1237", "percentage": "62.17%", "elapsed_time": "9h 29m 31s", "remaining_time": "5h 46m 36s"}
{"loss": 0.45110765, "token_acc": 0.79761905, "grad_norm": 2.28916216, "learning_rate": 3.42e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0225, "epoch": 0.62285137, "global_step/max_steps": "770/1237", "percentage": "62.25%", "elapsed_time": "9h 30m 15s", "remaining_time": "5h 45m 51s"}
{"loss": 0.49026528, "token_acc": 0.840625, "grad_norm": 2.11644816, "learning_rate": 3.4e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022501, "epoch": 0.62366026, "global_step/max_steps": "771/1237", "percentage": "62.33%", "elapsed_time": "9h 30m 59s", "remaining_time": "5h 45m 6s"}
{"loss": 0.33032125, "token_acc": 0.8959276, "grad_norm": 1.64912248, "learning_rate": 3.39e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022501, "epoch": 0.62446916, "global_step/max_steps": "772/1237", "percentage": "62.41%", "elapsed_time": "9h 31m 43s", "remaining_time": "5h 44m 21s"}
{"loss": 0.37041348, "token_acc": 0.86580087, "grad_norm": 2.4584682, "learning_rate": 3.38e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022501, "epoch": 0.62527806, "global_step/max_steps": "773/1237", "percentage": "62.49%", "elapsed_time": "9h 32m 27s", "remaining_time": "5h 43m 37s"}
{"loss": 0.40716875, "token_acc": 0.85654008, "grad_norm": 1.94005954, "learning_rate": 3.37e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022502, "epoch": 0.62608696, "global_step/max_steps": "774/1237", "percentage": "62.57%", "elapsed_time": "9h 33m 10s", "remaining_time": "5h 42m 52s"}
{"loss": 0.40288383, "token_acc": 0.88444444, "grad_norm": 2.07642269, "learning_rate": 3.35e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022502, "epoch": 0.62689585, "global_step/max_steps": "775/1237", "percentage": "62.65%", "elapsed_time": "9h 33m 54s", "remaining_time": "5h 42m 7s"}
{"loss": 0.38765734, "token_acc": 0.9047619, "grad_norm": 2.13920879, "learning_rate": 3.34e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022502, "epoch": 0.62770475, "global_step/max_steps": "776/1237", "percentage": "62.73%", "elapsed_time": "9h 34m 38s", "remaining_time": "5h 41m 22s"}
{"loss": 0.39291215, "token_acc": 0.8625, "grad_norm": 1.98019886, "learning_rate": 3.33e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022503, "epoch": 0.62851365, "global_step/max_steps": "777/1237", "percentage": "62.81%", "elapsed_time": "9h 35m 22s", "remaining_time": "5h 40m 38s"}
{"loss": 0.45065528, "token_acc": 0.86259542, "grad_norm": 2.51353693, "learning_rate": 3.32e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022503, "epoch": 0.62932255, "global_step/max_steps": "778/1237", "percentage": "62.89%", "elapsed_time": "9h 36m 6s", "remaining_time": "5h 39m 53s"}
{"loss": 0.3663829, "token_acc": 0.93636364, "grad_norm": 2.93977761, "learning_rate": 3.3e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022504, "epoch": 0.63013145, "global_step/max_steps": "779/1237", "percentage": "62.97%", "elapsed_time": "9h 36m 50s", "remaining_time": "5h 39m 8s"}
{"loss": 0.39890724, "token_acc": 0.88353414, "grad_norm": 2.54330134, "learning_rate": 3.29e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022504, "epoch": 0.63094034, "global_step/max_steps": "780/1237", "percentage": "63.06%", "elapsed_time": "9h 37m 33s", "remaining_time": "5h 38m 23s"}
{"loss": 0.3230601, "token_acc": 0.86821705, "grad_norm": 1.82813585, "learning_rate": 3.28e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022504, "epoch": 0.63174924, "global_step/max_steps": "781/1237", "percentage": "63.14%", "elapsed_time": "9h 38m 17s", "remaining_time": "5h 37m 38s"}
{"loss": 0.38608581, "token_acc": 0.86752137, "grad_norm": 2.39929295, "learning_rate": 3.27e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022505, "epoch": 0.63255814, "global_step/max_steps": "782/1237", "percentage": "63.22%", "elapsed_time": "9h 39m 1s", "remaining_time": "5h 36m 54s"}
{"loss": 0.41789502, "token_acc": 0.82916667, "grad_norm": 2.39295197, "learning_rate": 3.25e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022505, "epoch": 0.63336704, "global_step/max_steps": "783/1237", "percentage": "63.30%", "elapsed_time": "9h 39m 45s", "remaining_time": "5h 36m 9s"}
{"loss": 0.42455971, "token_acc": 0.88301887, "grad_norm": 2.34828162, "learning_rate": 3.24e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022506, "epoch": 0.63417594, "global_step/max_steps": "784/1237", "percentage": "63.38%", "elapsed_time": "9h 40m 29s", "remaining_time": "5h 35m 24s"}
{"loss": 0.32436091, "token_acc": 0.88142292, "grad_norm": 1.52510881, "learning_rate": 3.23e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022506, "epoch": 0.63498483, "global_step/max_steps": "785/1237", "percentage": "63.46%", "elapsed_time": "9h 41m 13s", "remaining_time": "5h 34m 39s"}
{"loss": 0.42488748, "token_acc": 0.85714286, "grad_norm": 2.33039737, "learning_rate": 3.22e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022506, "epoch": 0.63579373, "global_step/max_steps": "786/1237", "percentage": "63.54%", "elapsed_time": "9h 41m 56s", "remaining_time": "5h 33m 54s"}
{"loss": 0.32256091, "token_acc": 0.90566038, "grad_norm": 1.92021596, "learning_rate": 3.2e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022507, "epoch": 0.63660263, "global_step/max_steps": "787/1237", "percentage": "63.62%", "elapsed_time": "9h 42m 40s", "remaining_time": "5h 33m 10s"}
{"loss": 0.34965467, "token_acc": 0.90301003, "grad_norm": 1.91449571, "learning_rate": 3.19e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022507, "epoch": 0.63741153, "global_step/max_steps": "788/1237", "percentage": "63.70%", "elapsed_time": "9h 43m 24s", "remaining_time": "5h 32m 25s"}
{"loss": 0.41543806, "token_acc": 0.89772727, "grad_norm": 2.00349212, "learning_rate": 3.18e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022508, "epoch": 0.63822042, "global_step/max_steps": "789/1237", "percentage": "63.78%", "elapsed_time": "9h 44m 8s", "remaining_time": "5h 31m 40s"}
{"loss": 0.38339168, "token_acc": 0.85551331, "grad_norm": 1.91151881, "learning_rate": 3.17e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022508, "epoch": 0.63902932, "global_step/max_steps": "790/1237", "percentage": "63.86%", "elapsed_time": "9h 44m 52s", "remaining_time": "5h 30m 55s"}
{"loss": 0.39758319, "token_acc": 0.83223684, "grad_norm": 2.2984035, "learning_rate": 3.15e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022508, "epoch": 0.63983822, "global_step/max_steps": "791/1237", "percentage": "63.95%", "elapsed_time": "9h 45m 35s", "remaining_time": "5h 30m 11s"}
{"loss": 0.34643793, "token_acc": 0.87445887, "grad_norm": 2.49689579, "learning_rate": 3.14e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022509, "epoch": 0.64064712, "global_step/max_steps": "792/1237", "percentage": "64.03%", "elapsed_time": "9h 46m 19s", "remaining_time": "5h 29m 26s"}
{"loss": 0.43485326, "token_acc": 0.88157895, "grad_norm": 2.13745666, "learning_rate": 3.13e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022509, "epoch": 0.64145602, "global_step/max_steps": "793/1237", "percentage": "64.11%", "elapsed_time": "9h 47m 3s", "remaining_time": "5h 28m 41s"}
{"loss": 0.37685332, "token_acc": 0.85338346, "grad_norm": 2.1045742, "learning_rate": 3.12e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02251, "epoch": 0.64226491, "global_step/max_steps": "794/1237", "percentage": "64.19%", "elapsed_time": "9h 47m 47s", "remaining_time": "5h 27m 56s"}
{"loss": 0.36943275, "token_acc": 0.87815126, "grad_norm": 2.80820823, "learning_rate": 3.1e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02251, "epoch": 0.64307381, "global_step/max_steps": "795/1237", "percentage": "64.27%", "elapsed_time": "9h 48m 31s", "remaining_time": "5h 27m 12s"}
{"loss": 0.4223786, "token_acc": 0.90134529, "grad_norm": 2.03628516, "learning_rate": 3.09e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02251, "epoch": 0.64388271, "global_step/max_steps": "796/1237", "percentage": "64.35%", "elapsed_time": "9h 49m 14s", "remaining_time": "5h 26m 27s"}
{"loss": 0.3900792, "token_acc": 0.84090909, "grad_norm": 1.94029927, "learning_rate": 3.08e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022511, "epoch": 0.64469161, "global_step/max_steps": "797/1237", "percentage": "64.43%", "elapsed_time": "9h 49m 58s", "remaining_time": "5h 25m 42s"}
{"loss": 0.3985737, "token_acc": 0.89565217, "grad_norm": 2.3638556, "learning_rate": 3.07e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022511, "epoch": 0.64550051, "global_step/max_steps": "798/1237", "percentage": "64.51%", "elapsed_time": "9h 50m 42s", "remaining_time": "5h 24m 58s"}
{"loss": 0.354956, "token_acc": 0.89558233, "grad_norm": 1.83779144, "learning_rate": 3.05e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022512, "epoch": 0.6463094, "global_step/max_steps": "799/1237", "percentage": "64.59%", "elapsed_time": "9h 51m 26s", "remaining_time": "5h 24m 13s"}
{"loss": 0.43962786, "token_acc": 0.83955224, "grad_norm": 2.20616865, "learning_rate": 3.04e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022512, "epoch": 0.6471183, "global_step/max_steps": "800/1237", "percentage": "64.67%", "elapsed_time": "9h 52m 10s", "remaining_time": "5h 23m 28s"}
{"loss": 0.37227607, "token_acc": 0.86624204, "grad_norm": 2.38920879, "learning_rate": 3.03e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022512, "epoch": 0.6479272, "global_step/max_steps": "801/1237", "percentage": "64.75%", "elapsed_time": "9h 52m 54s", "remaining_time": "5h 22m 43s"}
{"loss": 0.43218768, "token_acc": 0.87969925, "grad_norm": 2.12560844, "learning_rate": 3.02e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022513, "epoch": 0.6487361, "global_step/max_steps": "802/1237", "percentage": "64.83%", "elapsed_time": "9h 53m 37s", "remaining_time": "5h 21m 58s"}
{"loss": 0.36821353, "token_acc": 0.90871369, "grad_norm": 2.39930201, "learning_rate": 3.01e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022513, "epoch": 0.64954499, "global_step/max_steps": "803/1237", "percentage": "64.92%", "elapsed_time": "9h 54m 21s", "remaining_time": "5h 21m 14s"}
{"loss": 0.46998864, "token_acc": 0.86864407, "grad_norm": 2.25150251, "learning_rate": 2.99e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022513, "epoch": 0.65035389, "global_step/max_steps": "804/1237", "percentage": "65.00%", "elapsed_time": "9h 55m 5s", "remaining_time": "5h 20m 29s"}
{"loss": 0.32672483, "token_acc": 0.85920578, "grad_norm": 13.69151497, "learning_rate": 2.98e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022514, "epoch": 0.65116279, "global_step/max_steps": "805/1237", "percentage": "65.08%", "elapsed_time": "9h 55m 49s", "remaining_time": "5h 19m 44s"}
{"loss": 0.41226539, "token_acc": 0.83775811, "grad_norm": 2.17988586, "learning_rate": 2.97e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022514, "epoch": 0.65197169, "global_step/max_steps": "806/1237", "percentage": "65.16%", "elapsed_time": "9h 56m 33s", "remaining_time": "5h 19m 0s"}
{"loss": 0.36671823, "token_acc": 0.87162162, "grad_norm": 1.91829109, "learning_rate": 2.96e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022515, "epoch": 0.65278059, "global_step/max_steps": "807/1237", "percentage": "65.24%", "elapsed_time": "9h 57m 17s", "remaining_time": "5h 18m 15s"}
{"loss": 0.39707148, "token_acc": 0.90666667, "grad_norm": 2.02654791, "learning_rate": 2.94e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022515, "epoch": 0.65358948, "global_step/max_steps": "808/1237", "percentage": "65.32%", "elapsed_time": "9h 58m 0s", "remaining_time": "5h 17m 30s"}
{"loss": 0.39963961, "token_acc": 0.84946237, "grad_norm": 2.11548615, "learning_rate": 2.93e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022515, "epoch": 0.65439838, "global_step/max_steps": "809/1237", "percentage": "65.40%", "elapsed_time": "9h 58m 44s", "remaining_time": "5h 16m 45s"}
{"loss": 0.44487232, "token_acc": 0.80754717, "grad_norm": 2.07563376, "learning_rate": 2.92e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022516, "epoch": 0.65520728, "global_step/max_steps": "810/1237", "percentage": "65.48%", "elapsed_time": "9h 59m 28s", "remaining_time": "5h 16m 1s"}
{"loss": 0.34718156, "token_acc": 0.85409253, "grad_norm": 2.02145743, "learning_rate": 2.91e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022516, "epoch": 0.65601618, "global_step/max_steps": "811/1237", "percentage": "65.56%", "elapsed_time": "10h 0m 11s", "remaining_time": "5h 15m 16s"}
{"loss": 0.32857144, "token_acc": 0.9137931, "grad_norm": 1.82033277, "learning_rate": 2.9e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022517, "epoch": 0.65682508, "global_step/max_steps": "812/1237", "percentage": "65.64%", "elapsed_time": "10h 0m 55s", "remaining_time": "5h 14m 31s"}
{"loss": 0.38925743, "token_acc": 0.8852459, "grad_norm": 2.61112309, "learning_rate": 2.88e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022517, "epoch": 0.65763397, "global_step/max_steps": "813/1237", "percentage": "65.72%", "elapsed_time": "10h 1m 39s", "remaining_time": "5h 13m 46s"}
{"loss": 0.36987275, "token_acc": 0.87676056, "grad_norm": 1.84170234, "learning_rate": 2.87e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022517, "epoch": 0.65844287, "global_step/max_steps": "814/1237", "percentage": "65.80%", "elapsed_time": "10h 2m 23s", "remaining_time": "5h 13m 2s"}
{"loss": 0.37436971, "token_acc": 0.84269663, "grad_norm": 2.05472422, "learning_rate": 2.86e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022518, "epoch": 0.65925177, "global_step/max_steps": "815/1237", "percentage": "65.89%", "elapsed_time": "10h 3m 7s", "remaining_time": "5h 12m 17s"}
{"loss": 0.44913644, "token_acc": 0.81578947, "grad_norm": 3.14782357, "learning_rate": 2.85e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022518, "epoch": 0.66006067, "global_step/max_steps": "816/1237", "percentage": "65.97%", "elapsed_time": "10h 3m 51s", "remaining_time": "5h 11m 32s"}
{"loss": 0.3636167, "token_acc": 0.92369478, "grad_norm": 2.2109189, "learning_rate": 2.83e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022518, "epoch": 0.66086957, "global_step/max_steps": "817/1237", "percentage": "66.05%", "elapsed_time": "10h 4m 34s", "remaining_time": "5h 10m 48s"}
{"loss": 0.36977732, "token_acc": 0.90909091, "grad_norm": 2.10537148, "learning_rate": 2.82e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022519, "epoch": 0.66167846, "global_step/max_steps": "818/1237", "percentage": "66.13%", "elapsed_time": "10h 5m 18s", "remaining_time": "5h 10m 3s"}
{"loss": 0.42437541, "token_acc": 0.89855072, "grad_norm": 1.94618142, "learning_rate": 2.81e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022519, "epoch": 0.66248736, "global_step/max_steps": "819/1237", "percentage": "66.21%", "elapsed_time": "10h 6m 2s", "remaining_time": "5h 9m 18s"}
{"loss": 0.40904805, "token_acc": 0.84756098, "grad_norm": 1.98781717, "learning_rate": 2.8e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022519, "epoch": 0.66329626, "global_step/max_steps": "820/1237", "percentage": "66.29%", "elapsed_time": "10h 6m 46s", "remaining_time": "5h 8m 34s"}
{"loss": 0.37456402, "token_acc": 0.91439689, "grad_norm": 1.89599299, "learning_rate": 2.79e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02252, "epoch": 0.66410516, "global_step/max_steps": "821/1237", "percentage": "66.37%", "elapsed_time": "10h 7m 30s", "remaining_time": "5h 7m 49s"}
{"loss": 0.36407179, "token_acc": 0.87654321, "grad_norm": 2.00554061, "learning_rate": 2.77e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02252, "epoch": 0.66491405, "global_step/max_steps": "822/1237", "percentage": "66.45%", "elapsed_time": "10h 8m 14s", "remaining_time": "5h 7m 4s"}
{"loss": 0.37051213, "token_acc": 0.89097744, "grad_norm": 2.1663959, "learning_rate": 2.76e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02252, "epoch": 0.66572295, "global_step/max_steps": "823/1237", "percentage": "66.53%", "elapsed_time": "10h 8m 58s", "remaining_time": "5h 6m 20s"}
{"loss": 0.39772192, "token_acc": 0.89869281, "grad_norm": 1.95482838, "learning_rate": 2.75e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022521, "epoch": 0.66653185, "global_step/max_steps": "824/1237", "percentage": "66.61%", "elapsed_time": "10h 9m 42s", "remaining_time": "5h 5m 35s"}
{"loss": 0.39033639, "token_acc": 0.88764045, "grad_norm": 2.37348628, "learning_rate": 2.74e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022521, "epoch": 0.66734075, "global_step/max_steps": "825/1237", "percentage": "66.69%", "elapsed_time": "10h 10m 25s", "remaining_time": "5h 4m 50s"}
{"loss": 0.43274966, "token_acc": 0.88405797, "grad_norm": 1.96563518, "learning_rate": 2.73e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022522, "epoch": 0.66814965, "global_step/max_steps": "826/1237", "percentage": "66.77%", "elapsed_time": "10h 11m 9s", "remaining_time": "5h 4m 6s"}
{"loss": 0.40381271, "token_acc": 0.85810811, "grad_norm": 1.78760207, "learning_rate": 2.72e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022522, "epoch": 0.66895854, "global_step/max_steps": "827/1237", "percentage": "66.86%", "elapsed_time": "10h 11m 53s", "remaining_time": "5h 3m 21s"}
{"loss": 0.37426782, "token_acc": 0.91162791, "grad_norm": 2.2691834, "learning_rate": 2.7e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022522, "epoch": 0.66976744, "global_step/max_steps": "828/1237", "percentage": "66.94%", "elapsed_time": "10h 12m 37s", "remaining_time": "5h 2m 36s"}
{"loss": 0.34774569, "token_acc": 0.88584475, "grad_norm": 2.30924988, "learning_rate": 2.69e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022523, "epoch": 0.67057634, "global_step/max_steps": "829/1237", "percentage": "67.02%", "elapsed_time": "10h 13m 20s", "remaining_time": "5h 1m 51s"}
{"loss": 0.39518517, "token_acc": 0.8655914, "grad_norm": 2.03744173, "learning_rate": 2.68e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022523, "epoch": 0.67138524, "global_step/max_steps": "830/1237", "percentage": "67.10%", "elapsed_time": "10h 14m 4s", "remaining_time": "5h 1m 7s"}
{"loss": 0.37477776, "token_acc": 0.87455197, "grad_norm": 2.62796617, "learning_rate": 2.67e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022523, "epoch": 0.67219414, "global_step/max_steps": "831/1237", "percentage": "67.18%", "elapsed_time": "10h 14m 48s", "remaining_time": "5h 0m 22s"}
{"loss": 0.34244001, "token_acc": 0.87644788, "grad_norm": 2.12807727, "learning_rate": 2.66e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022524, "epoch": 0.67300303, "global_step/max_steps": "832/1237", "percentage": "67.26%", "elapsed_time": "10h 15m 32s", "remaining_time": "4h 59m 37s"}
{"loss": 0.36798209, "token_acc": 0.93639576, "grad_norm": 1.98252571, "learning_rate": 2.64e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022524, "epoch": 0.67381193, "global_step/max_steps": "833/1237", "percentage": "67.34%", "elapsed_time": "10h 16m 16s", "remaining_time": "4h 58m 53s"}
{"loss": 0.39464575, "token_acc": 0.83806818, "grad_norm": 2.12102151, "learning_rate": 2.63e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022524, "epoch": 0.67462083, "global_step/max_steps": "834/1237", "percentage": "67.42%", "elapsed_time": "10h 17m 0s", "remaining_time": "4h 58m 8s"}
{"loss": 0.37586981, "token_acc": 0.88957055, "grad_norm": 1.87789583, "learning_rate": 2.62e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022525, "epoch": 0.67542973, "global_step/max_steps": "835/1237", "percentage": "67.50%", "elapsed_time": "10h 17m 43s", "remaining_time": "4h 57m 23s"}
{"loss": 0.33017325, "token_acc": 0.94372294, "grad_norm": 1.91737115, "learning_rate": 2.61e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022525, "epoch": 0.67623862, "global_step/max_steps": "836/1237", "percentage": "67.58%", "elapsed_time": "10h 18m 27s", "remaining_time": "4h 56m 39s"}
{"loss": 0.45536369, "token_acc": 0.85892116, "grad_norm": 2.22324061, "learning_rate": 2.6e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022525, "epoch": 0.67704752, "global_step/max_steps": "837/1237", "percentage": "67.66%", "elapsed_time": "10h 19m 11s", "remaining_time": "4h 55m 54s"}
{"loss": 0.4618338, "token_acc": 0.85572139, "grad_norm": 3.02821898, "learning_rate": 2.59e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022526, "epoch": 0.67785642, "global_step/max_steps": "838/1237", "percentage": "67.74%", "elapsed_time": "10h 19m 55s", "remaining_time": "4h 55m 10s"}
{"loss": 0.3890188, "token_acc": 0.88191882, "grad_norm": 1.99217141, "learning_rate": 2.57e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022526, "epoch": 0.67866532, "global_step/max_steps": "839/1237", "percentage": "67.83%", "elapsed_time": "10h 20m 39s", "remaining_time": "4h 54m 25s"}
{"loss": 0.41602552, "token_acc": 0.85779817, "grad_norm": 2.39164257, "learning_rate": 2.56e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022526, "epoch": 0.67947422, "global_step/max_steps": "840/1237", "percentage": "67.91%", "elapsed_time": "10h 21m 23s", "remaining_time": "4h 53m 40s"}
{"loss": 0.46858907, "token_acc": 0.83333333, "grad_norm": 2.24165154, "learning_rate": 2.55e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022526, "epoch": 0.68028311, "global_step/max_steps": "841/1237", "percentage": "67.99%", "elapsed_time": "10h 22m 7s", "remaining_time": "4h 52m 56s"}
{"loss": 0.4036468, "token_acc": 0.84210526, "grad_norm": 1.95558548, "learning_rate": 2.54e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022527, "epoch": 0.68109201, "global_step/max_steps": "842/1237", "percentage": "68.07%", "elapsed_time": "10h 22m 51s", "remaining_time": "4h 52m 11s"}
{"loss": 0.3761099, "token_acc": 0.87128713, "grad_norm": 4.79124355, "learning_rate": 2.53e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022527, "epoch": 0.68190091, "global_step/max_steps": "843/1237", "percentage": "68.15%", "elapsed_time": "10h 23m 35s", "remaining_time": "4h 51m 27s"}
{"loss": 0.3707886, "token_acc": 0.87619048, "grad_norm": 1.90340984, "learning_rate": 2.52e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022527, "epoch": 0.68270981, "global_step/max_steps": "844/1237", "percentage": "68.23%", "elapsed_time": "10h 24m 18s", "remaining_time": "4h 50m 42s"}
{"loss": 0.42235291, "token_acc": 0.84410646, "grad_norm": 2.07331634, "learning_rate": 2.5e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022528, "epoch": 0.68351871, "global_step/max_steps": "845/1237", "percentage": "68.31%", "elapsed_time": "10h 25m 2s", "remaining_time": "4h 49m 57s"}
{"loss": 0.38297272, "token_acc": 0.84462151, "grad_norm": 1.93444979, "learning_rate": 2.49e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022528, "epoch": 0.6843276, "global_step/max_steps": "846/1237", "percentage": "68.39%", "elapsed_time": "10h 25m 46s", "remaining_time": "4h 49m 13s"}
{"loss": 0.3631531, "token_acc": 0.8963964, "grad_norm": 2.18876648, "learning_rate": 2.48e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022529, "epoch": 0.6851365, "global_step/max_steps": "847/1237", "percentage": "68.47%", "elapsed_time": "10h 26m 30s", "remaining_time": "4h 48m 28s"}
{"loss": 0.43265283, "token_acc": 0.83955224, "grad_norm": 2.78357315, "learning_rate": 2.47e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022529, "epoch": 0.6859454, "global_step/max_steps": "848/1237", "percentage": "68.55%", "elapsed_time": "10h 27m 14s", "remaining_time": "4h 47m 43s"}
{"loss": 0.34864187, "token_acc": 0.89958159, "grad_norm": 2.04317451, "learning_rate": 2.46e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022529, "epoch": 0.6867543, "global_step/max_steps": "849/1237", "percentage": "68.63%", "elapsed_time": "10h 27m 58s", "remaining_time": "4h 46m 59s"}
{"loss": 0.40549356, "token_acc": 0.83980583, "grad_norm": 5.60698938, "learning_rate": 2.45e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022529, "epoch": 0.6875632, "global_step/max_steps": "850/1237", "percentage": "68.71%", "elapsed_time": "10h 28m 42s", "remaining_time": "4h 46m 14s"}
{"loss": 0.32462043, "token_acc": 0.87265918, "grad_norm": 1.80187798, "learning_rate": 2.43e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02253, "epoch": 0.68837209, "global_step/max_steps": "851/1237", "percentage": "68.80%", "elapsed_time": "10h 29m 25s", "remaining_time": "4h 45m 29s"}
{"loss": 0.34777874, "token_acc": 0.83643123, "grad_norm": 3.25008655, "learning_rate": 2.42e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02253, "epoch": 0.68918099, "global_step/max_steps": "852/1237", "percentage": "68.88%", "elapsed_time": "10h 30m 9s", "remaining_time": "4h 44m 45s"}
{"loss": 0.38884738, "token_acc": 0.93953488, "grad_norm": 2.62710142, "learning_rate": 2.41e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022531, "epoch": 0.68998989, "global_step/max_steps": "853/1237", "percentage": "68.96%", "elapsed_time": "10h 30m 53s", "remaining_time": "4h 44m 0s"}
{"loss": 0.40084556, "token_acc": 0.88432836, "grad_norm": 2.85393739, "learning_rate": 2.4e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022531, "epoch": 0.69079879, "global_step/max_steps": "854/1237", "percentage": "69.04%", "elapsed_time": "10h 31m 37s", "remaining_time": "4h 43m 15s"}
{"loss": 0.36527205, "token_acc": 0.91150442, "grad_norm": 2.58819962, "learning_rate": 2.39e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022531, "epoch": 0.69160768, "global_step/max_steps": "855/1237", "percentage": "69.12%", "elapsed_time": "10h 32m 20s", "remaining_time": "4h 42m 31s"}
{"loss": 0.45300362, "token_acc": 0.8681672, "grad_norm": 2.24338174, "learning_rate": 2.38e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022532, "epoch": 0.69241658, "global_step/max_steps": "856/1237", "percentage": "69.20%", "elapsed_time": "10h 33m 4s", "remaining_time": "4h 41m 46s"}
{"loss": 0.44757646, "token_acc": 0.90196078, "grad_norm": 2.25171876, "learning_rate": 2.37e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022532, "epoch": 0.69322548, "global_step/max_steps": "857/1237", "percentage": "69.28%", "elapsed_time": "10h 33m 48s", "remaining_time": "4h 41m 2s"}
{"loss": 0.34107983, "token_acc": 0.871875, "grad_norm": 1.98760879, "learning_rate": 2.35e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022532, "epoch": 0.69403438, "global_step/max_steps": "858/1237", "percentage": "69.36%", "elapsed_time": "10h 34m 32s", "remaining_time": "4h 40m 17s"}
{"loss": 0.40436593, "token_acc": 0.89473684, "grad_norm": 2.46689844, "learning_rate": 2.34e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022532, "epoch": 0.69484328, "global_step/max_steps": "859/1237", "percentage": "69.44%", "elapsed_time": "10h 35m 16s", "remaining_time": "4h 39m 32s"}
{"loss": 0.37842911, "token_acc": 0.84829721, "grad_norm": 1.92595875, "learning_rate": 2.33e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022533, "epoch": 0.69565217, "global_step/max_steps": "860/1237", "percentage": "69.52%", "elapsed_time": "10h 36m 0s", "remaining_time": "4h 38m 48s"}
{"loss": 0.34357139, "token_acc": 0.83483483, "grad_norm": 1.96821308, "learning_rate": 2.32e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022533, "epoch": 0.69646107, "global_step/max_steps": "861/1237", "percentage": "69.60%", "elapsed_time": "10h 36m 43s", "remaining_time": "4h 38m 3s"}
{"loss": 0.3498801, "token_acc": 0.88477366, "grad_norm": 2.78559279, "learning_rate": 2.31e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022534, "epoch": 0.69726997, "global_step/max_steps": "862/1237", "percentage": "69.68%", "elapsed_time": "10h 37m 27s", "remaining_time": "4h 37m 19s"}
{"loss": 0.39585981, "token_acc": 0.86554622, "grad_norm": 2.46363425, "learning_rate": 2.3e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022534, "epoch": 0.69807887, "global_step/max_steps": "863/1237", "percentage": "69.77%", "elapsed_time": "10h 38m 11s", "remaining_time": "4h 36m 34s"}
{"loss": 0.37628335, "token_acc": 0.89547038, "grad_norm": 1.80955982, "learning_rate": 2.29e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022534, "epoch": 0.69888777, "global_step/max_steps": "864/1237", "percentage": "69.85%", "elapsed_time": "10h 38m 55s", "remaining_time": "4h 35m 50s"}
{"loss": 0.38492084, "token_acc": 0.9109589, "grad_norm": 1.91405046, "learning_rate": 2.28e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022534, "epoch": 0.69969666, "global_step/max_steps": "865/1237", "percentage": "69.93%", "elapsed_time": "10h 39m 39s", "remaining_time": "4h 35m 5s"}
{"loss": 0.38401628, "token_acc": 0.85501859, "grad_norm": 1.75824153, "learning_rate": 2.26e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022535, "epoch": 0.70050556, "global_step/max_steps": "866/1237", "percentage": "70.01%", "elapsed_time": "10h 40m 23s", "remaining_time": "4h 34m 20s"}
{"loss": 0.32482836, "token_acc": 0.896, "grad_norm": 1.86649692, "learning_rate": 2.25e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022535, "epoch": 0.70131446, "global_step/max_steps": "867/1237", "percentage": "70.09%", "elapsed_time": "10h 41m 7s", "remaining_time": "4h 33m 36s"}
{"loss": 0.35055387, "token_acc": 0.89393939, "grad_norm": 1.90307212, "learning_rate": 2.24e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022535, "epoch": 0.70212336, "global_step/max_steps": "868/1237", "percentage": "70.17%", "elapsed_time": "10h 41m 50s", "remaining_time": "4h 32m 51s"}
{"loss": 0.41889489, "token_acc": 0.85655738, "grad_norm": 2.29210353, "learning_rate": 2.23e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022535, "epoch": 0.70293225, "global_step/max_steps": "869/1237", "percentage": "70.25%", "elapsed_time": "10h 42m 34s", "remaining_time": "4h 32m 7s"}
{"loss": 0.36415198, "token_acc": 0.87264151, "grad_norm": 2.56710672, "learning_rate": 2.22e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022536, "epoch": 0.70374115, "global_step/max_steps": "870/1237", "percentage": "70.33%", "elapsed_time": "10h 43m 19s", "remaining_time": "4h 31m 22s"}
{"loss": 0.34707674, "token_acc": 0.8988764, "grad_norm": 2.0666256, "learning_rate": 2.21e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022536, "epoch": 0.70455005, "global_step/max_steps": "871/1237", "percentage": "70.41%", "elapsed_time": "10h 44m 2s", "remaining_time": "4h 30m 37s"}
{"loss": 0.30853114, "token_acc": 0.84776119, "grad_norm": 2.32143521, "learning_rate": 2.2e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022536, "epoch": 0.70535895, "global_step/max_steps": "872/1237", "percentage": "70.49%", "elapsed_time": "10h 44m 46s", "remaining_time": "4h 29m 53s"}
{"loss": 0.44838905, "token_acc": 0.81909548, "grad_norm": 2.39696264, "learning_rate": 2.19e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022537, "epoch": 0.70616785, "global_step/max_steps": "873/1237", "percentage": "70.57%", "elapsed_time": "10h 45m 30s", "remaining_time": "4h 29m 8s"}
{"loss": 0.40841705, "token_acc": 0.875, "grad_norm": 2.31420994, "learning_rate": 2.18e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022537, "epoch": 0.70697674, "global_step/max_steps": "874/1237", "percentage": "70.65%", "elapsed_time": "10h 46m 14s", "remaining_time": "4h 28m 24s"}
{"loss": 0.41086328, "token_acc": 0.85530547, "grad_norm": 2.43271923, "learning_rate": 2.16e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022537, "epoch": 0.70778564, "global_step/max_steps": "875/1237", "percentage": "70.74%", "elapsed_time": "10h 46m 58s", "remaining_time": "4h 27m 39s"}
{"loss": 0.36450177, "token_acc": 0.82592593, "grad_norm": 1.72178328, "learning_rate": 2.15e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022538, "epoch": 0.70859454, "global_step/max_steps": "876/1237", "percentage": "70.82%", "elapsed_time": "10h 47m 41s", "remaining_time": "4h 26m 54s"}
{"loss": 0.37392396, "token_acc": 0.87579618, "grad_norm": 1.76306403, "learning_rate": 2.14e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022538, "epoch": 0.70940344, "global_step/max_steps": "877/1237", "percentage": "70.90%", "elapsed_time": "10h 48m 25s", "remaining_time": "4h 26m 10s"}
{"loss": 0.31287202, "token_acc": 0.87447699, "grad_norm": 1.98217928, "learning_rate": 2.13e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022538, "epoch": 0.71021234, "global_step/max_steps": "878/1237", "percentage": "70.98%", "elapsed_time": "10h 49m 9s", "remaining_time": "4h 25m 25s"}
{"loss": 0.3901284, "token_acc": 0.8658147, "grad_norm": 1.99888182, "learning_rate": 2.12e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022538, "epoch": 0.71102123, "global_step/max_steps": "879/1237", "percentage": "71.06%", "elapsed_time": "10h 49m 53s", "remaining_time": "4h 24m 41s"}
{"loss": 0.39770967, "token_acc": 0.84615385, "grad_norm": 2.34749103, "learning_rate": 2.11e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022539, "epoch": 0.71183013, "global_step/max_steps": "880/1237", "percentage": "71.14%", "elapsed_time": "10h 50m 37s", "remaining_time": "4h 23m 56s"}
{"loss": 0.37561238, "token_acc": 0.87591241, "grad_norm": 1.79413438, "learning_rate": 2.1e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022539, "epoch": 0.71263903, "global_step/max_steps": "881/1237", "percentage": "71.22%", "elapsed_time": "10h 51m 21s", "remaining_time": "4h 23m 12s"}
{"loss": 0.3414374, "token_acc": 0.86813187, "grad_norm": 2.28821778, "learning_rate": 2.09e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022539, "epoch": 0.71344793, "global_step/max_steps": "882/1237", "percentage": "71.30%", "elapsed_time": "10h 52m 5s", "remaining_time": "4h 22m 27s"}
{"loss": 0.38323241, "token_acc": 0.8442029, "grad_norm": 1.7807132, "learning_rate": 2.08e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02254, "epoch": 0.71425683, "global_step/max_steps": "883/1237", "percentage": "71.38%", "elapsed_time": "10h 52m 49s", "remaining_time": "4h 21m 43s"}
{"loss": 0.4304345, "token_acc": 0.80952381, "grad_norm": 1.9907006, "learning_rate": 2.07e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02254, "epoch": 0.71506572, "global_step/max_steps": "884/1237", "percentage": "71.46%", "elapsed_time": "10h 53m 32s", "remaining_time": "4h 20m 58s"}
{"loss": 0.40290809, "token_acc": 0.85306122, "grad_norm": 1.97081709, "learning_rate": 2.06e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02254, "epoch": 0.71587462, "global_step/max_steps": "885/1237", "percentage": "71.54%", "elapsed_time": "10h 54m 16s", "remaining_time": "4h 20m 13s"}
{"loss": 0.39035618, "token_acc": 0.88235294, "grad_norm": 2.28657794, "learning_rate": 2.04e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022541, "epoch": 0.71668352, "global_step/max_steps": "886/1237", "percentage": "71.62%", "elapsed_time": "10h 55m 0s", "remaining_time": "4h 19m 29s"}
{"loss": 0.40166283, "token_acc": 0.88405797, "grad_norm": 2.52840662, "learning_rate": 2.03e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022541, "epoch": 0.71749242, "global_step/max_steps": "887/1237", "percentage": "71.71%", "elapsed_time": "10h 55m 44s", "remaining_time": "4h 18m 44s"}
{"loss": 0.38176417, "token_acc": 0.86524823, "grad_norm": 6.74703026, "learning_rate": 2.02e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022541, "epoch": 0.71830131, "global_step/max_steps": "888/1237", "percentage": "71.79%", "elapsed_time": "10h 56m 27s", "remaining_time": "4h 18m 0s"}
{"loss": 0.37782866, "token_acc": 0.84293194, "grad_norm": 2.04904222, "learning_rate": 2.01e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022542, "epoch": 0.71911021, "global_step/max_steps": "889/1237", "percentage": "71.87%", "elapsed_time": "10h 57m 11s", "remaining_time": "4h 17m 15s"}
{"loss": 0.42315668, "token_acc": 0.88659794, "grad_norm": 2.29937124, "learning_rate": 2e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022542, "epoch": 0.71991911, "global_step/max_steps": "890/1237", "percentage": "71.95%", "elapsed_time": "10h 57m 55s", "remaining_time": "4h 16m 31s"}
{"loss": 0.39278767, "token_acc": 0.88679245, "grad_norm": 2.24412704, "learning_rate": 1.99e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022542, "epoch": 0.72072801, "global_step/max_steps": "891/1237", "percentage": "72.03%", "elapsed_time": "10h 58m 39s", "remaining_time": "4h 15m 46s"}
{"loss": 0.3900879, "token_acc": 0.82442748, "grad_norm": 1.9843049, "learning_rate": 1.98e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022543, "epoch": 0.72153691, "global_step/max_steps": "892/1237", "percentage": "72.11%", "elapsed_time": "10h 59m 23s", "remaining_time": "4h 15m 1s"}
{"loss": 0.36117768, "token_acc": 0.84765625, "grad_norm": 2.25377703, "learning_rate": 1.97e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022543, "epoch": 0.7223458, "global_step/max_steps": "893/1237", "percentage": "72.19%", "elapsed_time": "11h 0m 6s", "remaining_time": "4h 14m 17s"}
{"loss": 0.42135426, "token_acc": 0.8754717, "grad_norm": 2.21419644, "learning_rate": 1.96e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022543, "epoch": 0.7231547, "global_step/max_steps": "894/1237", "percentage": "72.27%", "elapsed_time": "11h 0m 51s", "remaining_time": "4h 13m 32s"}
{"loss": 0.43202716, "token_acc": 0.83275261, "grad_norm": 1.92136431, "learning_rate": 1.95e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022543, "epoch": 0.7239636, "global_step/max_steps": "895/1237", "percentage": "72.35%", "elapsed_time": "11h 1m 35s", "remaining_time": "4h 12m 48s"}
{"loss": 0.32848859, "token_acc": 0.88316151, "grad_norm": 2.10569167, "learning_rate": 1.94e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022543, "epoch": 0.7247725, "global_step/max_steps": "896/1237", "percentage": "72.43%", "elapsed_time": "11h 2m 19s", "remaining_time": "4h 12m 3s"}
{"loss": 0.35665563, "token_acc": 0.9037037, "grad_norm": 1.64680278, "learning_rate": 1.93e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022544, "epoch": 0.7255814, "global_step/max_steps": "897/1237", "percentage": "72.51%", "elapsed_time": "11h 3m 3s", "remaining_time": "4h 11m 19s"}
{"loss": 0.3552227, "token_acc": 0.87058824, "grad_norm": 1.96185887, "learning_rate": 1.92e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022544, "epoch": 0.72639029, "global_step/max_steps": "898/1237", "percentage": "72.59%", "elapsed_time": "11h 3m 46s", "remaining_time": "4h 10m 34s"}
{"loss": 0.42378873, "token_acc": 0.84496124, "grad_norm": 2.25946617, "learning_rate": 1.91e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022544, "epoch": 0.72719919, "global_step/max_steps": "899/1237", "percentage": "72.68%", "elapsed_time": "11h 4m 30s", "remaining_time": "4h 9m 50s"}
{"loss": 0.3816002, "token_acc": 0.85772358, "grad_norm": 2.34808874, "learning_rate": 1.9e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022545, "epoch": 0.72800809, "global_step/max_steps": "900/1237", "percentage": "72.76%", "elapsed_time": "11h 5m 14s", "remaining_time": "4h 9m 5s"}
{"loss": 0.37883556, "token_acc": 0.91402715, "grad_norm": 2.07136822, "learning_rate": 1.89e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022545, "epoch": 0.72881699, "global_step/max_steps": "901/1237", "percentage": "72.84%", "elapsed_time": "11h 5m 58s", "remaining_time": "4h 8m 21s"}
{"loss": 0.38564032, "token_acc": 0.86181818, "grad_norm": 1.88225782, "learning_rate": 1.88e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022545, "epoch": 0.72962588, "global_step/max_steps": "902/1237", "percentage": "72.92%", "elapsed_time": "11h 6m 42s", "remaining_time": "4h 7m 36s"}
{"loss": 0.41372991, "token_acc": 0.8893617, "grad_norm": 2.07052732, "learning_rate": 1.86e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022545, "epoch": 0.73043478, "global_step/max_steps": "903/1237", "percentage": "73.00%", "elapsed_time": "11h 7m 25s", "remaining_time": "4h 6m 52s"}
{"loss": 0.41165364, "token_acc": 0.87301587, "grad_norm": 2.73922825, "learning_rate": 1.85e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022546, "epoch": 0.73124368, "global_step/max_steps": "904/1237", "percentage": "73.08%", "elapsed_time": "11h 8m 9s", "remaining_time": "4h 6m 7s"}
{"loss": 0.39759791, "token_acc": 0.89494163, "grad_norm": 2.25122976, "learning_rate": 1.84e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022546, "epoch": 0.73205258, "global_step/max_steps": "905/1237", "percentage": "73.16%", "elapsed_time": "11h 8m 53s", "remaining_time": "4h 5m 23s"}
{"loss": 0.36323828, "token_acc": 0.91428571, "grad_norm": 2.11641359, "learning_rate": 1.83e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022546, "epoch": 0.73286148, "global_step/max_steps": "906/1237", "percentage": "73.24%", "elapsed_time": "11h 9m 37s", "remaining_time": "4h 4m 38s"}
{"loss": 0.35361168, "token_acc": 0.86036036, "grad_norm": 2.42118001, "learning_rate": 1.82e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022547, "epoch": 0.73367037, "global_step/max_steps": "907/1237", "percentage": "73.32%", "elapsed_time": "11h 10m 20s", "remaining_time": "4h 3m 53s"}
{"loss": 0.37238455, "token_acc": 0.84429066, "grad_norm": 2.01356697, "learning_rate": 1.81e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022547, "epoch": 0.73447927, "global_step/max_steps": "908/1237", "percentage": "73.40%", "elapsed_time": "11h 11m 4s", "remaining_time": "4h 3m 9s"}
{"loss": 0.41406381, "token_acc": 0.86311787, "grad_norm": 3.37856889, "learning_rate": 1.8e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022548, "epoch": 0.73528817, "global_step/max_steps": "909/1237", "percentage": "73.48%", "elapsed_time": "11h 11m 48s", "remaining_time": "4h 2m 24s"}
{"loss": 0.36416405, "token_acc": 0.90769231, "grad_norm": 2.39342284, "learning_rate": 1.79e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022548, "epoch": 0.73609707, "global_step/max_steps": "910/1237", "percentage": "73.57%", "elapsed_time": "11h 12m 32s", "remaining_time": "4h 1m 40s"}
{"loss": 0.35734257, "token_acc": 0.84913793, "grad_norm": 2.42556953, "learning_rate": 1.78e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022548, "epoch": 0.73690597, "global_step/max_steps": "911/1237", "percentage": "73.65%", "elapsed_time": "11h 13m 15s", "remaining_time": "4h 0m 55s"}
{"loss": 0.49840775, "token_acc": 0.83333333, "grad_norm": 2.32158566, "learning_rate": 1.77e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022548, "epoch": 0.73771486, "global_step/max_steps": "912/1237", "percentage": "73.73%", "elapsed_time": "11h 14m 0s", "remaining_time": "4h 0m 11s"}
{"loss": 0.38752139, "token_acc": 0.83763838, "grad_norm": 2.34338427, "learning_rate": 1.76e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022548, "epoch": 0.73852376, "global_step/max_steps": "913/1237", "percentage": "73.81%", "elapsed_time": "11h 14m 44s", "remaining_time": "3h 59m 26s"}
{"loss": 0.37307906, "token_acc": 0.87762238, "grad_norm": 1.94676042, "learning_rate": 1.75e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022549, "epoch": 0.73933266, "global_step/max_steps": "914/1237", "percentage": "73.89%", "elapsed_time": "11h 15m 27s", "remaining_time": "3h 58m 42s"}
{"loss": 0.35765457, "token_acc": 0.88741722, "grad_norm": 2.17164469, "learning_rate": 1.74e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022549, "epoch": 0.74014156, "global_step/max_steps": "915/1237", "percentage": "73.97%", "elapsed_time": "11h 16m 11s", "remaining_time": "3h 57m 57s"}
{"loss": 0.38640022, "token_acc": 0.90361446, "grad_norm": 2.27499652, "learning_rate": 1.73e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022549, "epoch": 0.74095046, "global_step/max_steps": "916/1237", "percentage": "74.05%", "elapsed_time": "11h 16m 55s", "remaining_time": "3h 57m 13s"}
{"loss": 0.36603063, "token_acc": 0.87987988, "grad_norm": 1.91222548, "learning_rate": 1.72e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022549, "epoch": 0.74175935, "global_step/max_steps": "917/1237", "percentage": "74.13%", "elapsed_time": "11h 17m 39s", "remaining_time": "3h 56m 28s"}
{"loss": 0.38110483, "token_acc": 0.83255814, "grad_norm": 2.12680507, "learning_rate": 1.71e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02255, "epoch": 0.74256825, "global_step/max_steps": "918/1237", "percentage": "74.21%", "elapsed_time": "11h 18m 23s", "remaining_time": "3h 55m 44s"}
{"loss": 0.32040447, "token_acc": 0.85757576, "grad_norm": 2.54239464, "learning_rate": 1.7e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02255, "epoch": 0.74337715, "global_step/max_steps": "919/1237", "percentage": "74.29%", "elapsed_time": "11h 19m 7s", "remaining_time": "3h 54m 59s"}
{"loss": 0.33536783, "token_acc": 0.91698113, "grad_norm": 2.0116818, "learning_rate": 1.69e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02255, "epoch": 0.74418605, "global_step/max_steps": "920/1237", "percentage": "74.37%", "elapsed_time": "11h 19m 51s", "remaining_time": "3h 54m 15s"}
{"loss": 0.40115118, "token_acc": 0.82332155, "grad_norm": 2.24517155, "learning_rate": 1.68e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022551, "epoch": 0.74499494, "global_step/max_steps": "921/1237", "percentage": "74.45%", "elapsed_time": "11h 20m 34s", "remaining_time": "3h 53m 30s"}
{"loss": 0.44710937, "token_acc": 0.87197232, "grad_norm": 2.26719332, "learning_rate": 1.67e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022551, "epoch": 0.74580384, "global_step/max_steps": "922/1237", "percentage": "74.54%", "elapsed_time": "11h 21m 18s", "remaining_time": "3h 52m 46s"}
{"loss": 0.40461874, "token_acc": 0.835, "grad_norm": 2.29723144, "learning_rate": 1.66e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022551, "epoch": 0.74661274, "global_step/max_steps": "923/1237", "percentage": "74.62%", "elapsed_time": "11h 22m 2s", "remaining_time": "3h 52m 1s"}
{"loss": 0.35709834, "token_acc": 0.88317757, "grad_norm": 2.37532592, "learning_rate": 1.65e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022552, "epoch": 0.74742164, "global_step/max_steps": "924/1237", "percentage": "74.70%", "elapsed_time": "11h 22m 45s", "remaining_time": "3h 51m 16s"}
{"loss": 0.33470356, "token_acc": 0.9057377, "grad_norm": 1.67374301, "learning_rate": 1.64e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022552, "epoch": 0.74823054, "global_step/max_steps": "925/1237", "percentage": "74.78%", "elapsed_time": "11h 23m 29s", "remaining_time": "3h 50m 32s"}
{"loss": 0.37246597, "token_acc": 0.88541667, "grad_norm": 1.98462474, "learning_rate": 1.63e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022552, "epoch": 0.74903943, "global_step/max_steps": "926/1237", "percentage": "74.86%", "elapsed_time": "11h 24m 13s", "remaining_time": "3h 49m 47s"}
{"loss": 0.37705046, "token_acc": 0.90721649, "grad_norm": 1.81014192, "learning_rate": 1.62e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022553, "epoch": 0.74984833, "global_step/max_steps": "927/1237", "percentage": "74.94%", "elapsed_time": "11h 24m 57s", "remaining_time": "3h 49m 3s"}
{"loss": 0.37600416, "token_acc": 0.91964286, "grad_norm": 2.10400128, "learning_rate": 1.61e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022553, "epoch": 0.75065723, "global_step/max_steps": "928/1237", "percentage": "75.02%", "elapsed_time": "11h 25m 41s", "remaining_time": "3h 48m 18s"}
{"loss": 0.3456549, "token_acc": 0.85655738, "grad_norm": 2.00070405, "learning_rate": 1.6e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022553, "epoch": 0.75146613, "global_step/max_steps": "929/1237", "percentage": "75.10%", "elapsed_time": "11h 26m 25s", "remaining_time": "3h 47m 34s"}
{"loss": 0.33691201, "token_acc": 0.88489209, "grad_norm": 1.55398893, "learning_rate": 1.59e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022554, "epoch": 0.75227503, "global_step/max_steps": "930/1237", "percentage": "75.18%", "elapsed_time": "11h 27m 8s", "remaining_time": "3h 46m 49s"}
{"loss": 0.39200345, "token_acc": 0.88928571, "grad_norm": 1.60703802, "learning_rate": 1.58e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022554, "epoch": 0.75308392, "global_step/max_steps": "931/1237", "percentage": "75.26%", "elapsed_time": "11h 27m 52s", "remaining_time": "3h 46m 5s"}
{"loss": 0.34315166, "token_acc": 0.87741935, "grad_norm": 1.85179925, "learning_rate": 1.57e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022554, "epoch": 0.75389282, "global_step/max_steps": "932/1237", "percentage": "75.34%", "elapsed_time": "11h 28m 36s", "remaining_time": "3h 45m 20s"}
{"loss": 0.3751834, "token_acc": 0.92342342, "grad_norm": 2.08412671, "learning_rate": 1.56e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022554, "epoch": 0.75470172, "global_step/max_steps": "933/1237", "percentage": "75.42%", "elapsed_time": "11h 29m 20s", "remaining_time": "3h 44m 36s"}
{"loss": 0.37340766, "token_acc": 0.90686275, "grad_norm": 2.08034301, "learning_rate": 1.55e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022555, "epoch": 0.75551062, "global_step/max_steps": "934/1237", "percentage": "75.51%", "elapsed_time": "11h 30m 4s", "remaining_time": "3h 43m 51s"}
{"loss": 0.40115529, "token_acc": 0.91284404, "grad_norm": 2.06876683, "learning_rate": 1.54e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022555, "epoch": 0.75631951, "global_step/max_steps": "935/1237", "percentage": "75.59%", "elapsed_time": "11h 30m 48s", "remaining_time": "3h 43m 7s"}
{"loss": 0.38954428, "token_acc": 0.86181818, "grad_norm": 1.94385791, "learning_rate": 1.53e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022555, "epoch": 0.75712841, "global_step/max_steps": "936/1237", "percentage": "75.67%", "elapsed_time": "11h 31m 31s", "remaining_time": "3h 42m 22s"}
{"loss": 0.34044281, "token_acc": 0.88793103, "grad_norm": 2.18620467, "learning_rate": 1.52e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022555, "epoch": 0.75793731, "global_step/max_steps": "937/1237", "percentage": "75.75%", "elapsed_time": "11h 32m 15s", "remaining_time": "3h 41m 38s"}
{"loss": 0.41251153, "token_acc": 0.83471074, "grad_norm": 2.06933308, "learning_rate": 1.51e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.75874621, "global_step/max_steps": "938/1237", "percentage": "75.83%", "elapsed_time": "11h 32m 59s", "remaining_time": "3h 40m 54s"}
{"loss": 0.4127692, "token_acc": 0.84244373, "grad_norm": 1.92828095, "learning_rate": 1.5e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.75955511, "global_step/max_steps": "939/1237", "percentage": "75.91%", "elapsed_time": "11h 33m 43s", "remaining_time": "3h 40m 9s"}
{"loss": 0.42502281, "token_acc": 0.86428571, "grad_norm": 2.2804141, "learning_rate": 1.5e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.760364, "global_step/max_steps": "940/1237", "percentage": "75.99%", "elapsed_time": "11h 34m 27s", "remaining_time": "3h 39m 25s"}
{"loss": 0.42061827, "token_acc": 0.88114754, "grad_norm": 1.89213777, "learning_rate": 1.49e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.7611729, "global_step/max_steps": "941/1237", "percentage": "76.07%", "elapsed_time": "11h 35m 11s", "remaining_time": "3h 38m 40s"}
{"loss": 0.38899541, "token_acc": 0.88217523, "grad_norm": 1.89280725, "learning_rate": 1.48e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.7619818, "global_step/max_steps": "942/1237", "percentage": "76.15%", "elapsed_time": "11h 35m 55s", "remaining_time": "3h 37m 56s"}
{"loss": 0.38851073, "token_acc": 0.87241379, "grad_norm": 3.12841296, "learning_rate": 1.47e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.7627907, "global_step/max_steps": "943/1237", "percentage": "76.23%", "elapsed_time": "11h 36m 39s", "remaining_time": "3h 37m 11s"}
{"loss": 0.38765308, "token_acc": 0.88679245, "grad_norm": 1.94324732, "learning_rate": 1.46e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022557, "epoch": 0.7635996, "global_step/max_steps": "944/1237", "percentage": "76.31%", "elapsed_time": "11h 37m 23s", "remaining_time": "3h 36m 27s"}
{"loss": 0.43059999, "token_acc": 0.87937743, "grad_norm": 2.4022584, "learning_rate": 1.45e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022557, "epoch": 0.76440849, "global_step/max_steps": "945/1237", "percentage": "76.39%", "elapsed_time": "11h 38m 7s", "remaining_time": "3h 35m 42s"}
{"loss": 0.40374953, "token_acc": 0.87727273, "grad_norm": 2.36954618, "learning_rate": 1.44e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022557, "epoch": 0.76521739, "global_step/max_steps": "946/1237", "percentage": "76.48%", "elapsed_time": "11h 38m 51s", "remaining_time": "3h 34m 58s"}
{"loss": 0.3562178, "token_acc": 0.90196078, "grad_norm": 1.95133471, "learning_rate": 1.43e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022557, "epoch": 0.76602629, "global_step/max_steps": "947/1237", "percentage": "76.56%", "elapsed_time": "11h 39m 35s", "remaining_time": "3h 34m 14s"}
{"loss": 0.38198453, "token_acc": 0.89811321, "grad_norm": 2.01915979, "learning_rate": 1.42e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022558, "epoch": 0.76683519, "global_step/max_steps": "948/1237", "percentage": "76.64%", "elapsed_time": "11h 40m 18s", "remaining_time": "3h 33m 29s"}
{"loss": 0.39389661, "token_acc": 0.84196891, "grad_norm": 1.88235319, "learning_rate": 1.41e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022558, "epoch": 0.76764408, "global_step/max_steps": "949/1237", "percentage": "76.72%", "elapsed_time": "11h 41m 2s", "remaining_time": "3h 32m 45s"}
{"loss": 0.40055525, "token_acc": 0.87763713, "grad_norm": 2.25485277, "learning_rate": 1.4e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022558, "epoch": 0.76845298, "global_step/max_steps": "950/1237", "percentage": "76.80%", "elapsed_time": "11h 41m 46s", "remaining_time": "3h 32m 0s"}
{"loss": 0.46597487, "token_acc": 0.80463576, "grad_norm": 2.26188254, "learning_rate": 1.39e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022559, "epoch": 0.76926188, "global_step/max_steps": "951/1237", "percentage": "76.88%", "elapsed_time": "11h 42m 30s", "remaining_time": "3h 31m 16s"}
{"loss": 0.34575021, "token_acc": 0.86184211, "grad_norm": 1.88440633, "learning_rate": 1.38e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022559, "epoch": 0.77007078, "global_step/max_steps": "952/1237", "percentage": "76.96%", "elapsed_time": "11h 43m 14s", "remaining_time": "3h 30m 31s"}
{"loss": 0.35355186, "token_acc": 0.91322314, "grad_norm": 2.36943364, "learning_rate": 1.37e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022559, "epoch": 0.77087968, "global_step/max_steps": "953/1237", "percentage": "77.04%", "elapsed_time": "11h 43m 57s", "remaining_time": "3h 29m 47s"}
{"loss": 0.3593536, "token_acc": 0.83508772, "grad_norm": 1.99890125, "learning_rate": 1.36e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02256, "epoch": 0.77168857, "global_step/max_steps": "954/1237", "percentage": "77.12%", "elapsed_time": "11h 44m 41s", "remaining_time": "3h 29m 2s"}
{"loss": 0.4126164, "token_acc": 0.84911243, "grad_norm": 2.40371561, "learning_rate": 1.36e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02256, "epoch": 0.77249747, "global_step/max_steps": "955/1237", "percentage": "77.20%", "elapsed_time": "11h 45m 25s", "remaining_time": "3h 28m 18s"}
{"loss": 0.46254298, "token_acc": 0.85214008, "grad_norm": 3.04489374, "learning_rate": 1.35e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02256, "epoch": 0.77330637, "global_step/max_steps": "956/1237", "percentage": "77.28%", "elapsed_time": "11h 46m 9s", "remaining_time": "3h 27m 33s"}
{"loss": 0.39035511, "token_acc": 0.89735099, "grad_norm": 2.84868312, "learning_rate": 1.34e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02256, "epoch": 0.77411527, "global_step/max_steps": "957/1237", "percentage": "77.36%", "elapsed_time": "11h 46m 53s", "remaining_time": "3h 26m 49s"}
{"loss": 0.41359556, "token_acc": 0.88043478, "grad_norm": 2.87288332, "learning_rate": 1.33e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02256, "epoch": 0.77492417, "global_step/max_steps": "958/1237", "percentage": "77.45%", "elapsed_time": "11h 47m 37s", "remaining_time": "3h 26m 4s"}
{"loss": 0.38002616, "token_acc": 0.89880952, "grad_norm": 2.24837232, "learning_rate": 1.32e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022561, "epoch": 0.77573306, "global_step/max_steps": "959/1237", "percentage": "77.53%", "elapsed_time": "11h 48m 21s", "remaining_time": "3h 25m 20s"}
{"loss": 0.40935284, "token_acc": 0.8419244, "grad_norm": 2.37902236, "learning_rate": 1.31e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022561, "epoch": 0.77654196, "global_step/max_steps": "960/1237", "percentage": "77.61%", "elapsed_time": "11h 49m 4s", "remaining_time": "3h 24m 35s"}
{"loss": 0.30737096, "token_acc": 0.83281734, "grad_norm": 2.58261418, "learning_rate": 1.3e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022561, "epoch": 0.77735086, "global_step/max_steps": "961/1237", "percentage": "77.69%", "elapsed_time": "11h 49m 48s", "remaining_time": "3h 23m 51s"}
{"loss": 0.36490986, "token_acc": 0.89019608, "grad_norm": 1.82540238, "learning_rate": 1.29e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022562, "epoch": 0.77815976, "global_step/max_steps": "962/1237", "percentage": "77.77%", "elapsed_time": "11h 50m 32s", "remaining_time": "3h 23m 7s"}
{"loss": 0.34457016, "token_acc": 0.87890625, "grad_norm": 1.95187795, "learning_rate": 1.28e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022562, "epoch": 0.77896866, "global_step/max_steps": "963/1237", "percentage": "77.85%", "elapsed_time": "11h 51m 16s", "remaining_time": "3h 22m 22s"}
{"loss": 0.38135463, "token_acc": 0.83898305, "grad_norm": 2.05777526, "learning_rate": 1.27e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022562, "epoch": 0.77977755, "global_step/max_steps": "964/1237", "percentage": "77.93%", "elapsed_time": "11h 52m 0s", "remaining_time": "3h 21m 38s"}
{"loss": 0.41464821, "token_acc": 0.85813149, "grad_norm": 2.27598786, "learning_rate": 1.26e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022562, "epoch": 0.78058645, "global_step/max_steps": "965/1237", "percentage": "78.01%", "elapsed_time": "11h 52m 44s", "remaining_time": "3h 20m 53s"}
{"loss": 0.43926412, "token_acc": 0.90825688, "grad_norm": 2.1627624, "learning_rate": 1.26e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022563, "epoch": 0.78139535, "global_step/max_steps": "966/1237", "percentage": "78.09%", "elapsed_time": "11h 53m 27s", "remaining_time": "3h 20m 9s"}
{"loss": 0.39155987, "token_acc": 0.88888889, "grad_norm": 2.66533375, "learning_rate": 1.25e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022563, "epoch": 0.78220425, "global_step/max_steps": "967/1237", "percentage": "78.17%", "elapsed_time": "11h 54m 11s", "remaining_time": "3h 19m 24s"}
{"loss": 0.35818112, "token_acc": 0.85846154, "grad_norm": 1.99025118, "learning_rate": 1.24e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022563, "epoch": 0.78301314, "global_step/max_steps": "968/1237", "percentage": "78.25%", "elapsed_time": "11h 54m 55s", "remaining_time": "3h 18m 40s"}
{"loss": 0.40156054, "token_acc": 0.86604361, "grad_norm": 2.07681632, "learning_rate": 1.23e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022563, "epoch": 0.78382204, "global_step/max_steps": "969/1237", "percentage": "78.33%", "elapsed_time": "11h 55m 39s", "remaining_time": "3h 17m 55s"}
{"loss": 0.37230483, "token_acc": 0.90517241, "grad_norm": 2.01577616, "learning_rate": 1.22e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022564, "epoch": 0.78463094, "global_step/max_steps": "970/1237", "percentage": "78.42%", "elapsed_time": "11h 56m 23s", "remaining_time": "3h 17m 11s"}
{"loss": 0.39407879, "token_acc": 0.8828125, "grad_norm": 2.25105715, "learning_rate": 1.21e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022564, "epoch": 0.78543984, "global_step/max_steps": "971/1237", "percentage": "78.50%", "elapsed_time": "11h 57m 6s", "remaining_time": "3h 16m 26s"}
{"loss": 0.38092992, "token_acc": 0.86639676, "grad_norm": 1.94197142, "learning_rate": 1.2e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022564, "epoch": 0.78624874, "global_step/max_steps": "972/1237", "percentage": "78.58%", "elapsed_time": "11h 57m 50s", "remaining_time": "3h 15m 42s"}
{"loss": 0.41355523, "token_acc": 0.8683274, "grad_norm": 2.20480132, "learning_rate": 1.19e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022565, "epoch": 0.78705763, "global_step/max_steps": "973/1237", "percentage": "78.66%", "elapsed_time": "11h 58m 34s", "remaining_time": "3h 14m 58s"}
{"loss": 0.40745956, "token_acc": 0.85833333, "grad_norm": 2.46120787, "learning_rate": 1.19e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022565, "epoch": 0.78786653, "global_step/max_steps": "974/1237", "percentage": "78.74%", "elapsed_time": "11h 59m 17s", "remaining_time": "3h 14m 13s"}
{"loss": 0.33745524, "token_acc": 0.90186916, "grad_norm": 1.86818886, "learning_rate": 1.18e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022565, "epoch": 0.78867543, "global_step/max_steps": "975/1237", "percentage": "78.82%", "elapsed_time": "12h 0m 1s", "remaining_time": "3h 13m 29s"}
{"loss": 0.36072519, "token_acc": 0.89224138, "grad_norm": 1.93170011, "learning_rate": 1.17e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022565, "epoch": 0.78948433, "global_step/max_steps": "976/1237", "percentage": "78.90%", "elapsed_time": "12h 0m 45s", "remaining_time": "3h 12m 44s"}
{"loss": 0.32156175, "token_acc": 0.90034364, "grad_norm": 1.45457935, "learning_rate": 1.16e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022566, "epoch": 0.79029323, "global_step/max_steps": "977/1237", "percentage": "78.98%", "elapsed_time": "12h 1m 29s", "remaining_time": "3h 12m 0s"}
{"loss": 0.36492765, "token_acc": 0.87244898, "grad_norm": 2.09868193, "learning_rate": 1.15e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022566, "epoch": 0.79110212, "global_step/max_steps": "978/1237", "percentage": "79.06%", "elapsed_time": "12h 2m 13s", "remaining_time": "3h 11m 15s"}
{"loss": 0.39200318, "token_acc": 0.875, "grad_norm": 1.85251439, "learning_rate": 1.14e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022566, "epoch": 0.79191102, "global_step/max_steps": "979/1237", "percentage": "79.14%", "elapsed_time": "12h 2m 57s", "remaining_time": "3h 10m 31s"}
{"loss": 0.35687357, "token_acc": 0.9057971, "grad_norm": 2.01118612, "learning_rate": 1.13e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022566, "epoch": 0.79271992, "global_step/max_steps": "980/1237", "percentage": "79.22%", "elapsed_time": "12h 3m 40s", "remaining_time": "3h 9m 46s"}
{"loss": 0.36840776, "token_acc": 0.89003436, "grad_norm": 2.8331449, "learning_rate": 1.13e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022567, "epoch": 0.79352882, "global_step/max_steps": "981/1237", "percentage": "79.30%", "elapsed_time": "12h 4m 24s", "remaining_time": "3h 9m 2s"}
{"loss": 0.33188909, "token_acc": 0.87557604, "grad_norm": 2.38880873, "learning_rate": 1.12e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022567, "epoch": 0.79433771, "global_step/max_steps": "982/1237", "percentage": "79.39%", "elapsed_time": "12h 5m 8s", "remaining_time": "3h 8m 18s"}
{"loss": 0.32926512, "token_acc": 0.86900958, "grad_norm": 1.80679309, "learning_rate": 1.11e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022567, "epoch": 0.79514661, "global_step/max_steps": "983/1237", "percentage": "79.47%", "elapsed_time": "12h 5m 52s", "remaining_time": "3h 7m 33s"}
{"loss": 0.39484212, "token_acc": 0.87414966, "grad_norm": 2.23840141, "learning_rate": 1.1e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022567, "epoch": 0.79595551, "global_step/max_steps": "984/1237", "percentage": "79.55%", "elapsed_time": "12h 6m 36s", "remaining_time": "3h 6m 49s"}
{"loss": 0.45714325, "token_acc": 0.84782609, "grad_norm": 2.3892653, "learning_rate": 1.09e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022568, "epoch": 0.79676441, "global_step/max_steps": "985/1237", "percentage": "79.63%", "elapsed_time": "12h 7m 20s", "remaining_time": "3h 6m 4s"}
{"loss": 0.37196797, "token_acc": 0.85892116, "grad_norm": 2.17317581, "learning_rate": 1.08e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022568, "epoch": 0.79757331, "global_step/max_steps": "986/1237", "percentage": "79.71%", "elapsed_time": "12h 8m 4s", "remaining_time": "3h 5m 20s"}
{"loss": 0.44243717, "token_acc": 0.82442748, "grad_norm": 2.02592945, "learning_rate": 1.08e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022568, "epoch": 0.7983822, "global_step/max_steps": "987/1237", "percentage": "79.79%", "elapsed_time": "12h 8m 48s", "remaining_time": "3h 4m 36s"}
{"loss": 0.39491478, "token_acc": 0.9015544, "grad_norm": 2.15165353, "learning_rate": 1.07e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022568, "epoch": 0.7991911, "global_step/max_steps": "988/1237", "percentage": "79.87%", "elapsed_time": "12h 9m 31s", "remaining_time": "3h 3m 51s"}
{"loss": 0.33834013, "token_acc": 0.88401254, "grad_norm": 2.11692286, "learning_rate": 1.06e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022569, "epoch": 0.8, "global_step/max_steps": "989/1237", "percentage": "79.95%", "elapsed_time": "12h 10m 15s", "remaining_time": "3h 3m 7s"}
{"loss": 0.38963425, "token_acc": 0.86666667, "grad_norm": 2.45476961, "learning_rate": 1.05e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022569, "epoch": 0.8008089, "global_step/max_steps": "990/1237", "percentage": "80.03%", "elapsed_time": "12h 10m 59s", "remaining_time": "3h 2m 22s"}
{"loss": 0.36352628, "token_acc": 0.92, "grad_norm": 1.84481537, "learning_rate": 1.04e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022569, "epoch": 0.8016178, "global_step/max_steps": "991/1237", "percentage": "80.11%", "elapsed_time": "12h 11m 43s", "remaining_time": "3h 1m 38s"}
{"loss": 0.37957263, "token_acc": 0.88724036, "grad_norm": 1.88374209, "learning_rate": 1.03e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022569, "epoch": 0.80242669, "global_step/max_steps": "992/1237", "percentage": "80.19%", "elapsed_time": "12h 12m 26s", "remaining_time": "3h 0m 53s"}
{"loss": 0.37390858, "token_acc": 0.83406114, "grad_norm": 2.03746295, "learning_rate": 1.03e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02257, "epoch": 0.80323559, "global_step/max_steps": "993/1237", "percentage": "80.27%", "elapsed_time": "12h 13m 10s", "remaining_time": "3h 0m 9s"}
{"loss": 0.31939688, "token_acc": 0.87843137, "grad_norm": 2.80666375, "learning_rate": 1.02e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02257, "epoch": 0.80404449, "global_step/max_steps": "994/1237", "percentage": "80.36%", "elapsed_time": "12h 13m 54s", "remaining_time": "2h 59m 25s"}
{"loss": 0.37592533, "token_acc": 0.90035587, "grad_norm": 2.36476088, "learning_rate": 1.01e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02257, "epoch": 0.80485339, "global_step/max_steps": "995/1237", "percentage": "80.44%", "elapsed_time": "12h 14m 38s", "remaining_time": "2h 58m 40s"}
{"loss": 0.33633351, "token_acc": 0.90780142, "grad_norm": 2.11246443, "learning_rate": 1e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02257, "epoch": 0.80566229, "global_step/max_steps": "996/1237", "percentage": "80.52%", "elapsed_time": "12h 15m 22s", "remaining_time": "2h 57m 56s"}
{"loss": 0.38282421, "token_acc": 0.8685446, "grad_norm": 2.17745781, "learning_rate": 9.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022571, "epoch": 0.80647118, "global_step/max_steps": "997/1237", "percentage": "80.60%", "elapsed_time": "12h 16m 6s", "remaining_time": "2h 57m 11s"}
{"loss": 0.36498541, "token_acc": 0.86516854, "grad_norm": 2.46302652, "learning_rate": 9.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022571, "epoch": 0.80728008, "global_step/max_steps": "998/1237", "percentage": "80.68%", "elapsed_time": "12h 16m 50s", "remaining_time": "2h 56m 27s"}
{"loss": 0.4093163, "token_acc": 0.81060606, "grad_norm": 2.14937329, "learning_rate": 9.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022571, "epoch": 0.80808898, "global_step/max_steps": "999/1237", "percentage": "80.76%", "elapsed_time": "12h 17m 34s", "remaining_time": "2h 55m 43s"}
{"loss": 0.35010037, "token_acc": 0.86419753, "grad_norm": 1.86833811, "learning_rate": 9.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022571, "epoch": 0.80889788, "global_step/max_steps": "1000/1237", "percentage": "80.84%", "elapsed_time": "12h 18m 17s", "remaining_time": "2h 54m 58s"}
{"eval_loss": 0.36755362, "eval_token_acc": 0.87435282, "eval_runtime": 428.8026, "eval_samples_per_second": 3.727, "eval_steps_per_second": 0.117, "epoch": 0.80889788, "global_step/max_steps": "1000/1237", "percentage": "80.84%", "elapsed_time": "12h 25m 26s", "remaining_time": "2h 56m 40s"}
{"loss": 0.31499255, "token_acc": 0.875, "grad_norm": 6.64223337, "learning_rate": 9.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022354, "epoch": 0.80970677, "global_step/max_steps": "1001/1237", "percentage": "80.92%", "elapsed_time": "12h 26m 13s", "remaining_time": "2h 55m 56s"}
{"loss": 0.42506412, "token_acc": 0.87544484, "grad_norm": 2.20480418, "learning_rate": 9.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022354, "epoch": 0.81051567, "global_step/max_steps": "1002/1237", "percentage": "81.00%", "elapsed_time": "12h 26m 57s", "remaining_time": "2h 55m 11s"}
{"loss": 0.32009009, "token_acc": 0.89, "grad_norm": 1.86608398, "learning_rate": 9.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022354, "epoch": 0.81132457, "global_step/max_steps": "1003/1237", "percentage": "81.08%", "elapsed_time": "12h 27m 41s", "remaining_time": "2h 54m 26s"}
{"loss": 0.33571398, "token_acc": 0.90128755, "grad_norm": 1.90541935, "learning_rate": 9.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022355, "epoch": 0.81213347, "global_step/max_steps": "1004/1237", "percentage": "81.16%", "elapsed_time": "12h 28m 25s", "remaining_time": "2h 53m 41s"}
{"loss": 0.38648778, "token_acc": 0.90298507, "grad_norm": 3.90810513, "learning_rate": 9.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022355, "epoch": 0.81294237, "global_step/max_steps": "1005/1237", "percentage": "81.24%", "elapsed_time": "12h 29m 9s", "remaining_time": "2h 52m 56s"}
{"loss": 0.33014399, "token_acc": 0.89259259, "grad_norm": 2.10401678, "learning_rate": 9.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022356, "epoch": 0.81375126, "global_step/max_steps": "1006/1237", "percentage": "81.33%", "elapsed_time": "12h 29m 53s", "remaining_time": "2h 52m 11s"}
{"loss": 0.37634194, "token_acc": 0.80924855, "grad_norm": 1.66796815, "learning_rate": 9.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022356, "epoch": 0.81456016, "global_step/max_steps": "1007/1237", "percentage": "81.41%", "elapsed_time": "12h 30m 36s", "remaining_time": "2h 51m 26s"}
{"loss": 0.41192293, "token_acc": 0.82625483, "grad_norm": 2.3380022, "learning_rate": 9.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022357, "epoch": 0.81536906, "global_step/max_steps": "1008/1237", "percentage": "81.49%", "elapsed_time": "12h 31m 20s", "remaining_time": "2h 50m 41s"}
{"loss": 0.35565862, "token_acc": 0.92653061, "grad_norm": 1.96437573, "learning_rate": 9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022357, "epoch": 0.81617796, "global_step/max_steps": "1009/1237", "percentage": "81.57%", "elapsed_time": "12h 32m 4s", "remaining_time": "2h 49m 56s"}
{"loss": 0.33104694, "token_acc": 0.90366972, "grad_norm": 1.66943061, "learning_rate": 8.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022358, "epoch": 0.81698686, "global_step/max_steps": "1010/1237", "percentage": "81.65%", "elapsed_time": "12h 32m 48s", "remaining_time": "2h 49m 11s"}
{"loss": 0.33359927, "token_acc": 0.90452261, "grad_norm": 3.93320584, "learning_rate": 8.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022358, "epoch": 0.81779575, "global_step/max_steps": "1011/1237", "percentage": "81.73%", "elapsed_time": "12h 33m 32s", "remaining_time": "2h 48m 26s"}
{"loss": 0.39447695, "token_acc": 0.88475836, "grad_norm": 2.09352136, "learning_rate": 8.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022359, "epoch": 0.81860465, "global_step/max_steps": "1012/1237", "percentage": "81.81%", "elapsed_time": "12h 34m 15s", "remaining_time": "2h 47m 41s"}
{"loss": 0.32918879, "token_acc": 0.85652174, "grad_norm": 1.80621159, "learning_rate": 8.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022359, "epoch": 0.81941355, "global_step/max_steps": "1013/1237", "percentage": "81.89%", "elapsed_time": "12h 34m 59s", "remaining_time": "2h 46m 56s"}
{"loss": 0.28957555, "token_acc": 0.91452991, "grad_norm": 2.16096997, "learning_rate": 8.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02236, "epoch": 0.82022245, "global_step/max_steps": "1014/1237", "percentage": "81.97%", "elapsed_time": "12h 35m 42s", "remaining_time": "2h 46m 11s"}
{"loss": 0.37500149, "token_acc": 0.89308176, "grad_norm": 2.04080606, "learning_rate": 8.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02236, "epoch": 0.82103134, "global_step/max_steps": "1015/1237", "percentage": "82.05%", "elapsed_time": "12h 36m 26s", "remaining_time": "2h 45m 26s"}
{"loss": 0.38009325, "token_acc": 0.84393064, "grad_norm": 2.25965452, "learning_rate": 8.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022361, "epoch": 0.82184024, "global_step/max_steps": "1016/1237", "percentage": "82.13%", "elapsed_time": "12h 37m 10s", "remaining_time": "2h 44m 42s"}
{"loss": 0.32510781, "token_acc": 0.91119691, "grad_norm": 1.54761326, "learning_rate": 8.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022361, "epoch": 0.82264914, "global_step/max_steps": "1017/1237", "percentage": "82.22%", "elapsed_time": "12h 37m 54s", "remaining_time": "2h 43m 57s"}
{"loss": 0.38296396, "token_acc": 0.87828947, "grad_norm": 2.15211535, "learning_rate": 8.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022361, "epoch": 0.82345804, "global_step/max_steps": "1018/1237", "percentage": "82.30%", "elapsed_time": "12h 38m 38s", "remaining_time": "2h 43m 12s"}
{"loss": 0.35233676, "token_acc": 0.82698962, "grad_norm": 2.07193875, "learning_rate": 8.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022362, "epoch": 0.82426694, "global_step/max_steps": "1019/1237", "percentage": "82.38%", "elapsed_time": "12h 39m 22s", "remaining_time": "2h 42m 27s"}
{"loss": 0.37082982, "token_acc": 0.8984127, "grad_norm": 2.25030589, "learning_rate": 8.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022362, "epoch": 0.82507583, "global_step/max_steps": "1020/1237", "percentage": "82.46%", "elapsed_time": "12h 40m 6s", "remaining_time": "2h 41m 42s"}
{"loss": 0.44092637, "token_acc": 0.85714286, "grad_norm": 2.57288766, "learning_rate": 8.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022363, "epoch": 0.82588473, "global_step/max_steps": "1021/1237", "percentage": "82.54%", "elapsed_time": "12h 40m 50s", "remaining_time": "2h 40m 57s"}
{"loss": 0.39866781, "token_acc": 0.91764706, "grad_norm": 2.12146711, "learning_rate": 8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022363, "epoch": 0.82669363, "global_step/max_steps": "1022/1237", "percentage": "82.62%", "elapsed_time": "12h 41m 33s", "remaining_time": "2h 40m 12s"}
{"loss": 0.35733747, "token_acc": 0.91304348, "grad_norm": 1.8472904, "learning_rate": 8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022364, "epoch": 0.82750253, "global_step/max_steps": "1023/1237", "percentage": "82.70%", "elapsed_time": "12h 42m 17s", "remaining_time": "2h 39m 27s"}
{"loss": 0.29670447, "token_acc": 0.90163934, "grad_norm": 1.93888986, "learning_rate": 7.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022364, "epoch": 0.82831143, "global_step/max_steps": "1024/1237", "percentage": "82.78%", "elapsed_time": "12h 43m 1s", "remaining_time": "2h 38m 42s"}
{"loss": 0.31166232, "token_acc": 0.90909091, "grad_norm": 1.74706042, "learning_rate": 7.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022364, "epoch": 0.82912032, "global_step/max_steps": "1025/1237", "percentage": "82.86%", "elapsed_time": "12h 43m 45s", "remaining_time": "2h 37m 58s"}
{"loss": 0.3713032, "token_acc": 0.85405405, "grad_norm": 2.29275393, "learning_rate": 7.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022365, "epoch": 0.82992922, "global_step/max_steps": "1026/1237", "percentage": "82.94%", "elapsed_time": "12h 44m 29s", "remaining_time": "2h 37m 13s"}
{"loss": 0.33843195, "token_acc": 0.93258427, "grad_norm": 2.00936103, "learning_rate": 7.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022365, "epoch": 0.83073812, "global_step/max_steps": "1027/1237", "percentage": "83.02%", "elapsed_time": "12h 45m 13s", "remaining_time": "2h 36m 28s"}
{"loss": 0.44225618, "token_acc": 0.84246575, "grad_norm": 1.91666377, "learning_rate": 7.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022366, "epoch": 0.83154702, "global_step/max_steps": "1028/1237", "percentage": "83.10%", "elapsed_time": "12h 45m 56s", "remaining_time": "2h 35m 43s"}
{"loss": 0.42556819, "token_acc": 0.81818182, "grad_norm": 2.44992924, "learning_rate": 7.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022366, "epoch": 0.83235592, "global_step/max_steps": "1029/1237", "percentage": "83.19%", "elapsed_time": "12h 46m 40s", "remaining_time": "2h 34m 58s"}
{"loss": 0.46478236, "token_acc": 0.88118812, "grad_norm": 2.44365215, "learning_rate": 7.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022367, "epoch": 0.83316481, "global_step/max_steps": "1030/1237", "percentage": "83.27%", "elapsed_time": "12h 47m 24s", "remaining_time": "2h 34m 13s"}
{"loss": 0.34241784, "token_acc": 0.89084507, "grad_norm": 1.8678391, "learning_rate": 7.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022367, "epoch": 0.83397371, "global_step/max_steps": "1031/1237", "percentage": "83.35%", "elapsed_time": "12h 48m 8s", "remaining_time": "2h 33m 28s"}
{"loss": 0.3532908, "token_acc": 0.82918149, "grad_norm": 2.00262904, "learning_rate": 7.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022368, "epoch": 0.83478261, "global_step/max_steps": "1032/1237", "percentage": "83.43%", "elapsed_time": "12h 48m 51s", "remaining_time": "2h 32m 43s"}
{"loss": 0.39124253, "token_acc": 0.86641221, "grad_norm": 2.47542572, "learning_rate": 7.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022368, "epoch": 0.83559151, "global_step/max_steps": "1033/1237", "percentage": "83.51%", "elapsed_time": "12h 49m 35s", "remaining_time": "2h 31m 58s"}
{"loss": 0.35193619, "token_acc": 0.87254902, "grad_norm": 2.00955176, "learning_rate": 7.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022368, "epoch": 0.8364004, "global_step/max_steps": "1034/1237", "percentage": "83.59%", "elapsed_time": "12h 50m 19s", "remaining_time": "2h 31m 14s"}
{"loss": 0.38486159, "token_acc": 0.89814815, "grad_norm": 2.07730389, "learning_rate": 7.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022369, "epoch": 0.8372093, "global_step/max_steps": "1035/1237", "percentage": "83.67%", "elapsed_time": "12h 51m 3s", "remaining_time": "2h 30m 29s"}
{"loss": 0.374753, "token_acc": 0.91419142, "grad_norm": 1.86232388, "learning_rate": 7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022369, "epoch": 0.8380182, "global_step/max_steps": "1036/1237", "percentage": "83.75%", "elapsed_time": "12h 51m 47s", "remaining_time": "2h 29m 44s"}
{"loss": 0.36277771, "token_acc": 0.82253521, "grad_norm": 1.86725903, "learning_rate": 7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02237, "epoch": 0.8388271, "global_step/max_steps": "1037/1237", "percentage": "83.83%", "elapsed_time": "12h 52m 30s", "remaining_time": "2h 28m 59s"}
{"loss": 0.40543324, "token_acc": 0.88607595, "grad_norm": 2.07970428, "learning_rate": 6.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02237, "epoch": 0.839636, "global_step/max_steps": "1038/1237", "percentage": "83.91%", "elapsed_time": "12h 53m 14s", "remaining_time": "2h 28m 14s"}
{"loss": 0.33668116, "token_acc": 0.90836653, "grad_norm": 2.22412968, "learning_rate": 6.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022371, "epoch": 0.84044489, "global_step/max_steps": "1039/1237", "percentage": "83.99%", "elapsed_time": "12h 53m 58s", "remaining_time": "2h 27m 29s"}
{"loss": 0.35223797, "token_acc": 0.85087719, "grad_norm": 1.75504053, "learning_rate": 6.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022371, "epoch": 0.84125379, "global_step/max_steps": "1040/1237", "percentage": "84.07%", "elapsed_time": "12h 54m 42s", "remaining_time": "2h 26m 44s"}
{"loss": 0.44332093, "token_acc": 0.8392283, "grad_norm": 1.8860352, "learning_rate": 6.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022371, "epoch": 0.84206269, "global_step/max_steps": "1041/1237", "percentage": "84.16%", "elapsed_time": "12h 55m 26s", "remaining_time": "2h 25m 59s"}
{"loss": 0.39516893, "token_acc": 0.89285714, "grad_norm": 2.26384091, "learning_rate": 6.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022372, "epoch": 0.84287159, "global_step/max_steps": "1042/1237", "percentage": "84.24%", "elapsed_time": "12h 56m 9s", "remaining_time": "2h 25m 15s"}
{"loss": 0.39435217, "token_acc": 0.81845238, "grad_norm": 2.31437659, "learning_rate": 6.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022372, "epoch": 0.84368049, "global_step/max_steps": "1043/1237", "percentage": "84.32%", "elapsed_time": "12h 56m 53s", "remaining_time": "2h 24m 30s"}
{"loss": 0.38613927, "token_acc": 0.84057971, "grad_norm": 2.42044234, "learning_rate": 6.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022373, "epoch": 0.84448938, "global_step/max_steps": "1044/1237", "percentage": "84.40%", "elapsed_time": "12h 57m 37s", "remaining_time": "2h 23m 45s"}
{"loss": 0.36383155, "token_acc": 0.86713287, "grad_norm": 1.95651531, "learning_rate": 6.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022373, "epoch": 0.84529828, "global_step/max_steps": "1045/1237", "percentage": "84.48%", "elapsed_time": "12h 58m 21s", "remaining_time": "2h 23m 0s"}
{"loss": 0.34776846, "token_acc": 0.87313433, "grad_norm": 1.82338548, "learning_rate": 6.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022374, "epoch": 0.84610718, "global_step/max_steps": "1046/1237", "percentage": "84.56%", "elapsed_time": "12h 59m 5s", "remaining_time": "2h 22m 15s"}
{"loss": 0.35996652, "token_acc": 0.84, "grad_norm": 2.05364561, "learning_rate": 6.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022374, "epoch": 0.84691608, "global_step/max_steps": "1047/1237", "percentage": "84.64%", "elapsed_time": "12h 59m 48s", "remaining_time": "2h 21m 30s"}
{"loss": 0.33317852, "token_acc": 0.91538462, "grad_norm": 2.14515996, "learning_rate": 6.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022375, "epoch": 0.84772497, "global_step/max_steps": "1048/1237", "percentage": "84.72%", "elapsed_time": "13h 0m 32s", "remaining_time": "2h 20m 45s"}
{"loss": 0.34942332, "token_acc": 0.86635945, "grad_norm": 2.26161265, "learning_rate": 6.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022375, "epoch": 0.84853387, "global_step/max_steps": "1049/1237", "percentage": "84.80%", "elapsed_time": "13h 1m 16s", "remaining_time": "2h 20m 1s"}
{"loss": 0.35964176, "token_acc": 0.89368771, "grad_norm": 2.03233671, "learning_rate": 6.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022375, "epoch": 0.84934277, "global_step/max_steps": "1050/1237", "percentage": "84.88%", "elapsed_time": "13h 2m 0s", "remaining_time": "2h 19m 16s"}
{"loss": 0.37345681, "token_acc": 0.87671233, "grad_norm": 1.97377324, "learning_rate": 6.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022376, "epoch": 0.85015167, "global_step/max_steps": "1051/1237", "percentage": "84.96%", "elapsed_time": "13h 2m 44s", "remaining_time": "2h 18m 31s"}
{"loss": 0.37709355, "token_acc": 0.88942308, "grad_norm": 3.46771765, "learning_rate": 6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022376, "epoch": 0.85096057, "global_step/max_steps": "1052/1237", "percentage": "85.04%", "elapsed_time": "13h 3m 27s", "remaining_time": "2h 17m 46s"}
{"loss": 0.40682828, "token_acc": 0.875, "grad_norm": 2.00827599, "learning_rate": 5.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022376, "epoch": 0.85176946, "global_step/max_steps": "1053/1237", "percentage": "85.13%", "elapsed_time": "13h 4m 11s", "remaining_time": "2h 17m 1s"}
{"loss": 0.34420419, "token_acc": 0.86, "grad_norm": 1.61126184, "learning_rate": 5.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022377, "epoch": 0.85257836, "global_step/max_steps": "1054/1237", "percentage": "85.21%", "elapsed_time": "13h 4m 56s", "remaining_time": "2h 16m 17s"}
{"loss": 0.37148887, "token_acc": 0.92694064, "grad_norm": 2.19789171, "learning_rate": 5.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022377, "epoch": 0.85338726, "global_step/max_steps": "1055/1237", "percentage": "85.29%", "elapsed_time": "13h 5m 39s", "remaining_time": "2h 15m 32s"}
{"loss": 0.37758809, "token_acc": 0.87449393, "grad_norm": 2.1480906, "learning_rate": 5.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022378, "epoch": 0.85419616, "global_step/max_steps": "1056/1237", "percentage": "85.37%", "elapsed_time": "13h 6m 23s", "remaining_time": "2h 14m 47s"}
{"loss": 0.36923075, "token_acc": 0.89820359, "grad_norm": 2.16191959, "learning_rate": 5.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022378, "epoch": 0.85500506, "global_step/max_steps": "1057/1237", "percentage": "85.45%", "elapsed_time": "13h 7m 7s", "remaining_time": "2h 14m 2s"}
{"loss": 0.36903954, "token_acc": 0.88928571, "grad_norm": 2.3178339, "learning_rate": 5.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022378, "epoch": 0.85581395, "global_step/max_steps": "1058/1237", "percentage": "85.53%", "elapsed_time": "13h 7m 51s", "remaining_time": "2h 13m 17s"}
{"loss": 0.40472832, "token_acc": 0.87068966, "grad_norm": 2.58238077, "learning_rate": 5.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022379, "epoch": 0.85662285, "global_step/max_steps": "1059/1237", "percentage": "85.61%", "elapsed_time": "13h 8m 34s", "remaining_time": "2h 12m 32s"}
{"loss": 0.38498193, "token_acc": 0.84063745, "grad_norm": 1.96255791, "learning_rate": 5.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022379, "epoch": 0.85743175, "global_step/max_steps": "1060/1237", "percentage": "85.69%", "elapsed_time": "13h 9m 18s", "remaining_time": "2h 11m 48s"}
{"loss": 0.43619174, "token_acc": 0.84647303, "grad_norm": 2.01859045, "learning_rate": 5.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02238, "epoch": 0.85824065, "global_step/max_steps": "1061/1237", "percentage": "85.77%", "elapsed_time": "13h 10m 2s", "remaining_time": "2h 11m 3s"}
{"loss": 0.37471503, "token_acc": 0.92195122, "grad_norm": 2.06420135, "learning_rate": 5.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02238, "epoch": 0.85904954, "global_step/max_steps": "1062/1237", "percentage": "85.85%", "elapsed_time": "13h 10m 46s", "remaining_time": "2h 10m 18s"}
{"loss": 0.38783365, "token_acc": 0.85310734, "grad_norm": 2.18796468, "learning_rate": 5.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02238, "epoch": 0.85985844, "global_step/max_steps": "1063/1237", "percentage": "85.93%", "elapsed_time": "13h 11m 30s", "remaining_time": "2h 9m 33s"}
{"loss": 0.40112987, "token_acc": 0.82824427, "grad_norm": 3.52686667, "learning_rate": 5.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022381, "epoch": 0.86066734, "global_step/max_steps": "1064/1237", "percentage": "86.01%", "elapsed_time": "13h 12m 14s", "remaining_time": "2h 8m 48s"}
{"loss": 0.38234216, "token_acc": 0.85555556, "grad_norm": 1.91266227, "learning_rate": 5.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022381, "epoch": 0.86147624, "global_step/max_steps": "1065/1237", "percentage": "86.10%", "elapsed_time": "13h 12m 58s", "remaining_time": "2h 8m 3s"}
{"loss": 0.41584277, "token_acc": 0.896, "grad_norm": 1.9851644, "learning_rate": 5.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022382, "epoch": 0.86228514, "global_step/max_steps": "1066/1237", "percentage": "86.18%", "elapsed_time": "13h 13m 41s", "remaining_time": "2h 7m 19s"}
{"loss": 0.38530648, "token_acc": 0.82016349, "grad_norm": 2.15814161, "learning_rate": 5.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022382, "epoch": 0.86309403, "global_step/max_steps": "1067/1237", "percentage": "86.26%", "elapsed_time": "13h 14m 25s", "remaining_time": "2h 6m 34s"}
{"loss": 0.37440175, "token_acc": 0.86936937, "grad_norm": 2.00386667, "learning_rate": 5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022382, "epoch": 0.86390293, "global_step/max_steps": "1068/1237", "percentage": "86.34%", "elapsed_time": "13h 15m 9s", "remaining_time": "2h 5m 49s"}
{"loss": 0.37950397, "token_acc": 0.83886256, "grad_norm": 3.35797024, "learning_rate": 5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022383, "epoch": 0.86471183, "global_step/max_steps": "1069/1237", "percentage": "86.42%", "elapsed_time": "13h 15m 53s", "remaining_time": "2h 5m 4s"}
{"loss": 0.35196787, "token_acc": 0.83856502, "grad_norm": 2.14182854, "learning_rate": 4.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022383, "epoch": 0.86552073, "global_step/max_steps": "1070/1237", "percentage": "86.50%", "elapsed_time": "13h 16m 37s", "remaining_time": "2h 4m 19s"}
{"loss": 0.33127582, "token_acc": 0.89122807, "grad_norm": 2.06099749, "learning_rate": 4.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022384, "epoch": 0.86632963, "global_step/max_steps": "1071/1237", "percentage": "86.58%", "elapsed_time": "13h 17m 21s", "remaining_time": "2h 3m 35s"}
{"loss": 0.40163288, "token_acc": 0.84046693, "grad_norm": 2.25010824, "learning_rate": 4.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022384, "epoch": 0.86713852, "global_step/max_steps": "1072/1237", "percentage": "86.66%", "elapsed_time": "13h 18m 5s", "remaining_time": "2h 2m 50s"}
{"loss": 0.30706912, "token_acc": 0.89285714, "grad_norm": 1.59635615, "learning_rate": 4.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022384, "epoch": 0.86794742, "global_step/max_steps": "1073/1237", "percentage": "86.74%", "elapsed_time": "13h 18m 48s", "remaining_time": "2h 2m 5s"}
{"loss": 0.32245371, "token_acc": 0.87258687, "grad_norm": 2.32116485, "learning_rate": 4.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022385, "epoch": 0.86875632, "global_step/max_steps": "1074/1237", "percentage": "86.82%", "elapsed_time": "13h 19m 32s", "remaining_time": "2h 1m 20s"}
{"loss": 0.32412297, "token_acc": 0.94736842, "grad_norm": 1.91749847, "learning_rate": 4.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022385, "epoch": 0.86956522, "global_step/max_steps": "1075/1237", "percentage": "86.90%", "elapsed_time": "13h 20m 16s", "remaining_time": "2h 0m 35s"}
{"loss": 0.29983228, "token_acc": 0.91085271, "grad_norm": 1.67494428, "learning_rate": 4.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022386, "epoch": 0.87037412, "global_step/max_steps": "1076/1237", "percentage": "86.98%", "elapsed_time": "13h 20m 59s", "remaining_time": "1h 59m 51s"}
{"loss": 0.35020307, "token_acc": 0.86029412, "grad_norm": 1.96114337, "learning_rate": 4.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022386, "epoch": 0.87118301, "global_step/max_steps": "1077/1237", "percentage": "87.07%", "elapsed_time": "13h 21m 43s", "remaining_time": "1h 59m 6s"}
{"loss": 0.39019766, "token_acc": 0.89583333, "grad_norm": 2.28464317, "learning_rate": 4.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022386, "epoch": 0.87199191, "global_step/max_steps": "1078/1237", "percentage": "87.15%", "elapsed_time": "13h 22m 27s", "remaining_time": "1h 58m 21s"}
{"loss": 0.37344304, "token_acc": 0.91631799, "grad_norm": 2.4905889, "learning_rate": 4.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022387, "epoch": 0.87280081, "global_step/max_steps": "1079/1237", "percentage": "87.23%", "elapsed_time": "13h 23m 11s", "remaining_time": "1h 57m 36s"}
{"loss": 0.32601202, "token_acc": 0.85858586, "grad_norm": 5.21369314, "learning_rate": 4.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022387, "epoch": 0.87360971, "global_step/max_steps": "1080/1237", "percentage": "87.31%", "elapsed_time": "13h 23m 55s", "remaining_time": "1h 56m 52s"}
{"loss": 0.36192968, "token_acc": 0.89150943, "grad_norm": 2.62857723, "learning_rate": 4.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022387, "epoch": 0.8744186, "global_step/max_steps": "1081/1237", "percentage": "87.39%", "elapsed_time": "13h 24m 39s", "remaining_time": "1h 56m 7s"}
{"loss": 0.3592591, "token_acc": 0.83122363, "grad_norm": 2.0130198, "learning_rate": 4.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022388, "epoch": 0.8752275, "global_step/max_steps": "1082/1237", "percentage": "87.47%", "elapsed_time": "13h 25m 23s", "remaining_time": "1h 55m 22s"}
{"loss": 0.34093332, "token_acc": 0.85430464, "grad_norm": 1.79541945, "learning_rate": 4.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022388, "epoch": 0.8760364, "global_step/max_steps": "1083/1237", "percentage": "87.55%", "elapsed_time": "13h 26m 7s", "remaining_time": "1h 54m 37s"}
{"loss": 0.41289991, "token_acc": 0.85, "grad_norm": 2.55926681, "learning_rate": 4.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022389, "epoch": 0.8768453, "global_step/max_steps": "1084/1237", "percentage": "87.63%", "elapsed_time": "13h 26m 51s", "remaining_time": "1h 53m 52s"}
{"loss": 0.37679356, "token_acc": 0.85236769, "grad_norm": 1.89659977, "learning_rate": 4.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022389, "epoch": 0.8776542, "global_step/max_steps": "1085/1237", "percentage": "87.71%", "elapsed_time": "13h 27m 35s", "remaining_time": "1h 53m 8s"}
{"loss": 0.39731586, "token_acc": 0.86784141, "grad_norm": 2.41213942, "learning_rate": 4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022389, "epoch": 0.87846309, "global_step/max_steps": "1086/1237", "percentage": "87.79%", "elapsed_time": "13h 28m 18s", "remaining_time": "1h 52m 23s"}
{"loss": 0.35584718, "token_acc": 0.85616438, "grad_norm": 1.82686019, "learning_rate": 4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02239, "epoch": 0.87927199, "global_step/max_steps": "1087/1237", "percentage": "87.87%", "elapsed_time": "13h 29m 2s", "remaining_time": "1h 51m 38s"}
{"loss": 0.37817463, "token_acc": 0.86808511, "grad_norm": 2.15222096, "learning_rate": 3.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02239, "epoch": 0.88008089, "global_step/max_steps": "1088/1237", "percentage": "87.95%", "elapsed_time": "13h 29m 46s", "remaining_time": "1h 50m 53s"}
{"loss": 0.33031124, "token_acc": 0.92035398, "grad_norm": 1.80552316, "learning_rate": 3.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02239, "epoch": 0.88088979, "global_step/max_steps": "1089/1237", "percentage": "88.04%", "elapsed_time": "13h 30m 30s", "remaining_time": "1h 50m 9s"}
{"loss": 0.32658106, "token_acc": 0.9009901, "grad_norm": 1.82762468, "learning_rate": 3.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022391, "epoch": 0.88169869, "global_step/max_steps": "1090/1237", "percentage": "88.12%", "elapsed_time": "13h 31m 14s", "remaining_time": "1h 49m 24s"}
{"loss": 0.3983362, "token_acc": 0.91666667, "grad_norm": 2.11860466, "learning_rate": 3.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022391, "epoch": 0.88250758, "global_step/max_steps": "1091/1237", "percentage": "88.20%", "elapsed_time": "13h 31m 58s", "remaining_time": "1h 48m 39s"}
{"loss": 0.34843603, "token_acc": 0.81443299, "grad_norm": 2.21942234, "learning_rate": 3.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022391, "epoch": 0.88331648, "global_step/max_steps": "1092/1237", "percentage": "88.28%", "elapsed_time": "13h 32m 42s", "remaining_time": "1h 47m 54s"}
{"loss": 0.37175041, "token_acc": 0.90438247, "grad_norm": 1.75863791, "learning_rate": 3.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022392, "epoch": 0.88412538, "global_step/max_steps": "1093/1237", "percentage": "88.36%", "elapsed_time": "13h 33m 26s", "remaining_time": "1h 47m 10s"}
{"loss": 0.33724552, "token_acc": 0.89428571, "grad_norm": 1.73045492, "learning_rate": 3.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022392, "epoch": 0.88493428, "global_step/max_steps": "1094/1237", "percentage": "88.44%", "elapsed_time": "13h 34m 9s", "remaining_time": "1h 46m 25s"}
{"loss": 0.40413105, "token_acc": 0.89224138, "grad_norm": 1.79724872, "learning_rate": 3.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022393, "epoch": 0.88574317, "global_step/max_steps": "1095/1237", "percentage": "88.52%", "elapsed_time": "13h 34m 53s", "remaining_time": "1h 45m 40s"}
{"loss": 0.42618087, "token_acc": 0.89903846, "grad_norm": 2.41880393, "learning_rate": 3.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022393, "epoch": 0.88655207, "global_step/max_steps": "1096/1237", "percentage": "88.60%", "elapsed_time": "13h 35m 37s", "remaining_time": "1h 44m 55s"}
{"loss": 0.39057046, "token_acc": 0.93461538, "grad_norm": 2.61658025, "learning_rate": 3.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022394, "epoch": 0.88736097, "global_step/max_steps": "1097/1237", "percentage": "88.68%", "elapsed_time": "13h 36m 20s", "remaining_time": "1h 44m 10s"}
{"loss": 0.4288356, "token_acc": 0.87452471, "grad_norm": 1.82188034, "learning_rate": 3.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022394, "epoch": 0.88816987, "global_step/max_steps": "1098/1237", "percentage": "88.76%", "elapsed_time": "13h 37m 4s", "remaining_time": "1h 43m 26s"}
{"loss": 0.36739591, "token_acc": 0.89873418, "grad_norm": 1.97976077, "learning_rate": 3.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022394, "epoch": 0.88897877, "global_step/max_steps": "1099/1237", "percentage": "88.84%", "elapsed_time": "13h 37m 48s", "remaining_time": "1h 42m 41s"}
{"loss": 0.43099868, "token_acc": 0.8531746, "grad_norm": 2.1694622, "learning_rate": 3.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022395, "epoch": 0.88978766, "global_step/max_steps": "1100/1237", "percentage": "88.92%", "elapsed_time": "13h 38m 32s", "remaining_time": "1h 41m 56s"}
{"loss": 0.38758337, "token_acc": 0.9, "grad_norm": 3.05795264, "learning_rate": 3.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022395, "epoch": 0.89059656, "global_step/max_steps": "1101/1237", "percentage": "89.01%", "elapsed_time": "13h 39m 16s", "remaining_time": "1h 41m 11s"}
{"loss": 0.33757049, "token_acc": 0.86175115, "grad_norm": 1.8207221, "learning_rate": 3.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022396, "epoch": 0.89140546, "global_step/max_steps": "1102/1237", "percentage": "89.09%", "elapsed_time": "13h 39m 59s", "remaining_time": "1h 40m 27s"}
{"loss": 0.36066344, "token_acc": 0.84942085, "grad_norm": 2.18241429, "learning_rate": 3.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022396, "epoch": 0.89221436, "global_step/max_steps": "1103/1237", "percentage": "89.17%", "elapsed_time": "13h 40m 43s", "remaining_time": "1h 39m 42s"}
{"loss": 0.39939043, "token_acc": 0.87654321, "grad_norm": 2.04680443, "learning_rate": 3.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022396, "epoch": 0.89302326, "global_step/max_steps": "1104/1237", "percentage": "89.25%", "elapsed_time": "13h 41m 27s", "remaining_time": "1h 38m 57s"}
{"loss": 0.35777053, "token_acc": 0.88038278, "grad_norm": 2.11021829, "learning_rate": 3.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022397, "epoch": 0.89383215, "global_step/max_steps": "1105/1237", "percentage": "89.33%", "elapsed_time": "13h 42m 11s", "remaining_time": "1h 38m 12s"}
{"loss": 0.32706207, "token_acc": 0.89891697, "grad_norm": 1.65385914, "learning_rate": 3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022397, "epoch": 0.89464105, "global_step/max_steps": "1106/1237", "percentage": "89.41%", "elapsed_time": "13h 42m 55s", "remaining_time": "1h 37m 28s"}
{"loss": 0.37314838, "token_acc": 0.8875, "grad_norm": 2.01910949, "learning_rate": 3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022397, "epoch": 0.89544995, "global_step/max_steps": "1107/1237", "percentage": "89.49%", "elapsed_time": "13h 43m 39s", "remaining_time": "1h 36m 43s"}
{"loss": 0.37925667, "token_acc": 0.84313725, "grad_norm": 1.9920696, "learning_rate": 2.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022398, "epoch": 0.89625885, "global_step/max_steps": "1108/1237", "percentage": "89.57%", "elapsed_time": "13h 44m 23s", "remaining_time": "1h 35m 58s"}
{"loss": 0.41340035, "token_acc": 0.80888889, "grad_norm": 4.28691578, "learning_rate": 2.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022398, "epoch": 0.89706775, "global_step/max_steps": "1109/1237", "percentage": "89.65%", "elapsed_time": "13h 45m 6s", "remaining_time": "1h 35m 14s"}
{"loss": 0.3089059, "token_acc": 0.85501859, "grad_norm": 1.73061287, "learning_rate": 2.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022398, "epoch": 0.89787664, "global_step/max_steps": "1110/1237", "percentage": "89.73%", "elapsed_time": "13h 45m 50s", "remaining_time": "1h 34m 29s"}
{"loss": 0.33643392, "token_acc": 0.87328767, "grad_norm": 2.02056837, "learning_rate": 2.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022399, "epoch": 0.89868554, "global_step/max_steps": "1111/1237", "percentage": "89.81%", "elapsed_time": "13h 46m 34s", "remaining_time": "1h 33m 44s"}
{"loss": 0.39632314, "token_acc": 0.88842975, "grad_norm": 2.18241262, "learning_rate": 2.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022399, "epoch": 0.89949444, "global_step/max_steps": "1112/1237", "percentage": "89.89%", "elapsed_time": "13h 47m 18s", "remaining_time": "1h 32m 59s"}
{"loss": 0.43140286, "token_acc": 0.87012987, "grad_norm": 2.20932794, "learning_rate": 2.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022399, "epoch": 0.90030334, "global_step/max_steps": "1113/1237", "percentage": "89.98%", "elapsed_time": "13h 48m 2s", "remaining_time": "1h 32m 15s"}
{"loss": 0.4068929, "token_acc": 0.88018433, "grad_norm": 4.87355709, "learning_rate": 2.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0224, "epoch": 0.90111223, "global_step/max_steps": "1114/1237", "percentage": "90.06%", "elapsed_time": "13h 48m 46s", "remaining_time": "1h 31m 30s"}
{"loss": 0.39763284, "token_acc": 0.88122605, "grad_norm": 2.00550127, "learning_rate": 2.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0224, "epoch": 0.90192113, "global_step/max_steps": "1115/1237", "percentage": "90.14%", "elapsed_time": "13h 49m 29s", "remaining_time": "1h 30m 45s"}
{"loss": 0.40250564, "token_acc": 0.8953168, "grad_norm": 1.95000577, "learning_rate": 2.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022401, "epoch": 0.90273003, "global_step/max_steps": "1116/1237", "percentage": "90.22%", "elapsed_time": "13h 50m 13s", "remaining_time": "1h 30m 0s"}
{"loss": 0.35562485, "token_acc": 0.87265918, "grad_norm": 1.87442589, "learning_rate": 2.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022401, "epoch": 0.90353893, "global_step/max_steps": "1117/1237", "percentage": "90.30%", "elapsed_time": "13h 50m 57s", "remaining_time": "1h 29m 16s"}
{"loss": 0.32878685, "token_acc": 0.89528796, "grad_norm": 1.81870198, "learning_rate": 2.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022401, "epoch": 0.90434783, "global_step/max_steps": "1118/1237", "percentage": "90.38%", "elapsed_time": "13h 51m 41s", "remaining_time": "1h 28m 31s"}
{"loss": 0.41921076, "token_acc": 0.84615385, "grad_norm": 2.08272076, "learning_rate": 2.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022402, "epoch": 0.90515672, "global_step/max_steps": "1119/1237", "percentage": "90.46%", "elapsed_time": "13h 52m 25s", "remaining_time": "1h 27m 46s"}
{"loss": 0.34549439, "token_acc": 0.91449814, "grad_norm": 2.06037569, "learning_rate": 2.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022402, "epoch": 0.90596562, "global_step/max_steps": "1120/1237", "percentage": "90.54%", "elapsed_time": "13h 53m 9s", "remaining_time": "1h 27m 2s"}
{"loss": 0.31142184, "token_acc": 0.86785714, "grad_norm": 1.80842185, "learning_rate": 2.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022402, "epoch": 0.90677452, "global_step/max_steps": "1121/1237", "percentage": "90.62%", "elapsed_time": "13h 53m 52s", "remaining_time": "1h 26m 17s"}
{"loss": 0.37168685, "token_acc": 0.88196721, "grad_norm": 2.01232719, "learning_rate": 2.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022403, "epoch": 0.90758342, "global_step/max_steps": "1122/1237", "percentage": "90.70%", "elapsed_time": "13h 54m 37s", "remaining_time": "1h 25m 32s"}
{"loss": 0.37100244, "token_acc": 0.85555556, "grad_norm": 2.04494858, "learning_rate": 2.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022403, "epoch": 0.90839232, "global_step/max_steps": "1123/1237", "percentage": "90.78%", "elapsed_time": "13h 55m 21s", "remaining_time": "1h 24m 47s"}
{"loss": 0.34039909, "token_acc": 0.925, "grad_norm": 2.00921798, "learning_rate": 2.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022403, "epoch": 0.90920121, "global_step/max_steps": "1124/1237", "percentage": "90.86%", "elapsed_time": "13h 56m 4s", "remaining_time": "1h 24m 3s"}
{"loss": 0.37321049, "token_acc": 0.93085106, "grad_norm": 2.18062568, "learning_rate": 2.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022404, "epoch": 0.91001011, "global_step/max_steps": "1125/1237", "percentage": "90.95%", "elapsed_time": "13h 56m 48s", "remaining_time": "1h 23m 18s"}
{"loss": 0.37797797, "token_acc": 0.85714286, "grad_norm": 2.13333011, "learning_rate": 2.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022404, "epoch": 0.91081901, "global_step/max_steps": "1126/1237", "percentage": "91.03%", "elapsed_time": "13h 57m 32s", "remaining_time": "1h 22m 33s"}
{"loss": 0.34206721, "token_acc": 0.88979592, "grad_norm": 2.24008369, "learning_rate": 2.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022404, "epoch": 0.91162791, "global_step/max_steps": "1127/1237", "percentage": "91.11%", "elapsed_time": "13h 58m 16s", "remaining_time": "1h 21m 49s"}
{"loss": 0.38926405, "token_acc": 0.88311688, "grad_norm": 2.03265834, "learning_rate": 2.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022405, "epoch": 0.9124368, "global_step/max_steps": "1128/1237", "percentage": "91.19%", "elapsed_time": "13h 59m 0s", "remaining_time": "1h 21m 4s"}
{"loss": 0.33542943, "token_acc": 0.8740458, "grad_norm": 2.20674539, "learning_rate": 2.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022405, "epoch": 0.9132457, "global_step/max_steps": "1129/1237", "percentage": "91.27%", "elapsed_time": "13h 59m 43s", "remaining_time": "1h 20m 19s"}
{"loss": 0.35208935, "token_acc": 0.86885246, "grad_norm": 2.05278134, "learning_rate": 2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022405, "epoch": 0.9140546, "global_step/max_steps": "1130/1237", "percentage": "91.35%", "elapsed_time": "14h 0m 28s", "remaining_time": "1h 19m 35s"}
{"loss": 0.33709979, "token_acc": 0.89847716, "grad_norm": 7.50117731, "learning_rate": 2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022406, "epoch": 0.9148635, "global_step/max_steps": "1131/1237", "percentage": "91.43%", "elapsed_time": "14h 1m 11s", "remaining_time": "1h 18m 50s"}
{"loss": 0.32340959, "token_acc": 0.86818182, "grad_norm": 2.22448087, "learning_rate": 2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022406, "epoch": 0.9156724, "global_step/max_steps": "1132/1237", "percentage": "91.51%", "elapsed_time": "14h 1m 55s", "remaining_time": "1h 18m 5s"}
{"loss": 0.39126191, "token_acc": 0.90943396, "grad_norm": 1.94608951, "learning_rate": 1.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022406, "epoch": 0.91648129, "global_step/max_steps": "1133/1237", "percentage": "91.59%", "elapsed_time": "14h 2m 39s", "remaining_time": "1h 17m 20s"}
{"loss": 0.37995028, "token_acc": 0.8557047, "grad_norm": 11.59741974, "learning_rate": 1.9e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022407, "epoch": 0.91729019, "global_step/max_steps": "1134/1237", "percentage": "91.67%", "elapsed_time": "14h 3m 23s", "remaining_time": "1h 16m 36s"}
{"loss": 0.35058713, "token_acc": 0.92491468, "grad_norm": 1.78921723, "learning_rate": 1.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022407, "epoch": 0.91809909, "global_step/max_steps": "1135/1237", "percentage": "91.75%", "elapsed_time": "14h 4m 7s", "remaining_time": "1h 15m 51s"}
{"loss": 0.37491977, "token_acc": 0.88643533, "grad_norm": 1.91908014, "learning_rate": 1.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022407, "epoch": 0.91890799, "global_step/max_steps": "1136/1237", "percentage": "91.84%", "elapsed_time": "14h 4m 50s", "remaining_time": "1h 15m 6s"}
{"loss": 0.3757126, "token_acc": 0.89340102, "grad_norm": 2.74163127, "learning_rate": 1.8e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022408, "epoch": 0.91971689, "global_step/max_steps": "1137/1237", "percentage": "91.92%", "elapsed_time": "14h 5m 34s", "remaining_time": "1h 14m 22s"}
{"loss": 0.36165723, "token_acc": 0.9, "grad_norm": 1.85664511, "learning_rate": 1.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022408, "epoch": 0.92052578, "global_step/max_steps": "1138/1237", "percentage": "92.00%", "elapsed_time": "14h 6m 18s", "remaining_time": "1h 13m 37s"}
{"loss": 0.37806672, "token_acc": 0.87234043, "grad_norm": 2.68771148, "learning_rate": 1.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022409, "epoch": 0.92133468, "global_step/max_steps": "1139/1237", "percentage": "92.08%", "elapsed_time": "14h 7m 2s", "remaining_time": "1h 12m 52s"}
{"loss": 0.35959312, "token_acc": 0.87908497, "grad_norm": 1.69640434, "learning_rate": 1.7e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022409, "epoch": 0.92214358, "global_step/max_steps": "1140/1237", "percentage": "92.16%", "elapsed_time": "14h 7m 46s", "remaining_time": "1h 12m 8s"}
{"loss": 0.34360719, "token_acc": 0.90638298, "grad_norm": 2.04033947, "learning_rate": 1.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022409, "epoch": 0.92295248, "global_step/max_steps": "1141/1237", "percentage": "92.24%", "elapsed_time": "14h 8m 29s", "remaining_time": "1h 11m 23s"}
{"loss": 0.3633022, "token_acc": 0.85858586, "grad_norm": 1.97904932, "learning_rate": 1.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02241, "epoch": 0.92376138, "global_step/max_steps": "1142/1237", "percentage": "92.32%", "elapsed_time": "14h 9m 13s", "remaining_time": "1h 10m 38s"}
{"loss": 0.33496428, "token_acc": 0.8650519, "grad_norm": 1.87899995, "learning_rate": 1.6e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02241, "epoch": 0.92457027, "global_step/max_steps": "1143/1237", "percentage": "92.40%", "elapsed_time": "14h 9m 57s", "remaining_time": "1h 9m 54s"}
{"loss": 0.3546567, "token_acc": 0.87817259, "grad_norm": 1.99732995, "learning_rate": 1.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02241, "epoch": 0.92537917, "global_step/max_steps": "1144/1237", "percentage": "92.48%", "elapsed_time": "14h 10m 41s", "remaining_time": "1h 9m 9s"}
{"loss": 0.34872985, "token_acc": 0.87421384, "grad_norm": 1.93988931, "learning_rate": 1.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022411, "epoch": 0.92618807, "global_step/max_steps": "1145/1237", "percentage": "92.56%", "elapsed_time": "14h 11m 25s", "remaining_time": "1h 8m 24s"}
{"loss": 0.36440635, "token_acc": 0.89451477, "grad_norm": 1.95195246, "learning_rate": 1.5e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022411, "epoch": 0.92699697, "global_step/max_steps": "1146/1237", "percentage": "92.64%", "elapsed_time": "14h 12m 9s", "remaining_time": "1h 7m 40s"}
{"loss": 0.42128363, "token_acc": 0.87755102, "grad_norm": 2.40770936, "learning_rate": 1.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022411, "epoch": 0.92780586, "global_step/max_steps": "1147/1237", "percentage": "92.72%", "elapsed_time": "14h 12m 53s", "remaining_time": "1h 6m 55s"}
{"loss": 0.37005204, "token_acc": 0.84645669, "grad_norm": 2.0536437, "learning_rate": 1.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022412, "epoch": 0.92861476, "global_step/max_steps": "1148/1237", "percentage": "92.81%", "elapsed_time": "14h 13m 37s", "remaining_time": "1h 6m 10s"}
{"loss": 0.34891284, "token_acc": 0.87958115, "grad_norm": 2.15467739, "learning_rate": 1.4e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022412, "epoch": 0.92942366, "global_step/max_steps": "1149/1237", "percentage": "92.89%", "elapsed_time": "14h 14m 20s", "remaining_time": "1h 5m 25s"}
{"loss": 0.36078182, "token_acc": 0.88644689, "grad_norm": 1.87408996, "learning_rate": 1.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022412, "epoch": 0.93023256, "global_step/max_steps": "1150/1237", "percentage": "92.97%", "elapsed_time": "14h 15m 4s", "remaining_time": "1h 4m 41s"}
{"loss": 0.37234372, "token_acc": 0.86912752, "grad_norm": 2.1461277, "learning_rate": 1.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022413, "epoch": 0.93104146, "global_step/max_steps": "1151/1237", "percentage": "93.05%", "elapsed_time": "14h 15m 48s", "remaining_time": "1h 3m 56s"}
{"loss": 0.33931169, "token_acc": 0.9015544, "grad_norm": 1.78701544, "learning_rate": 1.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022413, "epoch": 0.93185035, "global_step/max_steps": "1152/1237", "percentage": "93.13%", "elapsed_time": "14h 16m 32s", "remaining_time": "1h 3m 11s"}
{"loss": 0.34008849, "token_acc": 0.87007874, "grad_norm": 2.21139479, "learning_rate": 1.3e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022413, "epoch": 0.93265925, "global_step/max_steps": "1153/1237", "percentage": "93.21%", "elapsed_time": "14h 17m 16s", "remaining_time": "1h 2m 27s"}
{"loss": 0.31053483, "token_acc": 0.85358255, "grad_norm": 1.79427898, "learning_rate": 1.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022414, "epoch": 0.93346815, "global_step/max_steps": "1154/1237", "percentage": "93.29%", "elapsed_time": "14h 17m 59s", "remaining_time": "1h 1m 42s"}
{"loss": 0.43698049, "token_acc": 0.87136929, "grad_norm": 2.59899712, "learning_rate": 1.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022414, "epoch": 0.93427705, "global_step/max_steps": "1155/1237", "percentage": "93.37%", "elapsed_time": "14h 18m 43s", "remaining_time": "1h 0m 57s"}
{"loss": 0.34389889, "token_acc": 0.87360595, "grad_norm": 1.71064723, "learning_rate": 1.2e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022414, "epoch": 0.93508595, "global_step/max_steps": "1156/1237", "percentage": "93.45%", "elapsed_time": "14h 19m 27s", "remaining_time": "1h 0m 13s"}
{"loss": 0.37682933, "token_acc": 0.92708333, "grad_norm": 1.86874557, "learning_rate": 1.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022415, "epoch": 0.93589484, "global_step/max_steps": "1157/1237", "percentage": "93.53%", "elapsed_time": "14h 20m 11s", "remaining_time": "59m 28s"}
{"loss": 0.34121725, "token_acc": 0.875, "grad_norm": 1.58316636, "learning_rate": 1.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022415, "epoch": 0.93670374, "global_step/max_steps": "1158/1237", "percentage": "93.61%", "elapsed_time": "14h 20m 55s", "remaining_time": "58m 43s"}
{"loss": 0.41361609, "token_acc": 0.90944882, "grad_norm": 1.8993336, "learning_rate": 1.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022415, "epoch": 0.93751264, "global_step/max_steps": "1159/1237", "percentage": "93.69%", "elapsed_time": "14h 21m 39s", "remaining_time": "57m 59s"}
{"loss": 0.37553841, "token_acc": 0.91729323, "grad_norm": 3.24960232, "learning_rate": 1.1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022416, "epoch": 0.93832154, "global_step/max_steps": "1160/1237", "percentage": "93.78%", "elapsed_time": "14h 22m 23s", "remaining_time": "57m 14s"}
{"loss": 0.39365232, "token_acc": 0.8974359, "grad_norm": 2.13332534, "learning_rate": 1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022416, "epoch": 0.93913043, "global_step/max_steps": "1161/1237", "percentage": "93.86%", "elapsed_time": "14h 23m 6s", "remaining_time": "56m 30s"}
{"loss": 0.40892741, "token_acc": 0.92173913, "grad_norm": 2.6341114, "learning_rate": 1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022417, "epoch": 0.93993933, "global_step/max_steps": "1162/1237", "percentage": "93.94%", "elapsed_time": "14h 23m 50s", "remaining_time": "55m 45s"}
{"loss": 0.36974001, "token_acc": 0.86144578, "grad_norm": 1.81603825, "learning_rate": 1e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022417, "epoch": 0.94074823, "global_step/max_steps": "1163/1237", "percentage": "94.02%", "elapsed_time": "14h 24m 34s", "remaining_time": "55m 0s"}
{"loss": 0.38629055, "token_acc": 0.87007874, "grad_norm": 2.17397904, "learning_rate": 9e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022417, "epoch": 0.94155713, "global_step/max_steps": "1164/1237", "percentage": "94.10%", "elapsed_time": "14h 25m 18s", "remaining_time": "54m 16s"}
{"loss": 0.42689246, "token_acc": 0.88477366, "grad_norm": 2.9738605, "learning_rate": 9e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.94236603, "global_step/max_steps": "1165/1237", "percentage": "94.18%", "elapsed_time": "14h 26m 1s", "remaining_time": "53m 31s"}
{"loss": 0.38278168, "token_acc": 0.87654321, "grad_norm": 2.26999474, "learning_rate": 9e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.94317492, "global_step/max_steps": "1166/1237", "percentage": "94.26%", "elapsed_time": "14h 26m 45s", "remaining_time": "52m 46s"}
{"loss": 0.39769033, "token_acc": 0.83386581, "grad_norm": 2.01402855, "learning_rate": 9e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.94398382, "global_step/max_steps": "1167/1237", "percentage": "94.34%", "elapsed_time": "14h 27m 29s", "remaining_time": "52m 2s"}
{"loss": 0.38371539, "token_acc": 0.87666667, "grad_norm": 2.36351299, "learning_rate": 8e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.94479272, "global_step/max_steps": "1168/1237", "percentage": "94.42%", "elapsed_time": "14h 28m 13s", "remaining_time": "51m 17s"}
{"loss": 0.3726697, "token_acc": 0.88288288, "grad_norm": 2.52572322, "learning_rate": 8e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022419, "epoch": 0.94560162, "global_step/max_steps": "1169/1237", "percentage": "94.50%", "elapsed_time": "14h 28m 57s", "remaining_time": "50m 32s"}
{"loss": 0.32720375, "token_acc": 0.88501742, "grad_norm": 2.12830901, "learning_rate": 8e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022419, "epoch": 0.94641052, "global_step/max_steps": "1170/1237", "percentage": "94.58%", "elapsed_time": "14h 29m 41s", "remaining_time": "49m 48s"}
{"loss": 0.3802765, "token_acc": 0.89565217, "grad_norm": 2.26103592, "learning_rate": 8e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022419, "epoch": 0.94721941, "global_step/max_steps": "1171/1237", "percentage": "94.66%", "elapsed_time": "14h 30m 24s", "remaining_time": "49m 3s"}
{"loss": 0.37682784, "token_acc": 0.86808511, "grad_norm": 1.92170489, "learning_rate": 8e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02242, "epoch": 0.94802831, "global_step/max_steps": "1172/1237", "percentage": "94.75%", "elapsed_time": "14h 31m 8s", "remaining_time": "48m 18s"}
{"loss": 0.34042895, "token_acc": 0.83555556, "grad_norm": 2.0315876, "learning_rate": 7e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02242, "epoch": 0.94883721, "global_step/max_steps": "1173/1237", "percentage": "94.83%", "elapsed_time": "14h 31m 52s", "remaining_time": "47m 34s"}
{"loss": 0.36752051, "token_acc": 0.87583893, "grad_norm": 1.8540045, "learning_rate": 7e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02242, "epoch": 0.94964611, "global_step/max_steps": "1174/1237", "percentage": "94.91%", "elapsed_time": "14h 32m 36s", "remaining_time": "46m 49s"}
{"loss": 0.37108618, "token_acc": 0.83678756, "grad_norm": 2.20739055, "learning_rate": 7e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022421, "epoch": 0.95045501, "global_step/max_steps": "1175/1237", "percentage": "94.99%", "elapsed_time": "14h 33m 20s", "remaining_time": "46m 4s"}
{"loss": 0.37514052, "token_acc": 0.86166008, "grad_norm": 2.11608744, "learning_rate": 7e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022421, "epoch": 0.9512639, "global_step/max_steps": "1176/1237", "percentage": "95.07%", "elapsed_time": "14h 34m 4s", "remaining_time": "45m 20s"}
{"loss": 0.33210817, "token_acc": 0.93140794, "grad_norm": 1.80977714, "learning_rate": 6e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022421, "epoch": 0.9520728, "global_step/max_steps": "1177/1237", "percentage": "95.15%", "elapsed_time": "14h 34m 48s", "remaining_time": "44m 35s"}
{"loss": 0.37177271, "token_acc": 0.86394558, "grad_norm": 1.62789166, "learning_rate": 6e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022422, "epoch": 0.9528817, "global_step/max_steps": "1178/1237", "percentage": "95.23%", "elapsed_time": "14h 35m 31s", "remaining_time": "43m 51s"}
{"loss": 0.35759437, "token_acc": 0.90784983, "grad_norm": 2.61158752, "learning_rate": 6e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022422, "epoch": 0.9536906, "global_step/max_steps": "1179/1237", "percentage": "95.31%", "elapsed_time": "14h 36m 15s", "remaining_time": "43m 6s"}
{"loss": 0.37362659, "token_acc": 0.84545455, "grad_norm": 2.06580472, "learning_rate": 6e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022422, "epoch": 0.95449949, "global_step/max_steps": "1180/1237", "percentage": "95.39%", "elapsed_time": "14h 36m 59s", "remaining_time": "42m 21s"}
{"loss": 0.37239736, "token_acc": 0.85507246, "grad_norm": 2.23612118, "learning_rate": 6e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022423, "epoch": 0.95530839, "global_step/max_steps": "1181/1237", "percentage": "95.47%", "elapsed_time": "14h 37m 43s", "remaining_time": "41m 37s"}
{"loss": 0.34809202, "token_acc": 0.87096774, "grad_norm": 1.87403047, "learning_rate": 5e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022423, "epoch": 0.95611729, "global_step/max_steps": "1182/1237", "percentage": "95.55%", "elapsed_time": "14h 38m 27s", "remaining_time": "40m 52s"}
{"loss": 0.3483564, "token_acc": 0.88666667, "grad_norm": 2.232054, "learning_rate": 5e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022423, "epoch": 0.95692619, "global_step/max_steps": "1183/1237", "percentage": "95.63%", "elapsed_time": "14h 39m 11s", "remaining_time": "40m 7s"}
{"loss": 0.33139706, "token_acc": 0.91101695, "grad_norm": 1.76209378, "learning_rate": 5e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.95773509, "global_step/max_steps": "1184/1237", "percentage": "95.72%", "elapsed_time": "14h 39m 54s", "remaining_time": "39m 23s"}
{"loss": 0.35725641, "token_acc": 0.88425926, "grad_norm": 1.86908197, "learning_rate": 5e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.95854398, "global_step/max_steps": "1185/1237", "percentage": "95.80%", "elapsed_time": "14h 40m 38s", "remaining_time": "38m 38s"}
{"loss": 0.39302319, "token_acc": 0.91071429, "grad_norm": 2.51787496, "learning_rate": 5e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.95935288, "global_step/max_steps": "1186/1237", "percentage": "95.88%", "elapsed_time": "14h 41m 22s", "remaining_time": "37m 54s"}
{"loss": 0.38679314, "token_acc": 0.88194444, "grad_norm": 2.31681585, "learning_rate": 4e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022425, "epoch": 0.96016178, "global_step/max_steps": "1187/1237", "percentage": "95.96%", "elapsed_time": "14h 42m 6s", "remaining_time": "37m 9s"}
{"loss": 0.39929396, "token_acc": 0.83928571, "grad_norm": 2.48596716, "learning_rate": 4e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022425, "epoch": 0.96097068, "global_step/max_steps": "1188/1237", "percentage": "96.04%", "elapsed_time": "14h 42m 49s", "remaining_time": "36m 24s"}
{"loss": 0.49971676, "token_acc": 0.81016949, "grad_norm": 3.00366974, "learning_rate": 4e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022425, "epoch": 0.96177958, "global_step/max_steps": "1189/1237", "percentage": "96.12%", "elapsed_time": "14h 43m 33s", "remaining_time": "35m 40s"}
{"loss": 0.38460368, "token_acc": 0.83193277, "grad_norm": 2.21830773, "learning_rate": 4e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022426, "epoch": 0.96258847, "global_step/max_steps": "1190/1237", "percentage": "96.20%", "elapsed_time": "14h 44m 17s", "remaining_time": "34m 55s"}
{"loss": 0.48450536, "token_acc": 0.8, "grad_norm": 2.1675849, "learning_rate": 4e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022426, "epoch": 0.96339737, "global_step/max_steps": "1191/1237", "percentage": "96.28%", "elapsed_time": "14h 45m 1s", "remaining_time": "34m 10s"}
{"loss": 0.40070269, "token_acc": 0.84363636, "grad_norm": 1.88611031, "learning_rate": 4e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022426, "epoch": 0.96420627, "global_step/max_steps": "1192/1237", "percentage": "96.36%", "elapsed_time": "14h 45m 45s", "remaining_time": "33m 26s"}
{"loss": 0.39655533, "token_acc": 0.87912088, "grad_norm": 2.53333545, "learning_rate": 3e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.96501517, "global_step/max_steps": "1193/1237", "percentage": "96.44%", "elapsed_time": "14h 46m 29s", "remaining_time": "32m 41s"}
{"loss": 0.35347798, "token_acc": 0.89082969, "grad_norm": 2.10633087, "learning_rate": 3e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.96582406, "global_step/max_steps": "1194/1237", "percentage": "96.52%", "elapsed_time": "14h 47m 12s", "remaining_time": "31m 57s"}
{"loss": 0.39233378, "token_acc": 0.87748344, "grad_norm": 2.08296132, "learning_rate": 3e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.96663296, "global_step/max_steps": "1195/1237", "percentage": "96.60%", "elapsed_time": "14h 47m 57s", "remaining_time": "31m 12s"}
{"loss": 0.35899073, "token_acc": 0.88194444, "grad_norm": 1.87987268, "learning_rate": 3e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.96744186, "global_step/max_steps": "1196/1237", "percentage": "96.69%", "elapsed_time": "14h 48m 40s", "remaining_time": "30m 27s"}
{"loss": 0.39285976, "token_acc": 0.86538462, "grad_norm": 13.92668915, "learning_rate": 3e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.96825076, "global_step/max_steps": "1197/1237", "percentage": "96.77%", "elapsed_time": "14h 49m 24s", "remaining_time": "29m 43s"}
{"loss": 0.34477738, "token_acc": 0.90909091, "grad_norm": 1.90696073, "learning_rate": 3e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.96905966, "global_step/max_steps": "1198/1237", "percentage": "96.85%", "elapsed_time": "14h 50m 8s", "remaining_time": "28m 58s"}
{"loss": 0.35486794, "token_acc": 0.86528497, "grad_norm": 2.38531709, "learning_rate": 3e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.96986855, "global_step/max_steps": "1199/1237", "percentage": "96.93%", "elapsed_time": "14h 50m 52s", "remaining_time": "28m 14s"}
{"loss": 0.35953414, "token_acc": 0.88793103, "grad_norm": 2.18374205, "learning_rate": 2e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.97067745, "global_step/max_steps": "1200/1237", "percentage": "97.01%", "elapsed_time": "14h 51m 36s", "remaining_time": "27m 29s"}
{"loss": 0.39095747, "token_acc": 0.88617886, "grad_norm": 2.10328794, "learning_rate": 2e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.97148635, "global_step/max_steps": "1201/1237", "percentage": "97.09%", "elapsed_time": "14h 52m 20s", "remaining_time": "26m 44s"}
{"loss": 0.30160421, "token_acc": 0.85714286, "grad_norm": 2.15823674, "learning_rate": 2e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.97229525, "global_step/max_steps": "1202/1237", "percentage": "97.17%", "elapsed_time": "14h 53m 3s", "remaining_time": "26m 0s"}
{"loss": 0.36447233, "token_acc": 0.84803922, "grad_norm": 2.04490638, "learning_rate": 2e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.97310415, "global_step/max_steps": "1203/1237", "percentage": "97.25%", "elapsed_time": "14h 53m 48s", "remaining_time": "25m 15s"}
{"loss": 0.43112487, "token_acc": 0.86075949, "grad_norm": 3.51833725, "learning_rate": 2e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.97391304, "global_step/max_steps": "1204/1237", "percentage": "97.33%", "elapsed_time": "14h 54m 31s", "remaining_time": "24m 31s"}
{"loss": 0.38468361, "token_acc": 0.86545455, "grad_norm": 2.14886737, "learning_rate": 2e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.97472194, "global_step/max_steps": "1205/1237", "percentage": "97.41%", "elapsed_time": "14h 55m 15s", "remaining_time": "23m 46s"}
{"loss": 0.35017377, "token_acc": 0.88554217, "grad_norm": 2.68802309, "learning_rate": 2e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.97553084, "global_step/max_steps": "1206/1237", "percentage": "97.49%", "elapsed_time": "14h 55m 59s", "remaining_time": "23m 1s"}
{"loss": 0.31531471, "token_acc": 0.86597938, "grad_norm": 2.02480292, "learning_rate": 2e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.97633974, "global_step/max_steps": "1207/1237", "percentage": "97.57%", "elapsed_time": "14h 56m 43s", "remaining_time": "22m 17s"}
{"loss": 0.36754471, "token_acc": 0.86363636, "grad_norm": 3.56921506, "learning_rate": 2e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.97714863, "global_step/max_steps": "1208/1237", "percentage": "97.66%", "elapsed_time": "14h 57m 27s", "remaining_time": "21m 32s"}
{"loss": 0.3895694, "token_acc": 0.89144737, "grad_norm": 1.96497047, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.97795753, "global_step/max_steps": "1209/1237", "percentage": "97.74%", "elapsed_time": "14h 58m 11s", "remaining_time": "20m 48s"}
{"loss": 0.37721056, "token_acc": 0.8963964, "grad_norm": 2.3865509, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.97876643, "global_step/max_steps": "1210/1237", "percentage": "97.82%", "elapsed_time": "14h 58m 54s", "remaining_time": "20m 3s"}
{"loss": 0.39102572, "token_acc": 0.8317757, "grad_norm": 9.27541256, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.97957533, "global_step/max_steps": "1211/1237", "percentage": "97.90%", "elapsed_time": "14h 59m 38s", "remaining_time": "19m 18s"}
{"loss": 0.37432483, "token_acc": 0.875, "grad_norm": 2.0313828, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.98038423, "global_step/max_steps": "1212/1237", "percentage": "97.98%", "elapsed_time": "15h 0m 22s", "remaining_time": "18m 34s"}
{"loss": 0.3433491, "token_acc": 0.88857143, "grad_norm": 1.96019924, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.98119312, "global_step/max_steps": "1213/1237", "percentage": "98.06%", "elapsed_time": "15h 1m 6s", "remaining_time": "17m 49s"}
{"loss": 0.38181922, "token_acc": 0.8989547, "grad_norm": 1.86768663, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.98200202, "global_step/max_steps": "1214/1237", "percentage": "98.14%", "elapsed_time": "15h 1m 50s", "remaining_time": "17m 5s"}
{"loss": 0.41843206, "token_acc": 0.84347826, "grad_norm": 2.43434811, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.98281092, "global_step/max_steps": "1215/1237", "percentage": "98.22%", "elapsed_time": "15h 2m 34s", "remaining_time": "16m 20s"}
{"loss": 0.40056366, "token_acc": 0.82105263, "grad_norm": 2.3009696, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.98361982, "global_step/max_steps": "1216/1237", "percentage": "98.30%", "elapsed_time": "15h 3m 18s", "remaining_time": "15m 35s"}
{"loss": 0.37496889, "token_acc": 0.92444444, "grad_norm": 4.76397753, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.98442872, "global_step/max_steps": "1217/1237", "percentage": "98.38%", "elapsed_time": "15h 4m 2s", "remaining_time": "14m 51s"}
{"loss": 0.37275022, "token_acc": 0.81932773, "grad_norm": 2.24719787, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.98523761, "global_step/max_steps": "1218/1237", "percentage": "98.46%", "elapsed_time": "15h 4m 46s", "remaining_time": "14m 6s"}
{"loss": 0.32791299, "token_acc": 0.86594203, "grad_norm": 1.75576985, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.98604651, "global_step/max_steps": "1219/1237", "percentage": "98.54%", "elapsed_time": "15h 5m 30s", "remaining_time": "13m 22s"}
{"loss": 0.37463176, "token_acc": 0.85608856, "grad_norm": 2.57175446, "learning_rate": 1e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.98685541, "global_step/max_steps": "1220/1237", "percentage": "98.63%", "elapsed_time": "15h 6m 14s", "remaining_time": "12m 37s"}
{"loss": 0.32435593, "token_acc": 0.8685446, "grad_norm": 3.50734639, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.98766431, "global_step/max_steps": "1221/1237", "percentage": "98.71%", "elapsed_time": "15h 6m 58s", "remaining_time": "11m 53s"}
{"loss": 0.38409415, "token_acc": 0.88888889, "grad_norm": 1.97655857, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.98847321, "global_step/max_steps": "1222/1237", "percentage": "98.79%", "elapsed_time": "15h 7m 42s", "remaining_time": "11m 8s"}
{"loss": 0.37164336, "token_acc": 0.88768116, "grad_norm": 1.88329077, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.9892821, "global_step/max_steps": "1223/1237", "percentage": "98.87%", "elapsed_time": "15h 8m 25s", "remaining_time": "10m 23s"}
{"loss": 0.32688415, "token_acc": 0.90038314, "grad_norm": 1.98319054, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.990091, "global_step/max_steps": "1224/1237", "percentage": "98.95%", "elapsed_time": "15h 9m 9s", "remaining_time": "9m 39s"}
{"loss": 0.33263713, "token_acc": 0.86695279, "grad_norm": 2.28123546, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.9908999, "global_step/max_steps": "1225/1237", "percentage": "99.03%", "elapsed_time": "15h 9m 53s", "remaining_time": "8m 54s"}
{"loss": 0.39835769, "token_acc": 0.89626556, "grad_norm": 2.3608005, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.9917088, "global_step/max_steps": "1226/1237", "percentage": "99.11%", "elapsed_time": "15h 10m 37s", "remaining_time": "8m 10s"}
{"loss": 0.42619085, "token_acc": 0.89355742, "grad_norm": 2.66549134, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.99251769, "global_step/max_steps": "1227/1237", "percentage": "99.19%", "elapsed_time": "15h 11m 20s", "remaining_time": "7m 25s"}
{"loss": 0.32418865, "token_acc": 0.93838863, "grad_norm": 1.8069104, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.99332659, "global_step/max_steps": "1228/1237", "percentage": "99.27%", "elapsed_time": "15h 12m 4s", "remaining_time": "6m 41s"}
{"loss": 0.40706569, "token_acc": 0.84657534, "grad_norm": 2.04149818, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.99413549, "global_step/max_steps": "1229/1237", "percentage": "99.35%", "elapsed_time": "15h 12m 48s", "remaining_time": "5m 56s"}
{"loss": 0.39875233, "token_acc": 0.81871345, "grad_norm": 2.65188694, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.99494439, "global_step/max_steps": "1230/1237", "percentage": "99.43%", "elapsed_time": "15h 13m 32s", "remaining_time": "5m 11s"}
{"loss": 0.32140273, "token_acc": 0.90497738, "grad_norm": 1.96467543, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.99575329, "global_step/max_steps": "1231/1237", "percentage": "99.51%", "elapsed_time": "15h 14m 16s", "remaining_time": "4m 27s"}
{"loss": 0.38582662, "token_acc": 0.89619377, "grad_norm": 2.02843595, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.99656218, "global_step/max_steps": "1232/1237", "percentage": "99.60%", "elapsed_time": "15h 14m 59s", "remaining_time": "3m 42s"}
{"loss": 0.35425186, "token_acc": 0.92405063, "grad_norm": 1.92210436, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.99737108, "global_step/max_steps": "1233/1237", "percentage": "99.68%", "elapsed_time": "15h 15m 43s", "remaining_time": "2m 58s"}
{"loss": 0.44038695, "token_acc": 0.85377358, "grad_norm": 2.53110099, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.99817998, "global_step/max_steps": "1234/1237", "percentage": "99.76%", "elapsed_time": "15h 16m 27s", "remaining_time": "2m 13s"}
{"loss": 0.36288592, "token_acc": 0.86713287, "grad_norm": 2.09243751, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.99898888, "global_step/max_steps": "1235/1237", "percentage": "99.84%", "elapsed_time": "15h 17m 11s", "remaining_time": "1m 29s"}
{"loss": 0.44793481, "token_acc": 0.88599349, "grad_norm": 2.27490878, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02244, "epoch": 0.99979778, "global_step/max_steps": "1236/1237", "percentage": "99.92%", "elapsed_time": "15h 17m 54s", "remaining_time": "44s"}
{"loss": 0.4117263, "token_acc": 0.85416667, "grad_norm": 4.01710606, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022445, "epoch": 1.0, "global_step/max_steps": "1237/1237", "percentage": "100.00%", "elapsed_time": "15h 18m 26s", "remaining_time": "0s"}
{"eval_loss": 0.36159474, "eval_token_acc": 0.8760036, "eval_runtime": 428.6167, "eval_samples_per_second": 3.728, "eval_steps_per_second": 0.117, "epoch": 1.0, "global_step/max_steps": "1237/1237", "percentage": "100.00%", "elapsed_time": "15h 25m 34s", "remaining_time": "0s"}
{"train_runtime": 55558.7271, "train_samples_per_second": 2.848, "train_steps_per_second": 0.022, "total_flos": 3.135344722858895e+19, "train_loss": 0.44701019, "epoch": 1.0, "global_step/max_steps": "1237/1237", "percentage": "100.00%", "elapsed_time": "15h 25m 56s", "remaining_time": "0s"}
{"model_parameter_info": "Qwen2_5_VLForConditionalGeneration: 8292.1667M Params (7615.6165M Trainable [91.8411%]), 0.0019M Buffers.", "last_model_checkpoint": "/workspace/checkpoint/gui_exp/sft_amex/v0-20260413_084132/checkpoint-1237", "best_model_checkpoint": "/workspace/checkpoint/gui_exp/sft_amex/v0-20260413_084132/checkpoint-1237", "best_metric": 0.36159474, "global_step": 1237, "log_history": [{"loss": 1.7486257553100586, "token_acc": 0.6546184738955824, "grad_norm": 64.78370666503906, "learning_rate": 1.6129032258064518e-07, "memory(GiB)": 60.95, "train_speed(iter/s)": 0.017239, "epoch": 0.0008088978766430738, "step": 1}, {"loss": 1.777339220046997, "token_acc": 0.6341463414634146, "grad_norm": 68.59134674072266, "learning_rate": 3.2258064516129035e-07, "memory(GiB)": 71.88, "train_speed(iter/s)": 0.019622, "epoch": 0.0016177957532861476, "step": 2}, {"loss": 1.8061851263046265, "token_acc": 0.6195652173913043, "grad_norm": 64.73936462402344, "learning_rate": 4.838709677419355e-07, "memory(GiB)": 71.9, "train_speed(iter/s)": 0.020613, "epoch": 0.0024266936299292214, "step": 3}, {"loss": 1.807295560836792, "token_acc": 0.5654205607476636, "grad_norm": 65.572998046875, "learning_rate": 6.451612903225807e-07, "memory(GiB)": 72.45, "train_speed(iter/s)": 0.021122, "epoch": 0.0032355915065722953, "step": 4}, {"loss": 1.5166772603988647, "token_acc": 0.6327433628318584, "grad_norm": 65.35359191894531, "learning_rate": 8.064516129032258e-07, "memory(GiB)": 72.45, "train_speed(iter/s)": 0.021426, "epoch": 0.004044489383215369, "step": 5}, {"loss": 1.5725659132003784, "token_acc": 0.6591928251121076, "grad_norm": 57.624046325683594, "learning_rate": 9.67741935483871e-07, "memory(GiB)": 72.45, "train_speed(iter/s)": 0.021622, "epoch": 0.004853387259858443, "step": 6}, {"loss": 1.6281558275222778, "token_acc": 0.6067415730337079, "grad_norm": 41.641319274902344, "learning_rate": 1.1290322580645162e-06, "memory(GiB)": 72.45, "train_speed(iter/s)": 0.02179, "epoch": 0.005662285136501517, "step": 7}, {"loss": 1.6883149147033691, "token_acc": 0.6423841059602649, "grad_norm": 40.06605529785156, "learning_rate": 1.2903225806451614e-06, "memory(GiB)": 72.45, "train_speed(iter/s)": 0.021906, "epoch": 0.006471183013144591, "step": 8}, {"loss": 1.4600856304168701, "token_acc": 0.6683417085427136, "grad_norm": 23.832304000854492, "learning_rate": 1.4516129032258066e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022001, "epoch": 0.007280080889787664, "step": 9}, {"loss": 1.178048014640808, "token_acc": 0.6995515695067265, "grad_norm": 19.52027702331543, "learning_rate": 1.6129032258064516e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022088, "epoch": 0.008088978766430738, "step": 10}, {"loss": 1.225492000579834, "token_acc": 0.680327868852459, "grad_norm": 22.565189361572266, "learning_rate": 1.774193548387097e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022154, "epoch": 0.008897876643073812, "step": 11}, {"loss": 1.0573687553405762, "token_acc": 0.7576923076923077, "grad_norm": 15.462038040161133, "learning_rate": 1.935483870967742e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.02221, "epoch": 0.009706774519716885, "step": 12}, {"loss": 1.0721827745437622, "token_acc": 0.7405857740585774, "grad_norm": 14.245152473449707, "learning_rate": 2.096774193548387e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022257, "epoch": 0.010515672396359959, "step": 13}, {"loss": 0.8753397464752197, "token_acc": 0.7516778523489933, "grad_norm": 8.204596519470215, "learning_rate": 2.2580645161290324e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022297, "epoch": 0.011324570273003034, "step": 14}, {"loss": 0.9424616098403931, "token_acc": 0.7411003236245954, "grad_norm": 11.066507339477539, "learning_rate": 2.4193548387096776e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022325, "epoch": 0.012133468149646108, "step": 15}, {"loss": 0.9165105819702148, "token_acc": 0.7902439024390244, "grad_norm": 8.134406089782715, "learning_rate": 2.580645161290323e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022352, "epoch": 0.012942366026289181, "step": 16}, {"loss": 0.8677236437797546, "token_acc": 0.7635658914728682, "grad_norm": 14.990755081176758, "learning_rate": 2.7419354838709676e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.02238, "epoch": 0.013751263902932255, "step": 17}, {"loss": 0.7795729637145996, "token_acc": 0.7739938080495357, "grad_norm": 5.65842342376709, "learning_rate": 2.903225806451613e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022403, "epoch": 0.014560161779575328, "step": 18}, {"loss": 0.8590961694717407, "token_acc": 0.75, "grad_norm": 5.559131145477295, "learning_rate": 3.0645161290322584e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022423, "epoch": 0.015369059656218402, "step": 19}, {"loss": 0.7650733590126038, "token_acc": 0.7865612648221344, "grad_norm": 4.871716499328613, "learning_rate": 3.225806451612903e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022441, "epoch": 0.016177957532861477, "step": 20}, {"loss": 0.7404652833938599, "token_acc": 0.7907801418439716, "grad_norm": 5.387275218963623, "learning_rate": 3.3870967741935484e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022456, "epoch": 0.01698685540950455, "step": 21}, {"loss": 0.8067750334739685, "token_acc": 0.7986111111111112, "grad_norm": 6.131480693817139, "learning_rate": 3.548387096774194e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022476, "epoch": 0.017795753286147624, "step": 22}, {"loss": 0.8132314682006836, "token_acc": 0.7714285714285715, "grad_norm": 5.183681488037109, "learning_rate": 3.7096774193548392e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022492, "epoch": 0.018604651162790697, "step": 23}, {"loss": 0.7204439640045166, "token_acc": 0.7905982905982906, "grad_norm": 5.063383102416992, "learning_rate": 3.870967741935484e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022506, "epoch": 0.01941354903943377, "step": 24}, {"loss": 0.7673914432525635, "token_acc": 0.7453416149068323, "grad_norm": 4.753130912780762, "learning_rate": 4.032258064516129e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022518, "epoch": 0.020222446916076844, "step": 25}, {"loss": 0.6755634546279907, "token_acc": 0.7714285714285715, "grad_norm": 4.112824440002441, "learning_rate": 4.193548387096774e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.02253, "epoch": 0.021031344792719918, "step": 26}, {"loss": 0.685713529586792, "token_acc": 0.8447488584474886, "grad_norm": 3.704129695892334, "learning_rate": 4.35483870967742e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022541, "epoch": 0.02184024266936299, "step": 27}, {"loss": 0.7436140179634094, "token_acc": 0.749003984063745, "grad_norm": 4.385001182556152, "learning_rate": 4.516129032258065e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022549, "epoch": 0.02264914054600607, "step": 28}, {"loss": 0.7293410301208496, "token_acc": 0.8248175182481752, "grad_norm": 5.385667324066162, "learning_rate": 4.67741935483871e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022558, "epoch": 0.023458038422649142, "step": 29}, {"loss": 0.6676285266876221, "token_acc": 0.7844827586206896, "grad_norm": 5.816902160644531, "learning_rate": 4.838709677419355e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022568, "epoch": 0.024266936299292215, "step": 30}, {"loss": 0.6832848787307739, "token_acc": 0.8340807174887892, "grad_norm": 3.9358129501342773, "learning_rate": 5e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022574, "epoch": 0.02507583417593529, "step": 31}, {"loss": 0.6794041395187378, "token_acc": 0.7857142857142857, "grad_norm": 3.9400582313537598, "learning_rate": 5.161290322580646e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022581, "epoch": 0.025884732052578362, "step": 32}, {"loss": 0.6280096769332886, "token_acc": 0.8277511961722488, "grad_norm": 6.0499725341796875, "learning_rate": 5.322580645161291e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022589, "epoch": 0.026693629929221436, "step": 33}, {"loss": 0.7461614012718201, "token_acc": 0.7442922374429224, "grad_norm": 4.963372230529785, "learning_rate": 5.483870967741935e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022594, "epoch": 0.02750252780586451, "step": 34}, {"loss": 0.6325216889381409, "token_acc": 0.8239700374531835, "grad_norm": 4.874055862426758, "learning_rate": 5.645161290322582e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022602, "epoch": 0.028311425682507583, "step": 35}, {"loss": 0.6098757982254028, "token_acc": 0.85, "grad_norm": 4.295459747314453, "learning_rate": 5.806451612903226e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022606, "epoch": 0.029120323559150656, "step": 36}, {"loss": 0.6720225811004639, "token_acc": 0.7675276752767528, "grad_norm": 4.486640453338623, "learning_rate": 5.967741935483872e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022613, "epoch": 0.02992922143579373, "step": 37}, {"loss": 0.7007983326911926, "token_acc": 0.7446808510638298, "grad_norm": 3.9755430221557617, "learning_rate": 6.129032258064517e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022618, "epoch": 0.030738119312436803, "step": 38}, {"loss": 0.6228176355361938, "token_acc": 0.8116591928251121, "grad_norm": 3.85732102394104, "learning_rate": 6.290322580645162e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022625, "epoch": 0.03154701718907988, "step": 39}, {"loss": 0.6283481121063232, "token_acc": 0.8035087719298246, "grad_norm": 3.556612491607666, "learning_rate": 6.451612903225806e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.02263, "epoch": 0.032355915065722954, "step": 40}, {"loss": 0.6793509721755981, "token_acc": 0.8174904942965779, "grad_norm": 5.600265979766846, "learning_rate": 6.612903225806452e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022635, "epoch": 0.03316481294236603, "step": 41}, {"loss": 0.6385987997055054, "token_acc": 0.8125, "grad_norm": 3.7283554077148438, "learning_rate": 6.774193548387097e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022639, "epoch": 0.0339737108190091, "step": 42}, {"loss": 0.6532889604568481, "token_acc": 0.8297872340425532, "grad_norm": 3.8624303340911865, "learning_rate": 6.935483870967743e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022644, "epoch": 0.034782608695652174, "step": 43}, {"loss": 0.579014241695404, "token_acc": 0.8345070422535211, "grad_norm": 3.6706488132476807, "learning_rate": 7.096774193548388e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022648, "epoch": 0.03559150657229525, "step": 44}, {"loss": 0.5859895348548889, "token_acc": 0.8291925465838509, "grad_norm": 3.9184775352478027, "learning_rate": 7.258064516129033e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022651, "epoch": 0.03640040444893832, "step": 45}, {"loss": 0.5704982280731201, "token_acc": 0.8542713567839196, "grad_norm": 3.94393253326416, "learning_rate": 7.4193548387096784e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022655, "epoch": 0.037209302325581395, "step": 46}, {"loss": 0.623918354511261, "token_acc": 0.7984790874524715, "grad_norm": 4.142230987548828, "learning_rate": 7.580645161290323e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022657, "epoch": 0.03801820020222447, "step": 47}, {"loss": 0.5815058946609497, "token_acc": 0.8186528497409327, "grad_norm": 4.207951545715332, "learning_rate": 7.741935483870968e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022662, "epoch": 0.03882709807886754, "step": 48}, {"loss": 0.6511105895042419, "token_acc": 0.809375, "grad_norm": 4.375429153442383, "learning_rate": 7.903225806451613e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022666, "epoch": 0.039635995955510615, "step": 49}, {"loss": 0.6755905747413635, "token_acc": 0.8034934497816594, "grad_norm": 4.1379499435424805, "learning_rate": 8.064516129032258e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.02267, "epoch": 0.04044489383215369, "step": 50}, {"loss": 0.558114230632782, "token_acc": 0.8186528497409327, "grad_norm": 4.107391357421875, "learning_rate": 8.225806451612904e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022672, "epoch": 0.04125379170879676, "step": 51}, {"loss": 0.5646804571151733, "token_acc": 0.7943262411347518, "grad_norm": 3.2282044887542725, "learning_rate": 8.387096774193549e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022674, "epoch": 0.042062689585439836, "step": 52}, {"loss": 0.5988277196884155, "token_acc": 0.8022922636103151, "grad_norm": 3.679171085357666, "learning_rate": 8.548387096774194e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022675, "epoch": 0.04287158746208291, "step": 53}, {"loss": 0.6635404825210571, "token_acc": 0.7681159420289855, "grad_norm": 4.386334419250488, "learning_rate": 8.70967741935484e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022674, "epoch": 0.04368048533872598, "step": 54}, {"loss": 0.5942538976669312, "token_acc": 0.86328125, "grad_norm": 5.1664557456970215, "learning_rate": 8.870967741935484e-06, "memory(GiB)": 73.8, "train_speed(iter/s)": 0.022677, "epoch": 0.044489383215369056, "step": 55}, {"loss": 0.5873563885688782, "token_acc": 0.7923875432525952, "grad_norm": 5.156553268432617, "learning_rate": 9.03225806451613e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022677, "epoch": 0.04529828109201214, "step": 56}, {"loss": 0.5179651975631714, "token_acc": 0.8286713286713286, "grad_norm": 3.327913999557495, "learning_rate": 9.193548387096775e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022681, "epoch": 0.04610717896865521, "step": 57}, {"loss": 0.6654713153839111, "token_acc": 0.8122866894197952, "grad_norm": 3.147554397583008, "learning_rate": 9.35483870967742e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022683, "epoch": 0.046916076845298284, "step": 58}, {"loss": 0.5465582013130188, "token_acc": 0.828125, "grad_norm": 3.951767921447754, "learning_rate": 9.516129032258065e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022686, "epoch": 0.04772497472194136, "step": 59}, {"loss": 0.6206121444702148, "token_acc": 0.8258928571428571, "grad_norm": 3.6060750484466553, "learning_rate": 9.67741935483871e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022687, "epoch": 0.04853387259858443, "step": 60}, {"loss": 0.6245087385177612, "token_acc": 0.8050847457627118, "grad_norm": 4.130661487579346, "learning_rate": 9.838709677419356e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02269, "epoch": 0.049342770475227504, "step": 61}, {"loss": 0.6183744668960571, "token_acc": 0.8229665071770335, "grad_norm": 4.408290386199951, "learning_rate": 1e-05, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022694, "epoch": 0.05015166835187058, "step": 62}, {"loss": 0.5600206851959229, "token_acc": 0.8364312267657993, "grad_norm": 3.7502522468566895, "learning_rate": 9.999982128386562e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022695, "epoch": 0.05096056622851365, "step": 63}, {"loss": 0.5526872873306274, "token_acc": 0.8165467625899281, "grad_norm": 4.595156669616699, "learning_rate": 9.999928513674004e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022697, "epoch": 0.051769464105156725, "step": 64}, {"loss": 0.4983682632446289, "token_acc": 0.8742857142857143, "grad_norm": 4.10991907119751, "learning_rate": 9.999839156245597e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022698, "epoch": 0.0525783619817998, "step": 65}, {"loss": 0.6258913278579712, "token_acc": 0.8235294117647058, "grad_norm": 4.291178226470947, "learning_rate": 9.99971405674013e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.0227, "epoch": 0.05338725985844287, "step": 66}, {"loss": 0.6055471897125244, "token_acc": 0.75, "grad_norm": 4.950540065765381, "learning_rate": 9.999553216051892e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.0227, "epoch": 0.054196157735085945, "step": 67}, {"loss": 0.5771285891532898, "token_acc": 0.8007518796992481, "grad_norm": 4.7848076820373535, "learning_rate": 9.999356635330675e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022702, "epoch": 0.05500505561172902, "step": 68}, {"loss": 0.5602097511291504, "token_acc": 0.85, "grad_norm": 4.7233567237854, "learning_rate": 9.999124315981766e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022704, "epoch": 0.05581395348837209, "step": 69}, {"loss": 0.5948894023895264, "token_acc": 0.8597285067873304, "grad_norm": 3.280118227005005, "learning_rate": 9.998856259665936e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022706, "epoch": 0.056622851365015166, "step": 70}, {"loss": 0.615454912185669, "token_acc": 0.7639484978540773, "grad_norm": 3.6923129558563232, "learning_rate": 9.99855246829942e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022708, "epoch": 0.05743174924165824, "step": 71}, {"loss": 0.6003280878067017, "token_acc": 0.8415492957746479, "grad_norm": 3.9682765007019043, "learning_rate": 9.99821294405392e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02271, "epoch": 0.05824064711830131, "step": 72}, {"loss": 0.5450583100318909, "token_acc": 0.8100358422939068, "grad_norm": 3.5200328826904297, "learning_rate": 9.99783768935657e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022712, "epoch": 0.059049544994944386, "step": 73}, {"loss": 0.5230978727340698, "token_acc": 0.8472222222222222, "grad_norm": 4.187544345855713, "learning_rate": 9.997426706889935e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022714, "epoch": 0.05985844287158746, "step": 74}, {"loss": 0.5269993543624878, "token_acc": 0.8168316831683168, "grad_norm": 3.5596694946289062, "learning_rate": 9.996979999591982e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022715, "epoch": 0.06066734074823053, "step": 75}, {"loss": 0.5459144711494446, "token_acc": 0.7665198237885462, "grad_norm": 3.213773012161255, "learning_rate": 9.996497570656063e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022716, "epoch": 0.06147623862487361, "step": 76}, {"loss": 0.5678860545158386, "token_acc": 0.8123076923076923, "grad_norm": 3.1109633445739746, "learning_rate": 9.995979423530893e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022717, "epoch": 0.06228513650151668, "step": 77}, {"loss": 0.5075556039810181, "token_acc": 0.84, "grad_norm": 3.668972969055176, "learning_rate": 9.99542556192052e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022718, "epoch": 0.06309403437815976, "step": 78}, {"loss": 0.5242471098899841, "token_acc": 0.865, "grad_norm": 4.338983535766602, "learning_rate": 9.994835989784305e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022721, "epoch": 0.06390293225480283, "step": 79}, {"loss": 0.6131962537765503, "token_acc": 0.7767857142857143, "grad_norm": 4.064675807952881, "learning_rate": 9.99421071133689e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022722, "epoch": 0.06471183013144591, "step": 80}, {"loss": 0.5887628197669983, "token_acc": 0.7992125984251969, "grad_norm": 3.6171154975891113, "learning_rate": 9.993549731048171e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022724, "epoch": 0.06552072800808897, "step": 81}, {"loss": 0.5989000201225281, "token_acc": 0.8346456692913385, "grad_norm": 3.9707374572753906, "learning_rate": 9.992853053643257e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022726, "epoch": 0.06632962588473205, "step": 82}, {"loss": 0.6060096025466919, "token_acc": 0.8148148148148148, "grad_norm": 4.361082077026367, "learning_rate": 9.992120684102453e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022728, "epoch": 0.06713852376137512, "step": 83}, {"loss": 0.5200193524360657, "token_acc": 0.8506787330316742, "grad_norm": 3.9677209854125977, "learning_rate": 9.991352627661205e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022729, "epoch": 0.0679474216380182, "step": 84}, {"loss": 0.6048153638839722, "token_acc": 0.8391608391608392, "grad_norm": 3.435011863708496, "learning_rate": 9.990548889810078e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022731, "epoch": 0.06875631951466127, "step": 85}, {"loss": 0.5572282671928406, "token_acc": 0.8181818181818182, "grad_norm": 3.5457801818847656, "learning_rate": 9.989709476294708e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022732, "epoch": 0.06956521739130435, "step": 86}, {"loss": 0.5753508806228638, "token_acc": 0.8823529411764706, "grad_norm": 3.885216474533081, "learning_rate": 9.988834393115768e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022732, "epoch": 0.07037411526794742, "step": 87}, {"loss": 0.5835089683532715, "token_acc": 0.8226221079691517, "grad_norm": 3.5327308177948, "learning_rate": 9.987923646528911e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022731, "epoch": 0.0711830131445905, "step": 88}, {"loss": 0.5215576887130737, "token_acc": 0.8870292887029289, "grad_norm": 3.0550527572631836, "learning_rate": 9.986977243044747e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022732, "epoch": 0.07199191102123358, "step": 89}, {"loss": 0.4884870648384094, "token_acc": 0.8713235294117647, "grad_norm": 3.0193593502044678, "learning_rate": 9.985995189428775e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022732, "epoch": 0.07280080889787664, "step": 90}, {"loss": 0.5010548233985901, "token_acc": 0.8104575163398693, "grad_norm": 3.2098543643951416, "learning_rate": 9.984977492701351e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022734, "epoch": 0.07360970677451972, "step": 91}, {"loss": 0.5493002533912659, "token_acc": 0.7937743190661478, "grad_norm": 3.6859188079833984, "learning_rate": 9.983924160137627e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022734, "epoch": 0.07441860465116279, "step": 92}, {"loss": 0.6033581495285034, "token_acc": 0.8416666666666667, "grad_norm": 3.2814273834228516, "learning_rate": 9.982835199267502e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022734, "epoch": 0.07522750252780587, "step": 93}, {"loss": 0.6103281378746033, "token_acc": 0.7589285714285714, "grad_norm": 3.5553441047668457, "learning_rate": 9.981710617875575e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022736, "epoch": 0.07603640040444894, "step": 94}, {"loss": 0.5484324097633362, "token_acc": 0.8211678832116789, "grad_norm": 3.5121068954467773, "learning_rate": 9.980550424001077e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022736, "epoch": 0.07684529828109202, "step": 95}, {"loss": 0.509511411190033, "token_acc": 0.8333333333333334, "grad_norm": 2.6635591983795166, "learning_rate": 9.979354625937821e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022736, "epoch": 0.07765419615773508, "step": 96}, {"loss": 0.5271934270858765, "token_acc": 0.815625, "grad_norm": 3.5615248680114746, "learning_rate": 9.978123232234147e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022737, "epoch": 0.07846309403437816, "step": 97}, {"loss": 0.5473837852478027, "token_acc": 0.843558282208589, "grad_norm": 4.439089775085449, "learning_rate": 9.976856251692851e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022738, "epoch": 0.07927199191102123, "step": 98}, {"loss": 0.572515070438385, "token_acc": 0.8262411347517731, "grad_norm": 3.3765029907226562, "learning_rate": 9.975553693371124e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022739, "epoch": 0.08008088978766431, "step": 99}, {"loss": 0.5989265441894531, "token_acc": 0.8562091503267973, "grad_norm": 3.8845911026000977, "learning_rate": 9.974215566580499e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022741, "epoch": 0.08088978766430738, "step": 100}, {"loss": 0.5662233829498291, "token_acc": 0.8298755186721992, "grad_norm": 3.336557626724243, "learning_rate": 9.972841880886766e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022741, "epoch": 0.08169868554095046, "step": 101}, {"loss": 0.44332605600357056, "token_acc": 0.8586572438162544, "grad_norm": 2.8836798667907715, "learning_rate": 9.971432646109919e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022742, "epoch": 0.08250758341759352, "step": 102}, {"loss": 0.5478776693344116, "token_acc": 0.8424908424908425, "grad_norm": 4.133236885070801, "learning_rate": 9.969987872324076e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022743, "epoch": 0.0833164812942366, "step": 103}, {"loss": 0.5256601572036743, "token_acc": 0.7886178861788617, "grad_norm": 4.5403828620910645, "learning_rate": 9.968507569857413e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022744, "epoch": 0.08412537917087967, "step": 104}, {"loss": 0.560812771320343, "token_acc": 0.8056537102473498, "grad_norm": 3.083695888519287, "learning_rate": 9.966991749292088e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022745, "epoch": 0.08493427704752275, "step": 105}, {"loss": 0.5007873773574829, "token_acc": 0.8132295719844358, "grad_norm": 2.619795083999634, "learning_rate": 9.965440421464163e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022745, "epoch": 0.08574317492416582, "step": 106}, {"loss": 0.49696582555770874, "token_acc": 0.846441947565543, "grad_norm": 3.6254372596740723, "learning_rate": 9.963853597463533e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022747, "epoch": 0.0865520728008089, "step": 107}, {"loss": 0.4739895462989807, "token_acc": 0.84, "grad_norm": 3.388469934463501, "learning_rate": 9.962231288633838e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022748, "epoch": 0.08736097067745197, "step": 108}, {"loss": 0.46099379658699036, "token_acc": 0.821875, "grad_norm": 2.8459818363189697, "learning_rate": 9.960573506572391e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022748, "epoch": 0.08816986855409505, "step": 109}, {"loss": 0.48788702487945557, "token_acc": 0.8125, "grad_norm": 3.143099546432495, "learning_rate": 9.958880263130084e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022748, "epoch": 0.08897876643073811, "step": 110}, {"loss": 0.5500156879425049, "token_acc": 0.8222222222222222, "grad_norm": 3.5926871299743652, "learning_rate": 9.957151570411317e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022748, "epoch": 0.0897876643073812, "step": 111}, {"loss": 0.5181611776351929, "token_acc": 0.8571428571428571, "grad_norm": 5.149491310119629, "learning_rate": 9.955387440773902e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022749, "epoch": 0.09059656218402427, "step": 112}, {"loss": 0.5575085282325745, "token_acc": 0.7924528301886793, "grad_norm": 4.696843147277832, "learning_rate": 9.953587886828973e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02275, "epoch": 0.09140546006066734, "step": 113}, {"loss": 0.5986132621765137, "token_acc": 0.8097560975609757, "grad_norm": 4.4397053718566895, "learning_rate": 9.951752921440904e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022749, "epoch": 0.09221435793731042, "step": 114}, {"loss": 0.47439733147621155, "token_acc": 0.8576779026217228, "grad_norm": 3.5311803817749023, "learning_rate": 9.949882557727215e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022749, "epoch": 0.09302325581395349, "step": 115}, {"loss": 0.52587890625, "token_acc": 0.8388888888888889, "grad_norm": 4.034605503082275, "learning_rate": 9.947976809058468e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02275, "epoch": 0.09383215369059657, "step": 116}, {"loss": 0.5111696720123291, "token_acc": 0.8653846153846154, "grad_norm": 2.4622230529785156, "learning_rate": 9.946035689058189e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02275, "epoch": 0.09464105156723963, "step": 117}, {"loss": 0.644461452960968, "token_acc": 0.8391304347826087, "grad_norm": 4.2029523849487305, "learning_rate": 9.944059211602752e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02275, "epoch": 0.09544994944388271, "step": 118}, {"loss": 0.529866099357605, "token_acc": 0.8287671232876712, "grad_norm": 3.6433732509613037, "learning_rate": 9.942047390821296e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02275, "epoch": 0.09625884732052578, "step": 119}, {"loss": 0.53721022605896, "token_acc": 0.8637873754152824, "grad_norm": 2.930225133895874, "learning_rate": 9.940000241095616e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022751, "epoch": 0.09706774519716886, "step": 120}, {"loss": 0.5285677909851074, "token_acc": 0.7914691943127962, "grad_norm": 3.059379816055298, "learning_rate": 9.937917777060057e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022752, "epoch": 0.09787664307381193, "step": 121}, {"loss": 0.543626606464386, "token_acc": 0.8638132295719845, "grad_norm": 3.1179027557373047, "learning_rate": 9.935800013601415e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022751, "epoch": 0.09868554095045501, "step": 122}, {"loss": 0.5759721994400024, "token_acc": 0.8392857142857143, "grad_norm": 2.9850940704345703, "learning_rate": 9.933646965858832e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022752, "epoch": 0.09949443882709808, "step": 123}, {"loss": 0.5128383636474609, "token_acc": 0.8404255319148937, "grad_norm": 3.2056992053985596, "learning_rate": 9.931458649223683e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022753, "epoch": 0.10030333670374116, "step": 124}, {"loss": 0.4931023418903351, "token_acc": 0.7634069400630915, "grad_norm": 3.4550704956054688, "learning_rate": 9.929235079339466e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022754, "epoch": 0.10111223458038422, "step": 125}, {"loss": 0.5036507844924927, "token_acc": 0.8422818791946308, "grad_norm": 4.975637912750244, "learning_rate": 9.926976272101693e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022754, "epoch": 0.1019211324570273, "step": 126}, {"loss": 0.4464947581291199, "token_acc": 0.8804347826086957, "grad_norm": 3.2330217361450195, "learning_rate": 9.92468224365778e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022754, "epoch": 0.10273003033367037, "step": 127}, {"loss": 0.5149933695793152, "token_acc": 0.8318181818181818, "grad_norm": 2.581622362136841, "learning_rate": 9.922353010406918e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022755, "epoch": 0.10353892821031345, "step": 128}, {"loss": 0.5142784118652344, "token_acc": 0.8621908127208481, "grad_norm": 2.6486399173736572, "learning_rate": 9.919988588999971e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022756, "epoch": 0.10434782608695652, "step": 129}, {"loss": 0.5297855734825134, "token_acc": 0.8177339901477833, "grad_norm": 3.3094420433044434, "learning_rate": 9.917588996339352e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022757, "epoch": 0.1051567239635996, "step": 130}, {"loss": 0.5081691145896912, "token_acc": 0.8755364806866953, "grad_norm": 2.769592046737671, "learning_rate": 9.915154249578894e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022758, "epoch": 0.10596562184024266, "step": 131}, {"loss": 0.5512316823005676, "token_acc": 0.8618181818181818, "grad_norm": 2.8748629093170166, "learning_rate": 9.91268436612374e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022757, "epoch": 0.10677451971688574, "step": 132}, {"loss": 0.48270368576049805, "token_acc": 0.8526315789473684, "grad_norm": 3.3325603008270264, "learning_rate": 9.91017936363021e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022757, "epoch": 0.10758341759352881, "step": 133}, {"loss": 0.48671406507492065, "token_acc": 0.8547717842323651, "grad_norm": 4.002824783325195, "learning_rate": 9.907639260005682e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022758, "epoch": 0.10839231547017189, "step": 134}, {"loss": 0.5502010583877563, "token_acc": 0.7976190476190477, "grad_norm": 3.655064344406128, "learning_rate": 9.90506407340845e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022758, "epoch": 0.10920121334681497, "step": 135}, {"loss": 0.47892680764198303, "token_acc": 0.8318965517241379, "grad_norm": 3.198472023010254, "learning_rate": 9.902453822247615e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022759, "epoch": 0.11001011122345804, "step": 136}, {"loss": 0.49719753861427307, "token_acc": 0.8417508417508418, "grad_norm": 2.7282052040100098, "learning_rate": 9.899808525182935e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022759, "epoch": 0.11081900910010112, "step": 137}, {"loss": 0.532843291759491, "token_acc": 0.8152173913043478, "grad_norm": 3.089430093765259, "learning_rate": 9.897128201124699e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022759, "epoch": 0.11162790697674418, "step": 138}, {"loss": 0.5238447189331055, "token_acc": 0.8558558558558559, "grad_norm": 6.901391983032227, "learning_rate": 9.894412869233597e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.02276, "epoch": 0.11243680485338726, "step": 139}, {"loss": 0.5573660135269165, "token_acc": 0.8068181818181818, "grad_norm": 3.125302791595459, "learning_rate": 9.89166254892057e-06, "memory(GiB)": 74.11, "train_speed(iter/s)": 0.022761, "epoch": 0.11324570273003033, "step": 140}, {"loss": 0.524215817451477, "token_acc": 0.8505338078291815, "grad_norm": 3.38075852394104, "learning_rate": 9.888877259846686e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.11405460060667341, "step": 141}, {"loss": 0.49190688133239746, "token_acc": 0.8333333333333334, "grad_norm": 3.413461446762085, "learning_rate": 9.886057021922984e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.11486349848331648, "step": 142}, {"loss": 0.542352557182312, "token_acc": 0.8503649635036497, "grad_norm": 4.181169509887695, "learning_rate": 9.88320185531035e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.11567239635995956, "step": 143}, {"loss": 0.5551398992538452, "token_acc": 0.8007246376811594, "grad_norm": 2.688110828399658, "learning_rate": 9.880311780419353e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.11648129423660263, "step": 144}, {"loss": 0.49384480714797974, "token_acc": 0.8333333333333334, "grad_norm": 3.9851884841918945, "learning_rate": 9.877386817910118e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.1172901921132457, "step": 145}, {"loss": 0.5515081286430359, "token_acc": 0.8006644518272426, "grad_norm": 2.6871986389160156, "learning_rate": 9.874426988692163e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02276, "epoch": 0.11809908998988877, "step": 146}, {"loss": 0.4420849084854126, "token_acc": 0.8091872791519434, "grad_norm": 2.288706064224243, "learning_rate": 9.871432313924255e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022761, "epoch": 0.11890798786653185, "step": 147}, {"loss": 0.4678765833377838, "token_acc": 0.8604651162790697, "grad_norm": 2.6680195331573486, "learning_rate": 9.868402815014266e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022761, "epoch": 0.11971688574317492, "step": 148}, {"loss": 0.4832306504249573, "token_acc": 0.8480565371024735, "grad_norm": 2.3895063400268555, "learning_rate": 9.865338513619005e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022761, "epoch": 0.120525783619818, "step": 149}, {"loss": 0.49357208609580994, "token_acc": 0.8461538461538461, "grad_norm": 2.4143781661987305, "learning_rate": 9.86223943164408e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022762, "epoch": 0.12133468149646107, "step": 150}, {"loss": 0.4809868633747101, "token_acc": 0.8617021276595744, "grad_norm": 3.0790457725524902, "learning_rate": 9.859105591243728e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022762, "epoch": 0.12214357937310415, "step": 151}, {"loss": 0.5743482112884521, "token_acc": 0.8461538461538461, "grad_norm": 3.636885643005371, "learning_rate": 9.85593701482066e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022763, "epoch": 0.12295247724974721, "step": 152}, {"loss": 0.46740931272506714, "token_acc": 0.8658008658008658, "grad_norm": 2.7628660202026367, "learning_rate": 9.85273372502591e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022763, "epoch": 0.1237613751263903, "step": 153}, {"loss": 0.5438951253890991, "token_acc": 0.8550185873605948, "grad_norm": 3.155374765396118, "learning_rate": 9.849495744758654e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022763, "epoch": 0.12457027300303336, "step": 154}, {"loss": 0.537287175655365, "token_acc": 0.8456140350877193, "grad_norm": 2.9564826488494873, "learning_rate": 9.846223097166072e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022764, "epoch": 0.12537917087967643, "step": 155}, {"loss": 0.4728841781616211, "token_acc": 0.9, "grad_norm": 2.997941017150879, "learning_rate": 9.842915805643156e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022764, "epoch": 0.12618806875631952, "step": 156}, {"loss": 0.48365718126296997, "token_acc": 0.8501742160278746, "grad_norm": 4.7811431884765625, "learning_rate": 9.839573893832564e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022764, "epoch": 0.1269969666329626, "step": 157}, {"loss": 0.4837043285369873, "token_acc": 0.8952879581151832, "grad_norm": 2.611847400665283, "learning_rate": 9.836197385624434e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022765, "epoch": 0.12780586450960565, "step": 158}, {"loss": 0.5694408416748047, "token_acc": 0.8177966101694916, "grad_norm": 3.331645965576172, "learning_rate": 9.83278630515623e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022765, "epoch": 0.12861476238624875, "step": 159}, {"loss": 0.5614443421363831, "token_acc": 0.8487972508591065, "grad_norm": 3.4143426418304443, "learning_rate": 9.829340676812553e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022765, "epoch": 0.12942366026289182, "step": 160}, {"loss": 0.48274075984954834, "token_acc": 0.8207885304659498, "grad_norm": 2.541956901550293, "learning_rate": 9.825860525224982e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022765, "epoch": 0.13023255813953488, "step": 161}, {"loss": 0.47431913018226624, "token_acc": 0.8713450292397661, "grad_norm": 2.933729410171509, "learning_rate": 9.822345875271884e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022766, "epoch": 0.13104145601617795, "step": 162}, {"loss": 0.5554227232933044, "token_acc": 0.8627450980392157, "grad_norm": 2.8055856227874756, "learning_rate": 9.818796752078246e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022766, "epoch": 0.13185035389282104, "step": 163}, {"loss": 0.4458203911781311, "token_acc": 0.8825622775800712, "grad_norm": 2.662719488143921, "learning_rate": 9.815213181015489e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022766, "epoch": 0.1326592517694641, "step": 164}, {"loss": 0.4638062119483948, "token_acc": 0.8227848101265823, "grad_norm": 5.495974540710449, "learning_rate": 9.811595187701296e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022766, "epoch": 0.13346814964610718, "step": 165}, {"loss": 0.6657401323318481, "token_acc": 0.8483606557377049, "grad_norm": 84.01348114013672, "learning_rate": 9.807942797999412e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022767, "epoch": 0.13427704752275024, "step": 166}, {"loss": 0.6723936796188354, "token_acc": 0.8143712574850299, "grad_norm": 138.69554138183594, "learning_rate": 9.804256038019482e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022767, "epoch": 0.13508594539939334, "step": 167}, {"loss": 0.5228875875473022, "token_acc": 0.8411552346570397, "grad_norm": 11.966114044189453, "learning_rate": 9.800534934116843e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022768, "epoch": 0.1358948432760364, "step": 168}, {"loss": 0.5082340240478516, "token_acc": 0.8514056224899599, "grad_norm": 3.311744451522827, "learning_rate": 9.796779512892346e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022768, "epoch": 0.13670374115267947, "step": 169}, {"loss": 0.4903358519077301, "token_acc": 0.8439490445859873, "grad_norm": 2.891026735305786, "learning_rate": 9.792989801192167e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.13751263902932254, "step": 170}, {"loss": 0.514635443687439, "token_acc": 0.8709677419354839, "grad_norm": 2.643505096435547, "learning_rate": 9.789165826107612e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.13832153690596563, "step": 171}, {"loss": 0.5150923728942871, "token_acc": 0.796875, "grad_norm": 2.8423476219177246, "learning_rate": 9.785307614974922e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.1391304347826087, "step": 172}, {"loss": 0.4808637797832489, "token_acc": 0.8296529968454258, "grad_norm": 2.4324862957000732, "learning_rate": 9.781415195375078e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.13993933265925176, "step": 173}, {"loss": 0.4378691017627716, "token_acc": 0.8571428571428571, "grad_norm": 2.2403547763824463, "learning_rate": 9.77748859513361e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.14074823053589483, "step": 174}, {"loss": 0.4910467565059662, "token_acc": 0.8369565217391305, "grad_norm": 2.552274703979492, "learning_rate": 9.77352784232039e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022769, "epoch": 0.14155712841253792, "step": 175}, {"loss": 0.5578226447105408, "token_acc": 0.8274509803921568, "grad_norm": 2.844341278076172, "learning_rate": 9.769532965249435e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02277, "epoch": 0.142366026289181, "step": 176}, {"loss": 0.4441274404525757, "token_acc": 0.8543689320388349, "grad_norm": 2.700742483139038, "learning_rate": 9.765503992478704e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02277, "epoch": 0.14317492416582406, "step": 177}, {"loss": 0.5075165033340454, "token_acc": 0.8222222222222222, "grad_norm": 2.824364185333252, "learning_rate": 9.761440952809897e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022771, "epoch": 0.14398382204246715, "step": 178}, {"loss": 0.47000789642333984, "token_acc": 0.828125, "grad_norm": 3.220512628555298, "learning_rate": 9.757343875288242e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022772, "epoch": 0.14479271991911022, "step": 179}, {"loss": 0.5143015384674072, "token_acc": 0.8530465949820788, "grad_norm": 2.345557689666748, "learning_rate": 9.75321278920229e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022771, "epoch": 0.14560161779575329, "step": 180}, {"loss": 0.5505862236022949, "token_acc": 0.8475609756097561, "grad_norm": 3.0752451419830322, "learning_rate": 9.749047724083717e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022772, "epoch": 0.14641051567239635, "step": 181}, {"loss": 0.5013206601142883, "token_acc": 0.873015873015873, "grad_norm": 2.662064552307129, "learning_rate": 9.74484870970709e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022772, "epoch": 0.14721941354903945, "step": 182}, {"loss": 0.554660439491272, "token_acc": 0.8388278388278388, "grad_norm": 3.027050256729126, "learning_rate": 9.74061577608968e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022772, "epoch": 0.1480283114256825, "step": 183}, {"loss": 0.5106396675109863, "token_acc": 0.797979797979798, "grad_norm": 3.55436635017395, "learning_rate": 9.736348953491224e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.14883720930232558, "step": 184}, {"loss": 0.5329099297523499, "token_acc": 0.8278388278388278, "grad_norm": 3.821077585220337, "learning_rate": 9.732048272413725e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.14964610717896865, "step": 185}, {"loss": 0.48308447003364563, "token_acc": 0.8556701030927835, "grad_norm": 2.861586332321167, "learning_rate": 9.727713763601226e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.15045500505561174, "step": 186}, {"loss": 0.4873977601528168, "token_acc": 0.8426573426573427, "grad_norm": 3.025512456893921, "learning_rate": 9.723345458039595e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.1512639029322548, "step": 187}, {"loss": 0.538512110710144, "token_acc": 0.8155339805825242, "grad_norm": 2.5745112895965576, "learning_rate": 9.718943386956298e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.15207280080889787, "step": 188}, {"loss": 0.5343044400215149, "token_acc": 0.7977099236641222, "grad_norm": 2.985320806503296, "learning_rate": 9.714507581820181e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022773, "epoch": 0.15288169868554094, "step": 189}, {"loss": 0.5087035298347473, "token_acc": 0.8478260869565217, "grad_norm": 3.339107036590576, "learning_rate": 9.71003807434124e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022774, "epoch": 0.15369059656218403, "step": 190}, {"loss": 0.4998268783092499, "token_acc": 0.8514056224899599, "grad_norm": 2.712999105453491, "learning_rate": 9.705534896470401e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022774, "epoch": 0.1544994944388271, "step": 191}, {"loss": 0.4922446608543396, "token_acc": 0.810126582278481, "grad_norm": 3.6283011436462402, "learning_rate": 9.700998080399287e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.15530839231547017, "step": 192}, {"loss": 0.5213550925254822, "token_acc": 0.8381294964028777, "grad_norm": 2.546504020690918, "learning_rate": 9.696427658559983e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.15611729019211323, "step": 193}, {"loss": 0.5097714066505432, "token_acc": 0.8066914498141264, "grad_norm": 3.0982861518859863, "learning_rate": 9.691823663624817e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.15692618806875633, "step": 194}, {"loss": 0.5594595074653625, "token_acc": 0.8622222222222222, "grad_norm": 2.8496217727661133, "learning_rate": 9.687186128506116e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.1577350859453994, "step": 195}, {"loss": 0.5774262547492981, "token_acc": 0.7975708502024291, "grad_norm": 2.693981647491455, "learning_rate": 9.682515086355973e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.15854398382204246, "step": 196}, {"loss": 0.5103310346603394, "token_acc": 0.8129032258064516, "grad_norm": 3.6492180824279785, "learning_rate": 9.677810570566011e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.15935288169868553, "step": 197}, {"loss": 0.4744953513145447, "token_acc": 0.8699186991869918, "grad_norm": 2.6552608013153076, "learning_rate": 9.673072614767147e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16016177957532862, "step": 198}, {"loss": 0.4586220979690552, "token_acc": 0.8583690987124464, "grad_norm": 2.7724416255950928, "learning_rate": 9.668301252829344e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.1609706774519717, "step": 199}, {"loss": 0.6070712208747864, "token_acc": 0.8131313131313131, "grad_norm": 3.1484899520874023, "learning_rate": 9.663496518861381e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.16177957532861476, "step": 200}, {"loss": 0.5579652786254883, "token_acc": 0.8524590163934426, "grad_norm": 4.5751142501831055, "learning_rate": 9.658658447210595e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.16258847320525785, "step": 201}, {"loss": 0.47080251574516296, "token_acc": 0.9058823529411765, "grad_norm": 2.3848133087158203, "learning_rate": 9.653787072462644e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16339737108190092, "step": 202}, {"loss": 0.46535661816596985, "token_acc": 0.8138528138528138, "grad_norm": 2.686843156814575, "learning_rate": 9.648882429441258e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16420626895854398, "step": 203}, {"loss": 0.42402440309524536, "token_acc": 0.870722433460076, "grad_norm": 3.4251608848571777, "learning_rate": 9.643944553207992e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16501516683518705, "step": 204}, {"loss": 0.5313763618469238, "token_acc": 0.8062283737024222, "grad_norm": 3.019339084625244, "learning_rate": 9.63897347906197e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16582406471183014, "step": 205}, {"loss": 0.47857385873794556, "token_acc": 0.8204334365325078, "grad_norm": 2.4439475536346436, "learning_rate": 9.633969242539643e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.1666329625884732, "step": 206}, {"loss": 0.5055133104324341, "token_acc": 0.8614864864864865, "grad_norm": 2.991232395172119, "learning_rate": 9.628931879414519e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16744186046511628, "step": 207}, {"loss": 0.48094457387924194, "token_acc": 0.8517110266159695, "grad_norm": 2.8914828300476074, "learning_rate": 9.623861425696919e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022774, "epoch": 0.16825075834175934, "step": 208}, {"loss": 0.4644262492656708, "token_acc": 0.8459016393442623, "grad_norm": 3.07913875579834, "learning_rate": 9.618757917633724e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.16905965621840244, "step": 209}, {"loss": 0.49402916431427, "token_acc": 0.8023255813953488, "grad_norm": 3.3538849353790283, "learning_rate": 9.6136213917081e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.1698685540950455, "step": 210}, {"loss": 0.5242215394973755, "token_acc": 0.8426966292134831, "grad_norm": 2.8253116607666016, "learning_rate": 9.608451884639249e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17067745197168857, "step": 211}, {"loss": 0.4387696385383606, "token_acc": 0.8384279475982532, "grad_norm": 3.1118881702423096, "learning_rate": 9.603249433382145e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.17148634984833164, "step": 212}, {"loss": 0.4570474922657013, "token_acc": 0.8423423423423423, "grad_norm": 3.0564656257629395, "learning_rate": 9.598014075127267e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17229524772497473, "step": 213}, {"loss": 0.4705919027328491, "token_acc": 0.8900343642611683, "grad_norm": 2.173403024673462, "learning_rate": 9.592745847300334e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.1731041456016178, "step": 214}, {"loss": 0.4593808650970459, "token_acc": 0.8425655976676385, "grad_norm": 2.676457405090332, "learning_rate": 9.587444787562038e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.17391304347826086, "step": 215}, {"loss": 0.5120923519134521, "token_acc": 0.8402555910543131, "grad_norm": 2.6276440620422363, "learning_rate": 9.582110933807778e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17472194135490393, "step": 216}, {"loss": 0.5409821271896362, "token_acc": 0.8786885245901639, "grad_norm": 2.9223127365112305, "learning_rate": 9.57674432416738e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17553083923154703, "step": 217}, {"loss": 0.5195801854133606, "token_acc": 0.8904761904761904, "grad_norm": 2.7943737506866455, "learning_rate": 9.571344997004833e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.1763397371081901, "step": 218}, {"loss": 0.5200923085212708, "token_acc": 0.8181818181818182, "grad_norm": 3.1022114753723145, "learning_rate": 9.565912990918014e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17714863498483316, "step": 219}, {"loss": 0.5091375112533569, "token_acc": 0.823045267489712, "grad_norm": 2.570176124572754, "learning_rate": 9.560448344738409e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17795753286147623, "step": 220}, {"loss": 0.4781090021133423, "token_acc": 0.8544061302681992, "grad_norm": 3.0033743381500244, "learning_rate": 9.554951097530833e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.17876643073811932, "step": 221}, {"loss": 0.4314906597137451, "token_acc": 0.8851063829787233, "grad_norm": 2.6318182945251465, "learning_rate": 9.549421288593157e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.1795753286147624, "step": 222}, {"loss": 0.5246187448501587, "token_acc": 0.8140495867768595, "grad_norm": 2.8283627033233643, "learning_rate": 9.543858957456027e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18038422649140545, "step": 223}, {"loss": 0.583112359046936, "token_acc": 0.8316831683168316, "grad_norm": 2.760436773300171, "learning_rate": 9.538264143882573e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18119312436804855, "step": 224}, {"loss": 0.5270188450813293, "token_acc": 0.8197424892703863, "grad_norm": 2.844444513320923, "learning_rate": 9.532636887868132e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.1820020222446916, "step": 225}, {"loss": 0.6098812818527222, "token_acc": 0.8528138528138528, "grad_norm": 3.431413173675537, "learning_rate": 9.526977229639967e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.18281092012133468, "step": 226}, {"loss": 0.5220578908920288, "token_acc": 0.8111888111888111, "grad_norm": 3.651771068572998, "learning_rate": 9.521285209656964e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18361981799797775, "step": 227}, {"loss": 0.5361062288284302, "token_acc": 0.8318181818181818, "grad_norm": 2.586838960647583, "learning_rate": 9.515560868609353e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18442871587462084, "step": 228}, {"loss": 0.5047948360443115, "token_acc": 0.83, "grad_norm": 3.409284830093384, "learning_rate": 9.509804247418421e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.1852376137512639, "step": 229}, {"loss": 0.4199560880661011, "token_acc": 0.8304347826086956, "grad_norm": 2.8747854232788086, "learning_rate": 9.504015387236215e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.18604651162790697, "step": 230}, {"loss": 0.48431631922721863, "token_acc": 0.8588957055214724, "grad_norm": 3.537949800491333, "learning_rate": 9.498194329445235e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.18685540950455004, "step": 231}, {"loss": 0.43944597244262695, "token_acc": 0.8387096774193549, "grad_norm": 2.270864486694336, "learning_rate": 9.492341115658167e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.18766430738119314, "step": 232}, {"loss": 0.4949726462364197, "token_acc": 0.8244274809160306, "grad_norm": 2.3423984050750732, "learning_rate": 9.486455787717556e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.1884732052578362, "step": 233}, {"loss": 0.5247252583503723, "token_acc": 0.8256578947368421, "grad_norm": 2.186225175857544, "learning_rate": 9.480538387695526e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.18928210313447927, "step": 234}, {"loss": 0.5562118291854858, "token_acc": 0.815668202764977, "grad_norm": 6.916714191436768, "learning_rate": 9.474588957893471e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.19009100101112233, "step": 235}, {"loss": 0.4648740589618683, "token_acc": 0.8404255319148937, "grad_norm": 2.669564962387085, "learning_rate": 9.468607540841755e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.19089989888776543, "step": 236}, {"loss": 0.47179466485977173, "token_acc": 0.8296943231441049, "grad_norm": 2.7446367740631104, "learning_rate": 9.462594179299408e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.1917087967644085, "step": 237}, {"loss": 0.43457281589508057, "token_acc": 0.8382838283828383, "grad_norm": 2.733185052871704, "learning_rate": 9.456548916253816e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19251769464105156, "step": 238}, {"loss": 0.5208027362823486, "token_acc": 0.8494623655913979, "grad_norm": 2.792586326599121, "learning_rate": 9.450471794920425e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19332659251769463, "step": 239}, {"loss": 0.5069155693054199, "token_acc": 0.821917808219178, "grad_norm": 3.106788158416748, "learning_rate": 9.444362858742417e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19413549039433772, "step": 240}, {"loss": 0.48083266615867615, "token_acc": 0.875, "grad_norm": 2.545304298400879, "learning_rate": 9.438222151390413e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.1949443882709808, "step": 241}, {"loss": 0.45232367515563965, "token_acc": 0.8584070796460177, "grad_norm": 2.3545124530792236, "learning_rate": 9.432049716762151e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19575328614762386, "step": 242}, {"loss": 0.46154850721359253, "token_acc": 0.8481848184818482, "grad_norm": 2.424670934677124, "learning_rate": 9.425845598982178e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19656218402426692, "step": 243}, {"loss": 0.5216662883758545, "token_acc": 0.8381742738589212, "grad_norm": 3.0621895790100098, "learning_rate": 9.419609842401529e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022775, "epoch": 0.19737108190091002, "step": 244}, {"loss": 0.578390896320343, "token_acc": 0.8411214953271028, "grad_norm": 3.4800291061401367, "learning_rate": 9.41334249159742e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19817997977755308, "step": 245}, {"loss": 0.45752766728401184, "token_acc": 0.8452830188679246, "grad_norm": 2.887791633605957, "learning_rate": 9.407043591372917e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19898887765419615, "step": 246}, {"loss": 0.47424283623695374, "token_acc": 0.8492063492063492, "grad_norm": 2.991569995880127, "learning_rate": 9.400713186756625e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022776, "epoch": 0.19979777553083924, "step": 247}, {"loss": 0.4558030366897583, "token_acc": 0.8471615720524017, "grad_norm": 2.222763776779175, "learning_rate": 9.394351323002362e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.2006066734074823, "step": 248}, {"loss": 0.47976818680763245, "token_acc": 0.8878048780487805, "grad_norm": 2.18121075630188, "learning_rate": 9.387958045588837e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20141557128412538, "step": 249}, {"loss": 0.42482298612594604, "token_acc": 0.8661971830985915, "grad_norm": 2.4463536739349365, "learning_rate": 9.381533400219319e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20222446916076844, "step": 250}, {"loss": 0.4842270016670227, "token_acc": 0.8290909090909091, "grad_norm": 2.2221012115478516, "learning_rate": 9.375077432821322e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20303336703741154, "step": 251}, {"loss": 0.49549242854118347, "token_acc": 0.8470948012232415, "grad_norm": 2.4321460723876953, "learning_rate": 9.368590189546268e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.2038422649140546, "step": 252}, {"loss": 0.604824423789978, "token_acc": 0.8354430379746836, "grad_norm": 2.9055986404418945, "learning_rate": 9.362071716769158e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20465116279069767, "step": 253}, {"loss": 0.43147778511047363, "token_acc": 0.8907563025210085, "grad_norm": 2.3008358478546143, "learning_rate": 9.355522061088242e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022777, "epoch": 0.20546006066734074, "step": 254}, {"loss": 0.4882833957672119, "token_acc": 0.8423423423423423, "grad_norm": 2.770148515701294, "learning_rate": 9.348941269324686e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.20626895854398383, "step": 255}, {"loss": 0.5174039006233215, "token_acc": 0.825503355704698, "grad_norm": 3.3866539001464844, "learning_rate": 9.342329388522239e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.2070778564206269, "step": 256}, {"loss": 0.5126312971115112, "token_acc": 0.8125, "grad_norm": 3.170250654220581, "learning_rate": 9.335686465946888e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.20788675429726997, "step": 257}, {"loss": 0.3875027298927307, "token_acc": 0.7954545454545454, "grad_norm": 2.1758675575256348, "learning_rate": 9.32901254908653e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.20869565217391303, "step": 258}, {"loss": 0.4708499312400818, "token_acc": 0.8743718592964824, "grad_norm": 2.4927093982696533, "learning_rate": 9.322307685650638e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.20950455005055613, "step": 259}, {"loss": 0.48012182116508484, "token_acc": 0.8479087452471483, "grad_norm": 3.2660865783691406, "learning_rate": 9.315571923569892e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.2103134479271992, "step": 260}, {"loss": 0.4679752588272095, "token_acc": 0.813953488372093, "grad_norm": 2.607844829559326, "learning_rate": 9.308805310995877e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022778, "epoch": 0.21112234580384226, "step": 261}, {"loss": 0.47132837772369385, "token_acc": 0.8687258687258688, "grad_norm": 2.9813013076782227, "learning_rate": 9.302007896300697e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21193124368048533, "step": 262}, {"loss": 0.47330912947654724, "token_acc": 0.8465608465608465, "grad_norm": 2.997264862060547, "learning_rate": 9.295179728076666e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21274014155712842, "step": 263}, {"loss": 0.5202451348304749, "token_acc": 0.8395061728395061, "grad_norm": 2.7569003105163574, "learning_rate": 9.288320855135936e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.2135490394337715, "step": 264}, {"loss": 0.5138571262359619, "token_acc": 0.8263888888888888, "grad_norm": 3.455897569656372, "learning_rate": 9.281431326510153e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21435793731041455, "step": 265}, {"loss": 0.4587266147136688, "token_acc": 0.8116591928251121, "grad_norm": 2.402111291885376, "learning_rate": 9.27451119145012e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21516683518705762, "step": 266}, {"loss": 0.5164949893951416, "token_acc": 0.845771144278607, "grad_norm": 2.7626912593841553, "learning_rate": 9.267560499425425e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022779, "epoch": 0.21597573306370071, "step": 267}, {"loss": 0.47523602843284607, "token_acc": 0.8202247191011236, "grad_norm": 2.1381757259368896, "learning_rate": 9.2605793001241e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.21678463094034378, "step": 268}, {"loss": 0.5109878778457642, "token_acc": 0.8279569892473119, "grad_norm": 3.386496067047119, "learning_rate": 9.253567643452263e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.21759352881698685, "step": 269}, {"loss": 0.47165533900260925, "token_acc": 0.8557046979865772, "grad_norm": 3.036259889602661, "learning_rate": 9.246525579533765e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.21840242669362994, "step": 270}, {"loss": 0.452242374420166, "token_acc": 0.9050445103857567, "grad_norm": 2.2953364849090576, "learning_rate": 9.239453158709822e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.219211324570273, "step": 271}, {"loss": 0.5369592905044556, "token_acc": 0.8627450980392157, "grad_norm": 3.2290663719177246, "learning_rate": 9.232350431538656e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.22002022244691607, "step": 272}, {"loss": 0.46493035554885864, "token_acc": 0.8185483870967742, "grad_norm": 2.628915786743164, "learning_rate": 9.225217448795155e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.22082912032355914, "step": 273}, {"loss": 0.462538480758667, "token_acc": 0.8456375838926175, "grad_norm": 2.308983325958252, "learning_rate": 9.218054261470477e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.22163801820020224, "step": 274}, {"loss": 0.43489784002304077, "token_acc": 0.842741935483871, "grad_norm": 3.000230550765991, "learning_rate": 9.210860920771706e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02278, "epoch": 0.2224469160768453, "step": 275}, {"loss": 0.46363720297813416, "token_acc": 0.8724489795918368, "grad_norm": 2.6025278568267822, "learning_rate": 9.203637478121492e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022781, "epoch": 0.22325581395348837, "step": 276}, {"loss": 0.46590667963027954, "token_acc": 0.8736842105263158, "grad_norm": 3.2257838249206543, "learning_rate": 9.196383985157657e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022781, "epoch": 0.22406471183013144, "step": 277}, {"loss": 0.4720000624656677, "token_acc": 0.8990825688073395, "grad_norm": 2.476445436477661, "learning_rate": 9.189100493732852e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022781, "epoch": 0.22487360970677453, "step": 278}, {"loss": 0.43296879529953003, "token_acc": 0.8297872340425532, "grad_norm": 1.9399663209915161, "learning_rate": 9.181787055914175e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022782, "epoch": 0.2256825075834176, "step": 279}, {"loss": 0.43587636947631836, "token_acc": 0.8951612903225806, "grad_norm": 2.530008554458618, "learning_rate": 9.1744437239828e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022782, "epoch": 0.22649140546006066, "step": 280}, {"loss": 0.3868146538734436, "token_acc": 0.8425925925925926, "grad_norm": 2.7868869304656982, "learning_rate": 9.167070550433604e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022783, "epoch": 0.22730030333670373, "step": 281}, {"loss": 0.40206730365753174, "token_acc": 0.8894736842105263, "grad_norm": 2.6715898513793945, "learning_rate": 9.159667587974786e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022783, "epoch": 0.22810920121334682, "step": 282}, {"loss": 0.5806437730789185, "token_acc": 0.7923728813559322, "grad_norm": 2.36309552192688, "learning_rate": 9.1522348895275e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022783, "epoch": 0.2289180990899899, "step": 283}, {"loss": 0.4016059339046478, "token_acc": 0.872093023255814, "grad_norm": 2.1452529430389404, "learning_rate": 9.144772508225477e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022783, "epoch": 0.22972699696663296, "step": 284}, {"loss": 0.3909257650375366, "token_acc": 0.8805460750853242, "grad_norm": 2.564225196838379, "learning_rate": 9.137280497414628e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022783, "epoch": 0.23053589484327602, "step": 285}, {"loss": 0.4310418963432312, "token_acc": 0.8644859813084113, "grad_norm": 2.211818218231201, "learning_rate": 9.129758910652684e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.23134479271991912, "step": 286}, {"loss": 0.43590471148490906, "token_acc": 0.864, "grad_norm": 3.1847712993621826, "learning_rate": 9.122207801708802e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.23215369059656218, "step": 287}, {"loss": 0.4442121386528015, "token_acc": 0.884, "grad_norm": 2.477933406829834, "learning_rate": 9.114627224563182e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.23296258847320525, "step": 288}, {"loss": 0.47166556119918823, "token_acc": 0.8571428571428571, "grad_norm": 3.274622678756714, "learning_rate": 9.10701723340668e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.23377148634984835, "step": 289}, {"loss": 0.46739423274993896, "token_acc": 0.8502202643171806, "grad_norm": 3.145052671432495, "learning_rate": 9.099377882640425e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.2345803842264914, "step": 290}, {"loss": 0.4193730354309082, "token_acc": 0.8828451882845189, "grad_norm": 2.3364012241363525, "learning_rate": 9.09170922687543e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23538928210313448, "step": 291}, {"loss": 0.5026365518569946, "token_acc": 0.8571428571428571, "grad_norm": 2.827242612838745, "learning_rate": 9.08401132093219e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23619817997977754, "step": 292}, {"loss": 0.46792399883270264, "token_acc": 0.8814814814814815, "grad_norm": 3.1282265186309814, "learning_rate": 9.076284219840306e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23700707785642064, "step": 293}, {"loss": 0.48813870549201965, "token_acc": 0.8664122137404581, "grad_norm": 2.6595497131347656, "learning_rate": 9.068527978838086e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.2378159757330637, "step": 294}, {"loss": 0.4249404966831207, "token_acc": 0.815068493150685, "grad_norm": 2.2860071659088135, "learning_rate": 9.060742653372143e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23862487360970677, "step": 295}, {"loss": 0.5840834975242615, "token_acc": 0.8630705394190872, "grad_norm": 2.8490703105926514, "learning_rate": 9.052928299097013e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.23943377148634984, "step": 296}, {"loss": 0.4933628439903259, "token_acc": 0.8488372093023255, "grad_norm": 2.5748631954193115, "learning_rate": 9.045084971874738e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24024266936299293, "step": 297}, {"loss": 0.47793740034103394, "token_acc": 0.8963730569948186, "grad_norm": 2.2127761840820312, "learning_rate": 9.037212727774486e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.241051567239636, "step": 298}, {"loss": 0.4578291177749634, "token_acc": 0.8131868131868132, "grad_norm": 2.8014166355133057, "learning_rate": 9.029311623072137e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.24186046511627907, "step": 299}, {"loss": 0.5257298350334167, "token_acc": 0.8229166666666666, "grad_norm": 2.5986998081207275, "learning_rate": 9.021381714249888e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.24266936299292213, "step": 300}, {"loss": 0.5010583400726318, "token_acc": 0.8590308370044053, "grad_norm": 2.7166779041290283, "learning_rate": 9.013423057995845e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022784, "epoch": 0.24347826086956523, "step": 301}, {"loss": 0.4537706971168518, "token_acc": 0.8659003831417624, "grad_norm": 2.9347927570343018, "learning_rate": 9.005435711203619e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.2442871587462083, "step": 302}, {"loss": 0.39763540029525757, "token_acc": 0.8690476190476191, "grad_norm": 2.4154651165008545, "learning_rate": 8.997419730971917e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24509605662285136, "step": 303}, {"loss": 0.5160707235336304, "token_acc": 0.8614718614718615, "grad_norm": 2.5024564266204834, "learning_rate": 8.989375174604142e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24590495449949443, "step": 304}, {"loss": 0.4616546332836151, "token_acc": 0.8442028985507246, "grad_norm": 2.6469497680664062, "learning_rate": 8.981302099607973e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24671385237613752, "step": 305}, {"loss": 0.42548537254333496, "token_acc": 0.852589641434263, "grad_norm": 2.6130266189575195, "learning_rate": 8.973200563694964e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.2475227502527806, "step": 306}, {"loss": 0.48335641622543335, "token_acc": 0.846441947565543, "grad_norm": 2.578451156616211, "learning_rate": 8.965070624780117e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24833164812942365, "step": 307}, {"loss": 0.4736361801624298, "token_acc": 0.8448979591836735, "grad_norm": 2.4299726486206055, "learning_rate": 8.956912340981485e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24914054600606672, "step": 308}, {"loss": 0.503253698348999, "token_acc": 0.8466453674121406, "grad_norm": 2.816293239593506, "learning_rate": 8.948725770619745e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.24994944388270982, "step": 309}, {"loss": 0.43048620223999023, "token_acc": 0.8262295081967214, "grad_norm": 2.6718838214874268, "learning_rate": 8.940510972217785e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.25075834175935285, "step": 310}, {"loss": 0.51353919506073, "token_acc": 0.8412017167381974, "grad_norm": 2.4307098388671875, "learning_rate": 8.932268004500288e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.251567239635996, "step": 311}, {"loss": 0.4586646556854248, "token_acc": 0.8692579505300353, "grad_norm": 2.6662516593933105, "learning_rate": 8.923996926393306e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25237613751263904, "step": 312}, {"loss": 0.5299907326698303, "token_acc": 0.8582089552238806, "grad_norm": 3.027970790863037, "learning_rate": 8.915697797023841e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2531850353892821, "step": 313}, {"loss": 0.5199022889137268, "token_acc": 0.8116883116883117, "grad_norm": 2.6045422554016113, "learning_rate": 8.907370675719428e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022785, "epoch": 0.2539939332659252, "step": 314}, {"loss": 0.45891785621643066, "token_acc": 0.8243243243243243, "grad_norm": 2.7272956371307373, "learning_rate": 8.899015622007703e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25480283114256824, "step": 315}, {"loss": 0.39891767501831055, "token_acc": 0.8440677966101695, "grad_norm": 2.200077533721924, "learning_rate": 8.890632695615984e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2556117290192113, "step": 316}, {"loss": 0.4599316716194153, "token_acc": 0.8325358851674641, "grad_norm": 2.301032543182373, "learning_rate": 8.882221956470838e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2564206268958544, "step": 317}, {"loss": 0.459076464176178, "token_acc": 0.8393939393939394, "grad_norm": 2.614656448364258, "learning_rate": 8.873783464697653e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2572295247724975, "step": 318}, {"loss": 0.39890217781066895, "token_acc": 0.8304347826086956, "grad_norm": 2.1406943798065186, "learning_rate": 8.865317280620221e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25803842264914056, "step": 319}, {"loss": 0.4256265163421631, "token_acc": 0.8717948717948718, "grad_norm": 2.5298852920532227, "learning_rate": 8.856823464760284e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.25884732052578363, "step": 320}, {"loss": 0.395018070936203, "token_acc": 0.8884462151394422, "grad_norm": 2.3466522693634033, "learning_rate": 8.84830207783712e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2596562184024267, "step": 321}, {"loss": 0.4618658423423767, "token_acc": 0.8387096774193549, "grad_norm": 2.6752617359161377, "learning_rate": 8.839753180767108e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.26046511627906976, "step": 322}, {"loss": 0.4209662675857544, "token_acc": 0.8830645161290323, "grad_norm": 2.248332977294922, "learning_rate": 8.831176834663275e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.26127401415571283, "step": 323}, {"loss": 0.4762377440929413, "token_acc": 0.8810572687224669, "grad_norm": 2.6968088150024414, "learning_rate": 8.82257310083488e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2620829120323559, "step": 324}, {"loss": 0.5154784917831421, "token_acc": 0.8494208494208494, "grad_norm": 3.221013307571411, "learning_rate": 8.813942040786964e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.26289180990899896, "step": 325}, {"loss": 0.47922518849372864, "token_acc": 0.8412698412698413, "grad_norm": 1.9791827201843262, "learning_rate": 8.805283716219917e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2637007077856421, "step": 326}, {"loss": 0.4087769389152527, "token_acc": 0.8360655737704918, "grad_norm": 1.939926266670227, "learning_rate": 8.79659818902903e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.26450960566228515, "step": 327}, {"loss": 0.49197518825531006, "token_acc": 0.8293413173652695, "grad_norm": 2.3445236682891846, "learning_rate": 8.787885521304056e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2653185035389282, "step": 328}, {"loss": 0.4610610604286194, "token_acc": 0.8407960199004975, "grad_norm": 2.549042224884033, "learning_rate": 8.779145775328766e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.2661274014155713, "step": 329}, {"loss": 0.5349440574645996, "token_acc": 0.8619246861924686, "grad_norm": 7.023351192474365, "learning_rate": 8.770379013580507e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.26693629929221435, "step": 330}, {"loss": 0.46497541666030884, "token_acc": 0.8870292887029289, "grad_norm": 3.5521559715270996, "learning_rate": 8.761585298729748e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2677451971688574, "step": 331}, {"loss": 0.4779859781265259, "token_acc": 0.837696335078534, "grad_norm": 2.684696674346924, "learning_rate": 8.75276469363964e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2685540950455005, "step": 332}, {"loss": 0.43780291080474854, "token_acc": 0.8692307692307693, "grad_norm": 2.123192310333252, "learning_rate": 8.743917261365557e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2693629929221436, "step": 333}, {"loss": 0.43149372935295105, "token_acc": 0.85, "grad_norm": 2.416212558746338, "learning_rate": 8.73504306515466e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2701718907987867, "step": 334}, {"loss": 0.46393710374832153, "token_acc": 0.8478260869565217, "grad_norm": 2.407726764678955, "learning_rate": 8.726142168445427e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.27098078867542974, "step": 335}, {"loss": 0.4834635555744171, "token_acc": 0.8544303797468354, "grad_norm": 2.2603883743286133, "learning_rate": 8.717214634867213e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2717896865520728, "step": 336}, {"loss": 0.4176112711429596, "token_acc": 0.8802083333333334, "grad_norm": 2.377035140991211, "learning_rate": 8.708260528239788e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022786, "epoch": 0.2725985844287159, "step": 337}, {"loss": 0.4877198338508606, "token_acc": 0.8592964824120602, "grad_norm": 2.855900526046753, "learning_rate": 8.699279912572888e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27340748230535894, "step": 338}, {"loss": 0.44448497891426086, "token_acc": 0.8760683760683761, "grad_norm": 3.3495020866394043, "learning_rate": 8.690272852065748e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.274216380182002, "step": 339}, {"loss": 0.47281521558761597, "token_acc": 0.8225108225108225, "grad_norm": 2.204909563064575, "learning_rate": 8.68123941110665e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.2750252780586451, "step": 340}, {"loss": 0.42724931240081787, "token_acc": 0.875, "grad_norm": 2.295105218887329, "learning_rate": 8.67217965427246e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.2758341759352882, "step": 341}, {"loss": 0.5214186310768127, "token_acc": 0.8205128205128205, "grad_norm": 3.001664876937866, "learning_rate": 8.663093646328166e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27664307381193126, "step": 342}, {"loss": 0.43387383222579956, "token_acc": 0.908256880733945, "grad_norm": 2.665395736694336, "learning_rate": 8.653981452226418e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27745197168857433, "step": 343}, {"loss": 0.5246144533157349, "token_acc": 0.825925925925926, "grad_norm": 2.3217623233795166, "learning_rate": 8.644843137107058e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.2782608695652174, "step": 344}, {"loss": 0.48798543214797974, "token_acc": 0.848780487804878, "grad_norm": 2.4558563232421875, "learning_rate": 8.635678766296663e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27906976744186046, "step": 345}, {"loss": 0.5087660551071167, "token_acc": 0.8311688311688312, "grad_norm": 2.1867096424102783, "learning_rate": 8.626488405308067e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.27987866531850353, "step": 346}, {"loss": 0.43445640802383423, "token_acc": 0.8571428571428571, "grad_norm": 2.2217187881469727, "learning_rate": 8.617272119839903e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.2806875631951466, "step": 347}, {"loss": 0.4504978656768799, "token_acc": 0.8523809523809524, "grad_norm": 2.6297953128814697, "learning_rate": 8.608029975776128e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.28149646107178966, "step": 348}, {"loss": 0.45087772607803345, "token_acc": 0.8565400843881856, "grad_norm": 3.717496156692505, "learning_rate": 8.598762039185553e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.2823053589484328, "step": 349}, {"loss": 0.4105454683303833, "token_acc": 0.8566775244299675, "grad_norm": 2.353040933609009, "learning_rate": 8.589468376321369e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.28311425682507585, "step": 350}, {"loss": 0.5255011320114136, "token_acc": 0.8346456692913385, "grad_norm": 2.3427672386169434, "learning_rate": 8.580149053620674e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.2839231547017189, "step": 351}, {"loss": 0.443267822265625, "token_acc": 0.8314176245210728, "grad_norm": 2.3275554180145264, "learning_rate": 8.570804137704005e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.284732052578362, "step": 352}, {"loss": 0.4688035249710083, "token_acc": 0.8375451263537906, "grad_norm": 2.162351608276367, "learning_rate": 8.561433695374848e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.28554095045500505, "step": 353}, {"loss": 0.488004207611084, "token_acc": 0.8119266055045872, "grad_norm": 2.127072811126709, "learning_rate": 8.552037793619177e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.2863498483316481, "step": 354}, {"loss": 0.4488160312175751, "token_acc": 0.8196078431372549, "grad_norm": 2.731759786605835, "learning_rate": 8.542616499604958e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.2871587462082912, "step": 355}, {"loss": 0.3923991024494171, "token_acc": 0.8362989323843416, "grad_norm": 2.025136709213257, "learning_rate": 8.533169880681682e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.2879676440849343, "step": 356}, {"loss": 0.46766936779022217, "token_acc": 0.8260869565217391, "grad_norm": 2.501194477081299, "learning_rate": 8.523698004379878e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022787, "epoch": 0.28877654196157737, "step": 357}, {"loss": 0.48559021949768066, "token_acc": 0.86328125, "grad_norm": 2.192864179611206, "learning_rate": 8.514200938410628e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.28958543983822044, "step": 358}, {"loss": 0.5047175288200378, "token_acc": 0.8647540983606558, "grad_norm": 2.9228947162628174, "learning_rate": 8.504678750665094e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.2903943377148635, "step": 359}, {"loss": 0.4464142620563507, "token_acc": 0.8411552346570397, "grad_norm": 2.388331174850464, "learning_rate": 8.495131509214015e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.29120323559150657, "step": 360}, {"loss": 0.44610536098480225, "token_acc": 0.892018779342723, "grad_norm": 3.4440038204193115, "learning_rate": 8.485559282307237e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.29201213346814964, "step": 361}, {"loss": 0.43880611658096313, "token_acc": 0.8632478632478633, "grad_norm": 2.4162344932556152, "learning_rate": 8.475962138373212e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.2928210313447927, "step": 362}, {"loss": 0.4168269634246826, "token_acc": 0.8543307086614174, "grad_norm": 2.4398529529571533, "learning_rate": 8.466340146018522e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.29362992922143577, "step": 363}, {"loss": 0.4725669026374817, "token_acc": 0.8543689320388349, "grad_norm": 2.5178182125091553, "learning_rate": 8.456693374027378e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022788, "epoch": 0.2944388270980789, "step": 364}, {"loss": 0.5213101506233215, "token_acc": 0.839344262295082, "grad_norm": 2.5267229080200195, "learning_rate": 8.44702189136113e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.29524772497472196, "step": 365}, {"loss": 0.4878075122833252, "token_acc": 0.8620689655172413, "grad_norm": 2.3971071243286133, "learning_rate": 8.43732576715778e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.296056622851365, "step": 366}, {"loss": 0.38472825288772583, "token_acc": 0.8538461538461538, "grad_norm": 3.86580753326416, "learning_rate": 8.427605070731482e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.2968655207280081, "step": 367}, {"loss": 0.5018994808197021, "token_acc": 0.8375796178343949, "grad_norm": 2.5940558910369873, "learning_rate": 8.417859871572045e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.29767441860465116, "step": 368}, {"loss": 0.4518444240093231, "token_acc": 0.8458149779735683, "grad_norm": 2.456550359725952, "learning_rate": 8.408090239344442e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.2984833164812942, "step": 369}, {"loss": 0.4444255828857422, "token_acc": 0.8786407766990292, "grad_norm": 3.4539546966552734, "learning_rate": 8.39829624388831e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.2992922143579373, "step": 370}, {"loss": 0.4359434247016907, "token_acc": 0.8415841584158416, "grad_norm": 2.5049355030059814, "learning_rate": 8.38847795521745e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022789, "epoch": 0.30010111223458036, "step": 371}, {"loss": 0.4071110785007477, "token_acc": 0.8516949152542372, "grad_norm": 2.7211098670959473, "learning_rate": 8.378635443519327e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.3009100101112235, "step": 372}, {"loss": 0.449047714471817, "token_acc": 0.8604651162790697, "grad_norm": 2.0721325874328613, "learning_rate": 8.368768779154564e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.30171890798786655, "step": 373}, {"loss": 0.436679869890213, "token_acc": 0.8672566371681416, "grad_norm": 2.6694495677948, "learning_rate": 8.358878032656446e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.3025278058645096, "step": 374}, {"loss": 0.4522557556629181, "token_acc": 0.8481675392670157, "grad_norm": 2.6044750213623047, "learning_rate": 8.348963274730413e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.3033367037411527, "step": 375}, {"loss": 0.3990349769592285, "token_acc": 0.8393574297188755, "grad_norm": 2.2683019638061523, "learning_rate": 8.339024576253555e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.30414560161779575, "step": 376}, {"loss": 0.47003981471061707, "token_acc": 0.8828125, "grad_norm": 2.6098105907440186, "learning_rate": 8.3290620082741e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.02279, "epoch": 0.3049544994944388, "step": 377}, {"loss": 0.46801501512527466, "token_acc": 0.8024691358024691, "grad_norm": 2.756648540496826, "learning_rate": 8.319075642010914e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.3057633973710819, "step": 378}, {"loss": 0.45518428087234497, "token_acc": 0.86328125, "grad_norm": 2.435135841369629, "learning_rate": 8.30906554885299e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.306572295247725, "step": 379}, {"loss": 0.40630266070365906, "token_acc": 0.8652173913043478, "grad_norm": 2.305549144744873, "learning_rate": 8.299031800358933e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.30738119312436807, "step": 380}, {"loss": 0.5275822877883911, "token_acc": 0.8652849740932642, "grad_norm": 2.8813188076019287, "learning_rate": 8.288974468256453e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.30819009100101113, "step": 381}, {"loss": 0.4657808542251587, "token_acc": 0.8081632653061225, "grad_norm": 2.2883760929107666, "learning_rate": 8.278893624441849e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.3089989888776542, "step": 382}, {"loss": 0.4899158179759979, "token_acc": 0.8776371308016878, "grad_norm": 2.4337222576141357, "learning_rate": 8.268789340979499e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.30980788675429727, "step": 383}, {"loss": 0.4913978576660156, "token_acc": 0.8454935622317596, "grad_norm": 2.359471082687378, "learning_rate": 8.258661690101347e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.31061678463094033, "step": 384}, {"loss": 0.3954363167285919, "token_acc": 0.876984126984127, "grad_norm": 2.946106433868408, "learning_rate": 8.24851074420637e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.3114256825075834, "step": 385}, {"loss": 0.4366721212863922, "token_acc": 0.8426229508196721, "grad_norm": 2.676274299621582, "learning_rate": 8.238336575860085e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022791, "epoch": 0.31223458038422647, "step": 386}, {"loss": 0.4242827892303467, "token_acc": 0.8724137931034482, "grad_norm": 2.2800793647766113, "learning_rate": 8.228139257794012e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.3130434782608696, "step": 387}, {"loss": 0.44696488976478577, "token_acc": 0.8759398496240601, "grad_norm": 2.1262009143829346, "learning_rate": 8.217918862905163e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31385237613751266, "step": 388}, {"loss": 0.4506322741508484, "token_acc": 0.8823529411764706, "grad_norm": 2.389130115509033, "learning_rate": 8.207675464255519e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.3146612740141557, "step": 389}, {"loss": 0.416850209236145, "token_acc": 0.8865248226950354, "grad_norm": 2.2962496280670166, "learning_rate": 8.197409135071497e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.3154701718907988, "step": 390}, {"loss": 0.423944354057312, "token_acc": 0.8411552346570397, "grad_norm": 2.0682525634765625, "learning_rate": 8.18711994874345e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31627906976744186, "step": 391}, {"loss": 0.44383469223976135, "token_acc": 0.8977777777777778, "grad_norm": 2.43737530708313, "learning_rate": 8.17680797882512e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.3170879676440849, "step": 392}, {"loss": 0.4669773280620575, "token_acc": 0.8571428571428571, "grad_norm": 3.0157485008239746, "learning_rate": 8.166473299033122e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.317896865520728, "step": 393}, {"loss": 0.46818387508392334, "token_acc": 0.7833333333333333, "grad_norm": 2.434302568435669, "learning_rate": 8.15611598324642e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.31870576339737106, "step": 394}, {"loss": 0.45939022302627563, "token_acc": 0.8424908424908425, "grad_norm": 2.063925266265869, "learning_rate": 8.145736105505788e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.3195146612740142, "step": 395}, {"loss": 0.5139025449752808, "token_acc": 0.8441176470588235, "grad_norm": 2.5207791328430176, "learning_rate": 8.135333740013294e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.32032355915065724, "step": 396}, {"loss": 0.4349074959754944, "token_acc": 0.852017937219731, "grad_norm": 2.687681198120117, "learning_rate": 8.124908961131759e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022792, "epoch": 0.3211324570273003, "step": 397}, {"loss": 0.4546552300453186, "token_acc": 0.8714859437751004, "grad_norm": 2.1986069679260254, "learning_rate": 8.114461843384229e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.3219413549039434, "step": 398}, {"loss": 0.5386300086975098, "token_acc": 0.8553191489361702, "grad_norm": 2.6796491146087646, "learning_rate": 8.103992461453447e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32275025278058644, "step": 399}, {"loss": 0.4470570683479309, "token_acc": 0.8025889967637541, "grad_norm": 2.465752363204956, "learning_rate": 8.093500890181307e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.3235591506572295, "step": 400}, {"loss": 0.4630998373031616, "token_acc": 0.8252788104089219, "grad_norm": 2.695773124694824, "learning_rate": 8.082987204568336e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.3243680485338726, "step": 401}, {"loss": 0.47690147161483765, "token_acc": 0.8565400843881856, "grad_norm": 2.6388256549835205, "learning_rate": 8.072451479773143e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.3251769464105157, "step": 402}, {"loss": 0.5046311020851135, "token_acc": 0.825, "grad_norm": 2.6586854457855225, "learning_rate": 8.061893791111887e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32598584428715877, "step": 403}, {"loss": 0.45166927576065063, "token_acc": 0.8725490196078431, "grad_norm": 2.575148820877075, "learning_rate": 8.05131421405774e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.32679474216380183, "step": 404}, {"loss": 0.47704529762268066, "token_acc": 0.8539682539682539, "grad_norm": 2.7520835399627686, "learning_rate": 8.040712824240348e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.3276036400404449, "step": 405}, {"loss": 0.44387978315353394, "token_acc": 0.8506224066390041, "grad_norm": 2.6821768283843994, "learning_rate": 8.030089697445287e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.32841253791708797, "step": 406}, {"loss": 0.47109007835388184, "token_acc": 0.8415300546448088, "grad_norm": 2.5903446674346924, "learning_rate": 8.019444909613524e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.32922143579373103, "step": 407}, {"loss": 0.4276235103607178, "token_acc": 0.8691588785046729, "grad_norm": 1.9421981573104858, "learning_rate": 8.00877853684087e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.3300303336703741, "step": 408}, {"loss": 0.4399895668029785, "token_acc": 0.8153846153846154, "grad_norm": 1.9274567365646362, "learning_rate": 7.998090655377441e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33083923154701717, "step": 409}, {"loss": 0.4371504485607147, "token_acc": 0.8447488584474886, "grad_norm": 2.349695920944214, "learning_rate": 7.987381341627116e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.3316481294236603, "step": 410}, {"loss": 0.4392384886741638, "token_acc": 0.845360824742268, "grad_norm": 2.508023738861084, "learning_rate": 7.976650672146977e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33245702730030335, "step": 411}, {"loss": 0.42986416816711426, "token_acc": 0.8504273504273504, "grad_norm": 2.007159948348999, "learning_rate": 7.965898723646777e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022793, "epoch": 0.3332659251769464, "step": 412}, {"loss": 0.45020729303359985, "token_acc": 0.8546099290780141, "grad_norm": 2.3318965435028076, "learning_rate": 7.955125572988381e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.3340748230535895, "step": 413}, {"loss": 0.4530584216117859, "token_acc": 0.8896103896103896, "grad_norm": 2.5200366973876953, "learning_rate": 7.944331297185224e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33488372093023255, "step": 414}, {"loss": 0.44627559185028076, "token_acc": 0.875, "grad_norm": 2.353825569152832, "learning_rate": 7.933515973401756e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.3356926188068756, "step": 415}, {"loss": 0.4454203248023987, "token_acc": 0.8151260504201681, "grad_norm": 2.2710440158843994, "learning_rate": 7.92267967895289e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.3365015166835187, "step": 416}, {"loss": 0.4395456910133362, "token_acc": 0.8617021276595744, "grad_norm": 2.4699690341949463, "learning_rate": 7.911822491303453e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33731041456016175, "step": 417}, {"loss": 0.4436686038970947, "token_acc": 0.8864468864468864, "grad_norm": 2.3089406490325928, "learning_rate": 7.90094448806763e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.3381193124368049, "step": 418}, {"loss": 0.48908939957618713, "token_acc": 0.8593155893536122, "grad_norm": 2.105353593826294, "learning_rate": 7.890045747008406e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022794, "epoch": 0.33892821031344794, "step": 419}, {"loss": 0.4750370979309082, "token_acc": 0.8844444444444445, "grad_norm": 2.435878276824951, "learning_rate": 7.879126346037018e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022795, "epoch": 0.339737108190091, "step": 420}, {"loss": 0.4756377339363098, "token_acc": 0.8487084870848709, "grad_norm": 2.587909698486328, "learning_rate": 7.868186363212392e-06, "memory(GiB)": 74.33, "train_speed(iter/s)": 0.022795, "epoch": 0.3405460060667341, "step": 421}, {"loss": 0.4277176558971405, "token_acc": 0.8493150684931506, "grad_norm": 2.2281887531280518, "learning_rate": 7.857225876740585e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.34135490394337714, "step": 422}, {"loss": 0.48055747151374817, "token_acc": 0.8837209302325582, "grad_norm": 2.5752649307250977, "learning_rate": 7.846244964974226e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.3421638018200202, "step": 423}, {"loss": 0.4750707745552063, "token_acc": 0.8576642335766423, "grad_norm": 2.586489200592041, "learning_rate": 7.835243706411961e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.3429726996966633, "step": 424}, {"loss": 0.5177239179611206, "token_acc": 0.852589641434263, "grad_norm": 2.450918674468994, "learning_rate": 7.824222179697884e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.3437815975733064, "step": 425}, {"loss": 0.46518608927726746, "token_acc": 0.8423645320197044, "grad_norm": 2.3722708225250244, "learning_rate": 7.813180463620987e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.34459049544994946, "step": 426}, {"loss": 0.4838918149471283, "token_acc": 0.8434782608695652, "grad_norm": 2.5841665267944336, "learning_rate": 7.802118637114575e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.34539939332659253, "step": 427}, {"loss": 0.42157137393951416, "token_acc": 0.8404669260700389, "grad_norm": 2.3192875385284424, "learning_rate": 7.791036779255726e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.3462082912032356, "step": 428}, {"loss": 0.4023537039756775, "token_acc": 0.8734939759036144, "grad_norm": 2.49680495262146, "learning_rate": 7.779934969264714e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.34701718907987866, "step": 429}, {"loss": 0.37253955006599426, "token_acc": 0.9224806201550387, "grad_norm": 2.0230259895324707, "learning_rate": 7.768813286504439e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.34782608695652173, "step": 430}, {"loss": 0.4874904751777649, "token_acc": 0.8592057761732852, "grad_norm": 2.3140506744384766, "learning_rate": 7.757671810479865e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.3486349848331648, "step": 431}, {"loss": 0.37930744886398315, "token_acc": 0.8764940239043825, "grad_norm": 2.2125346660614014, "learning_rate": 7.74651062083746e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.34944388270980786, "step": 432}, {"loss": 0.47669389843940735, "token_acc": 0.8710801393728222, "grad_norm": 2.240590810775757, "learning_rate": 7.735329797364605e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.350252780586451, "step": 433}, {"loss": 0.4742322266101837, "token_acc": 0.8536585365853658, "grad_norm": 2.510114908218384, "learning_rate": 7.724129419989044e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35106167846309405, "step": 434}, {"loss": 0.4492417871952057, "token_acc": 0.8333333333333334, "grad_norm": 2.476958990097046, "learning_rate": 7.712909568778302e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022795, "epoch": 0.3518705763397371, "step": 435}, {"loss": 0.4481479525566101, "token_acc": 0.8601398601398601, "grad_norm": 2.098637104034424, "learning_rate": 7.701670323939117e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.3526794742163802, "step": 436}, {"loss": 0.43956851959228516, "token_acc": 0.8629032258064516, "grad_norm": 2.2469687461853027, "learning_rate": 7.690411765816864e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35348837209302325, "step": 437}, {"loss": 0.4626030921936035, "token_acc": 0.8680851063829788, "grad_norm": 2.8738715648651123, "learning_rate": 7.679133974894984e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.3542972699696663, "step": 438}, {"loss": 0.45615172386169434, "token_acc": 0.8088235294117647, "grad_norm": 2.638291358947754, "learning_rate": 7.667837031794404e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.3551061678463094, "step": 439}, {"loss": 0.4124460816383362, "token_acc": 0.8611111111111112, "grad_norm": 2.2586326599121094, "learning_rate": 7.656521017272965e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35591506572295245, "step": 440}, {"loss": 0.4275168180465698, "token_acc": 0.8487084870848709, "grad_norm": 2.374500274658203, "learning_rate": 7.64518601222484e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.3567239635995956, "step": 441}, {"loss": 0.3909873068332672, "token_acc": 0.8868613138686131, "grad_norm": 1.9997868537902832, "learning_rate": 7.633832097679959e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.35753286147623864, "step": 442}, {"loss": 0.43666255474090576, "token_acc": 0.8704453441295547, "grad_norm": 4.926924705505371, "learning_rate": 7.622459354803435e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.3583417593528817, "step": 443}, {"loss": 0.44106507301330566, "token_acc": 0.8059701492537313, "grad_norm": 2.317330837249756, "learning_rate": 7.611067864894972e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022796, "epoch": 0.3591506572295248, "step": 444}, {"loss": 0.46531200408935547, "token_acc": 0.7931034482758621, "grad_norm": 2.5835938453674316, "learning_rate": 7.599657709388292e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.35995955510616784, "step": 445}, {"loss": 0.5187166333198547, "token_acc": 0.8099173553719008, "grad_norm": 2.8004226684570312, "learning_rate": 7.58822896985055e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3607684529828109, "step": 446}, {"loss": 0.47425639629364014, "token_acc": 0.8085106382978723, "grad_norm": 2.7265071868896484, "learning_rate": 7.5767817279817505e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36157735085945397, "step": 447}, {"loss": 0.4435673952102661, "token_acc": 0.8631578947368421, "grad_norm": 2.1328177452087402, "learning_rate": 7.565316065614168e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3623862487360971, "step": 448}, {"loss": 0.41679224371910095, "token_acc": 0.8908296943231441, "grad_norm": 2.4672372341156006, "learning_rate": 7.5538320647117565e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36319514661274016, "step": 449}, {"loss": 0.5179734826087952, "token_acc": 0.7644444444444445, "grad_norm": 2.6723108291625977, "learning_rate": 7.542329807369566e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3640040444893832, "step": 450}, {"loss": 0.4264351725578308, "token_acc": 0.9, "grad_norm": 3.7509987354278564, "learning_rate": 7.530809375813155e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3648129423660263, "step": 451}, {"loss": 0.4789334535598755, "token_acc": 0.8250950570342205, "grad_norm": 1.9851875305175781, "learning_rate": 7.519270852398002e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36562184024266936, "step": 452}, {"loss": 0.36344388127326965, "token_acc": 0.8487394957983193, "grad_norm": 2.21183705329895, "learning_rate": 7.507714319608922e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3664307381193124, "step": 453}, {"loss": 0.4224799871444702, "token_acc": 0.8813056379821959, "grad_norm": 1.613560676574707, "learning_rate": 7.496139860059468e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3672396359959555, "step": 454}, {"loss": 0.4368416368961334, "token_acc": 0.8559322033898306, "grad_norm": 2.4515528678894043, "learning_rate": 7.484547556491346e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36804853387259856, "step": 455}, {"loss": 0.3967626392841339, "token_acc": 0.8217821782178217, "grad_norm": 2.2103137969970703, "learning_rate": 7.472937491773824e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3688574317492417, "step": 456}, {"loss": 0.45169344544410706, "token_acc": 0.8535714285714285, "grad_norm": 2.522752046585083, "learning_rate": 7.461309748903138e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.36966632962588475, "step": 457}, {"loss": 0.37837380170822144, "token_acc": 0.9108527131782945, "grad_norm": 3.0310842990875244, "learning_rate": 7.449664411001898e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3704752275025278, "step": 458}, {"loss": 0.44610685110092163, "token_acc": 0.870722433460076, "grad_norm": 2.2086234092712402, "learning_rate": 7.438001561318494e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3712841253791709, "step": 459}, {"loss": 0.4015771746635437, "token_acc": 0.8907563025210085, "grad_norm": 2.4862678050994873, "learning_rate": 7.426321283226504e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37209302325581395, "step": 460}, {"loss": 0.4152040481567383, "token_acc": 0.9248826291079812, "grad_norm": 2.0166738033294678, "learning_rate": 7.4146236602240936e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.372901921132457, "step": 461}, {"loss": 0.5621334910392761, "token_acc": 0.8628318584070797, "grad_norm": 2.448951005935669, "learning_rate": 7.402908775933419e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3737108190091001, "step": 462}, {"loss": 0.4613068699836731, "token_acc": 0.8188679245283019, "grad_norm": 2.186652183532715, "learning_rate": 7.391176714100038e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37451971688574315, "step": 463}, {"loss": 0.4919006824493408, "token_acc": 0.8471760797342193, "grad_norm": 2.2740073204040527, "learning_rate": 7.379427558592296e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37532861476238627, "step": 464}, {"loss": 0.42273247241973877, "token_acc": 0.8622047244094488, "grad_norm": 2.158538579940796, "learning_rate": 7.36766139340074e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37613751263902934, "step": 465}, {"loss": 0.5097289085388184, "token_acc": 0.9178082191780822, "grad_norm": 3.0366506576538086, "learning_rate": 7.3558783026375156e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3769464105156724, "step": 466}, {"loss": 0.5165024995803833, "token_acc": 0.8006430868167203, "grad_norm": 2.2849361896514893, "learning_rate": 7.344078370535757e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37775530839231547, "step": 467}, {"loss": 0.4367058277130127, "token_acc": 0.8678571428571429, "grad_norm": 1.753194808959961, "learning_rate": 7.3322616814489955e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.37856420626895854, "step": 468}, {"loss": 0.41317999362945557, "token_acc": 0.8257261410788381, "grad_norm": 1.9058223962783813, "learning_rate": 7.32042831985055e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3793731041456016, "step": 469}, {"loss": 0.3700507581233978, "token_acc": 0.8687943262411347, "grad_norm": 2.459209680557251, "learning_rate": 7.308578370332926e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38018200202224467, "step": 470}, {"loss": 0.40189939737319946, "token_acc": 0.8717948717948718, "grad_norm": 1.8641716241836548, "learning_rate": 7.296711917607211e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3809908998988878, "step": 471}, {"loss": 0.4430382251739502, "token_acc": 0.8419243986254296, "grad_norm": 2.2401087284088135, "learning_rate": 7.284829046502467e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38179979777553086, "step": 472}, {"loss": 0.4755879342556, "token_acc": 0.8486238532110092, "grad_norm": 2.416550636291504, "learning_rate": 7.272929841965126e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3826086956521739, "step": 473}, {"loss": 0.44997456669807434, "token_acc": 0.7671957671957672, "grad_norm": 2.260345935821533, "learning_rate": 7.261014389058383e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.383417593528817, "step": 474}, {"loss": 0.47697365283966064, "token_acc": 0.8628318584070797, "grad_norm": 2.261056661605835, "learning_rate": 7.2490827729615835e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38422649140546006, "step": 475}, {"loss": 0.3827347159385681, "token_acc": 0.8478964401294499, "grad_norm": 2.013577461242676, "learning_rate": 7.237135078969618e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3850353892821031, "step": 476}, {"loss": 0.40540656447410583, "token_acc": 0.863013698630137, "grad_norm": 2.1973073482513428, "learning_rate": 7.225171392492316e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3858442871587462, "step": 477}, {"loss": 0.4136468172073364, "token_acc": 0.8339100346020761, "grad_norm": 2.2481391429901123, "learning_rate": 7.213191799053832e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38665318503538926, "step": 478}, {"loss": 0.4204309284687042, "token_acc": 0.8870967741935484, "grad_norm": 2.1501901149749756, "learning_rate": 7.201196384292027e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3874620829120324, "step": 479}, {"loss": 0.4197065830230713, "token_acc": 0.8160919540229885, "grad_norm": 2.1305158138275146, "learning_rate": 7.189185233957868e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.38827098078867545, "step": 480}, {"loss": 0.4064275622367859, "token_acc": 0.8907103825136612, "grad_norm": 2.526954174041748, "learning_rate": 7.177158433914811e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3890798786653185, "step": 481}, {"loss": 0.46176213026046753, "token_acc": 0.834983498349835, "grad_norm": 3.277456283569336, "learning_rate": 7.165116070138183e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3898887765419616, "step": 482}, {"loss": 0.3911609649658203, "token_acc": 0.8909952606635071, "grad_norm": 2.337390184402466, "learning_rate": 7.153058228714573e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39069767441860465, "step": 483}, {"loss": 0.43842604756355286, "token_acc": 0.844559585492228, "grad_norm": 2.273653745651245, "learning_rate": 7.140984995841214e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3915065722952477, "step": 484}, {"loss": 0.41556501388549805, "token_acc": 0.8459016393442623, "grad_norm": 2.842496395111084, "learning_rate": 7.128896457825364e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3923154701718908, "step": 485}, {"loss": 0.4312630891799927, "token_acc": 0.8566433566433567, "grad_norm": 2.3521416187286377, "learning_rate": 7.116792701083697e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39312436804853385, "step": 486}, {"loss": 0.4646815359592438, "token_acc": 0.8078602620087336, "grad_norm": 2.2411739826202393, "learning_rate": 7.104673812141676e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39393326592517697, "step": 487}, {"loss": 0.41715699434280396, "token_acc": 0.8636363636363636, "grad_norm": 2.26692533493042, "learning_rate": 7.09253987763294e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39474216380182003, "step": 488}, {"loss": 0.39702218770980835, "token_acc": 0.8631578947368421, "grad_norm": 2.127204179763794, "learning_rate": 7.080390984298686e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3955510616784631, "step": 489}, {"loss": 0.3825928568840027, "token_acc": 0.8986784140969163, "grad_norm": 1.905442476272583, "learning_rate": 7.068227218987043e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39635995955510617, "step": 490}, {"loss": 0.45161956548690796, "token_acc": 0.8728813559322034, "grad_norm": 1.9447747468948364, "learning_rate": 7.056048668652454e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39716885743174923, "step": 491}, {"loss": 0.41795414686203003, "token_acc": 0.8817733990147784, "grad_norm": 2.295433282852173, "learning_rate": 7.04385542035506e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3979777553083923, "step": 492}, {"loss": 0.4432828426361084, "token_acc": 0.7985865724381626, "grad_norm": 2.265631675720215, "learning_rate": 7.031647561260065e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.39878665318503537, "step": 493}, {"loss": 0.44883739948272705, "token_acc": 0.9203539823008849, "grad_norm": 2.9621176719665527, "learning_rate": 7.019425178637127e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.3995955510616785, "step": 494}, {"loss": 0.48823320865631104, "token_acc": 0.8736842105263158, "grad_norm": 2.9266443252563477, "learning_rate": 7.007188359859727e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.40040444893832156, "step": 495}, {"loss": 0.41887539625167847, "token_acc": 0.8600823045267489, "grad_norm": 3.5501937866210938, "learning_rate": 6.994937192404539e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.4012133468149646, "step": 496}, {"loss": 0.460665225982666, "token_acc": 0.8066037735849056, "grad_norm": 2.9611189365386963, "learning_rate": 6.982671763850814e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.4020222446916077, "step": 497}, {"loss": 0.42445844411849976, "token_acc": 0.8809523809523809, "grad_norm": 2.5562634468078613, "learning_rate": 6.9703921618797556e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.40283114256825076, "step": 498}, {"loss": 0.4139663577079773, "token_acc": 0.8612244897959184, "grad_norm": 2.2612838745117188, "learning_rate": 6.95809847427388e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022797, "epoch": 0.4036400404448938, "step": 499}, {"loss": 0.4424452781677246, "token_acc": 0.8401486988847584, "grad_norm": 2.0981252193450928, "learning_rate": 6.945790788916402e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022798, "epoch": 0.4044489383215369, "step": 500}, {"eval_loss": 0.42885029315948486, "eval_token_acc": 0.8577324229008779, "eval_runtime": 431.8839, "eval_samples_per_second": 3.7, "eval_steps_per_second": 0.116, "epoch": 0.4044489383215369, "step": 500}, {"loss": 0.4369218349456787, "token_acc": 0.8514335360556038, "grad_norm": 2.1216652393341064, "learning_rate": 6.9334691937905995e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022355, "epoch": 0.40525783619817995, "step": 501}, {"loss": 0.4658987820148468, "token_acc": 0.8582089552238806, "grad_norm": 2.564833641052246, "learning_rate": 6.921133776979186e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022356, "epoch": 0.4060667340748231, "step": 502}, {"loss": 0.4119420647621155, "token_acc": 0.8387096774193549, "grad_norm": 1.8351505994796753, "learning_rate": 6.908784626663681e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022357, "epoch": 0.40687563195146614, "step": 503}, {"loss": 0.45484626293182373, "token_acc": 0.8540772532188842, "grad_norm": 2.2373807430267334, "learning_rate": 6.896421831123783e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022358, "epoch": 0.4076845298281092, "step": 504}, {"loss": 0.3930210471153259, "token_acc": 0.9181034482758621, "grad_norm": 2.1204137802124023, "learning_rate": 6.884045478736732e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022359, "epoch": 0.4084934277047523, "step": 505}, {"loss": 0.4383777976036072, "token_acc": 0.8703703703703703, "grad_norm": 2.195955276489258, "learning_rate": 6.871655657976682e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022359, "epoch": 0.40930232558139534, "step": 506}, {"loss": 0.5421361923217773, "token_acc": 0.8745247148288974, "grad_norm": 2.449862241744995, "learning_rate": 6.859252457414067e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02236, "epoch": 0.4101112234580384, "step": 507}, {"loss": 0.3448445498943329, "token_acc": 0.8831168831168831, "grad_norm": 2.8813657760620117, "learning_rate": 6.8468359657149705e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022361, "epoch": 0.4109201213346815, "step": 508}, {"loss": 0.40410223603248596, "token_acc": 0.9575289575289575, "grad_norm": 2.2587554454803467, "learning_rate": 6.834406271640488e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022362, "epoch": 0.41172901921132454, "step": 509}, {"loss": 0.4498205780982971, "token_acc": 0.8311258278145696, "grad_norm": 2.2055654525756836, "learning_rate": 6.821963464046096e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022363, "epoch": 0.41253791708796766, "step": 510}, {"loss": 0.4186447858810425, "token_acc": 0.8443708609271523, "grad_norm": 2.171542167663574, "learning_rate": 6.809507631881014e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022364, "epoch": 0.41334681496461073, "step": 511}, {"loss": 0.4081672728061676, "token_acc": 0.8518518518518519, "grad_norm": 2.509507417678833, "learning_rate": 6.797038864187564e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022364, "epoch": 0.4141557128412538, "step": 512}, {"loss": 0.4792659878730774, "token_acc": 0.8571428571428571, "grad_norm": 2.3102705478668213, "learning_rate": 6.78455725010055e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022365, "epoch": 0.41496461071789686, "step": 513}, {"loss": 0.41006016731262207, "token_acc": 0.8380952380952381, "grad_norm": 2.7244982719421387, "learning_rate": 6.772062878846604e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022366, "epoch": 0.41577350859453993, "step": 514}, {"loss": 0.4155740737915039, "token_acc": 0.8803418803418803, "grad_norm": 2.3030154705047607, "learning_rate": 6.75955583974355e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022367, "epoch": 0.416582406471183, "step": 515}, {"loss": 0.4403674602508545, "token_acc": 0.8486486486486486, "grad_norm": 3.1387264728546143, "learning_rate": 6.747036222199783e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022368, "epoch": 0.41739130434782606, "step": 516}, {"loss": 0.5110398530960083, "token_acc": 0.8466453674121406, "grad_norm": 2.3326053619384766, "learning_rate": 6.7345041157136035e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022369, "epoch": 0.4182002022244692, "step": 517}, {"loss": 0.3945692181587219, "token_acc": 0.8426395939086294, "grad_norm": 1.981326699256897, "learning_rate": 6.7219596098725995e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02237, "epoch": 0.41900910010111225, "step": 518}, {"loss": 0.3980899155139923, "token_acc": 0.8425925925925926, "grad_norm": 2.0242714881896973, "learning_rate": 6.709402794352993e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022371, "epoch": 0.4198179979777553, "step": 519}, {"loss": 0.4187348484992981, "token_acc": 0.9004329004329005, "grad_norm": 2.2979252338409424, "learning_rate": 6.696833758919006e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022372, "epoch": 0.4206268958543984, "step": 520}, {"loss": 0.4182782471179962, "token_acc": 0.896414342629482, "grad_norm": 2.154912233352661, "learning_rate": 6.684252593422214e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022372, "epoch": 0.42143579373104145, "step": 521}, {"loss": 0.41942286491394043, "token_acc": 0.7923728813559322, "grad_norm": 2.3540515899658203, "learning_rate": 6.67165938780091e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022373, "epoch": 0.4222446916076845, "step": 522}, {"loss": 0.48690980672836304, "token_acc": 0.8956521739130435, "grad_norm": 2.746999502182007, "learning_rate": 6.659054232079454e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022374, "epoch": 0.4230535894843276, "step": 523}, {"loss": 0.41001442074775696, "token_acc": 0.871244635193133, "grad_norm": 2.6656594276428223, "learning_rate": 6.646437216367634e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022375, "epoch": 0.42386248736097065, "step": 524}, {"loss": 0.3976552486419678, "token_acc": 0.8932584269662921, "grad_norm": 3.287884473800659, "learning_rate": 6.633808430860021e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022376, "epoch": 0.4246713852376138, "step": 525}, {"loss": 0.40812772512435913, "token_acc": 0.8380281690140845, "grad_norm": 1.8821219205856323, "learning_rate": 6.6211679658353235e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022377, "epoch": 0.42548028311425684, "step": 526}, {"loss": 0.4923143982887268, "token_acc": 0.8621908127208481, "grad_norm": 2.2975385189056396, "learning_rate": 6.608515911655744e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022378, "epoch": 0.4262891809908999, "step": 527}, {"loss": 0.42522329092025757, "token_acc": 0.8579234972677595, "grad_norm": 2.0141286849975586, "learning_rate": 6.595852358766334e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022379, "epoch": 0.427098078867543, "step": 528}, {"loss": 0.4497550129890442, "token_acc": 0.8915094339622641, "grad_norm": 2.7446937561035156, "learning_rate": 6.583177397694338e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022379, "epoch": 0.42790697674418604, "step": 529}, {"loss": 0.48890426754951477, "token_acc": 0.8237082066869301, "grad_norm": 2.207721710205078, "learning_rate": 6.570491119048558e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02238, "epoch": 0.4287158746208291, "step": 530}, {"loss": 0.39835628867149353, "token_acc": 0.8313953488372093, "grad_norm": 1.9948323965072632, "learning_rate": 6.557793613518704e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022381, "epoch": 0.4295247724974722, "step": 531}, {"loss": 0.4067310094833374, "token_acc": 0.8481848184818482, "grad_norm": 2.0337955951690674, "learning_rate": 6.545084971874738e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022382, "epoch": 0.43033367037411524, "step": 532}, {"loss": 0.4390275478363037, "token_acc": 0.7947976878612717, "grad_norm": 1.673884630203247, "learning_rate": 6.5323652849662335e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022382, "epoch": 0.43114256825075836, "step": 533}, {"loss": 0.40432244539260864, "token_acc": 0.8676470588235294, "grad_norm": 2.2995364665985107, "learning_rate": 6.519634643721721e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022383, "epoch": 0.43195146612740143, "step": 534}, {"loss": 0.4244130849838257, "token_acc": 0.8333333333333334, "grad_norm": 2.3338489532470703, "learning_rate": 6.50689313914804e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022384, "epoch": 0.4327603640040445, "step": 535}, {"loss": 0.43396979570388794, "token_acc": 0.8958333333333334, "grad_norm": 3.962207078933716, "learning_rate": 6.494140862329688e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022385, "epoch": 0.43356926188068756, "step": 536}, {"loss": 0.4214767813682556, "token_acc": 0.92, "grad_norm": 2.2048377990722656, "learning_rate": 6.481377904428171e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022385, "epoch": 0.43437815975733063, "step": 537}, {"loss": 0.47981610894203186, "token_acc": 0.8615384615384616, "grad_norm": 2.1275532245635986, "learning_rate": 6.468604356681347e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022386, "epoch": 0.4351870576339737, "step": 538}, {"loss": 0.3834857940673828, "token_acc": 0.8962264150943396, "grad_norm": 2.525294542312622, "learning_rate": 6.4558203104027805e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022387, "epoch": 0.43599595551061676, "step": 539}, {"loss": 0.4347085952758789, "token_acc": 0.8483606557377049, "grad_norm": 1.9019864797592163, "learning_rate": 6.443025856981086e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022388, "epoch": 0.4368048533872599, "step": 540}, {"loss": 0.3873569071292877, "token_acc": 0.8458149779735683, "grad_norm": 2.1029298305511475, "learning_rate": 6.430221087879272e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022388, "epoch": 0.43761375126390295, "step": 541}, {"loss": 0.41179242730140686, "token_acc": 0.8433179723502304, "grad_norm": 2.2039341926574707, "learning_rate": 6.41740609463409e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022389, "epoch": 0.438422649140546, "step": 542}, {"loss": 0.3754437565803528, "token_acc": 0.8695652173913043, "grad_norm": 1.985140085220337, "learning_rate": 6.404580968855385e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02239, "epoch": 0.4392315470171891, "step": 543}, {"loss": 0.382461816072464, "token_acc": 0.8463768115942029, "grad_norm": 2.1291117668151855, "learning_rate": 6.3917458022254345e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022391, "epoch": 0.44004044489383215, "step": 544}, {"loss": 0.41792726516723633, "token_acc": 0.8883495145631068, "grad_norm": 2.164369583129883, "learning_rate": 6.3789006864982885e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022391, "epoch": 0.4408493427704752, "step": 545}, {"loss": 0.42167988419532776, "token_acc": 0.8613445378151261, "grad_norm": 2.030388355255127, "learning_rate": 6.366045713499129e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022392, "epoch": 0.4416582406471183, "step": 546}, {"loss": 0.3823608458042145, "token_acc": 0.8422818791946308, "grad_norm": 1.9591219425201416, "learning_rate": 6.353180975123595e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022393, "epoch": 0.44246713852376135, "step": 547}, {"loss": 0.4388830363750458, "token_acc": 0.8425925925925926, "grad_norm": 2.547567367553711, "learning_rate": 6.340306563337142e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022393, "epoch": 0.44327603640040447, "step": 548}, {"loss": 0.3995330035686493, "token_acc": 0.8996138996138996, "grad_norm": 2.0034782886505127, "learning_rate": 6.327422570174373e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022394, "epoch": 0.44408493427704754, "step": 549}, {"loss": 0.4121745824813843, "token_acc": 0.842741935483871, "grad_norm": 2.489525079727173, "learning_rate": 6.314529087738387e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022395, "epoch": 0.4448938321536906, "step": 550}, {"loss": 0.4198951721191406, "token_acc": 0.8409090909090909, "grad_norm": 2.647597551345825, "learning_rate": 6.301626208200116e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022395, "epoch": 0.44570273003033367, "step": 551}, {"loss": 0.36342883110046387, "token_acc": 0.8653846153846154, "grad_norm": 3.1573736667633057, "learning_rate": 6.2887140237976714e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022396, "epoch": 0.44651162790697674, "step": 552}, {"loss": 0.4457288086414337, "token_acc": 0.842741935483871, "grad_norm": 2.4319777488708496, "learning_rate": 6.27579262683568e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022397, "epoch": 0.4473205257836198, "step": 553}, {"loss": 0.3989095091819763, "token_acc": 0.8648648648648649, "grad_norm": 2.0444133281707764, "learning_rate": 6.2628621096846265e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022398, "epoch": 0.44812942366026287, "step": 554}, {"loss": 0.4167803227901459, "token_acc": 0.8681318681318682, "grad_norm": 2.0919275283813477, "learning_rate": 6.249922564780193e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022398, "epoch": 0.448938321536906, "step": 555}, {"loss": 0.43416649103164673, "token_acc": 0.8571428571428571, "grad_norm": 2.3367862701416016, "learning_rate": 6.236974084622598e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022399, "epoch": 0.44974721941354906, "step": 556}, {"loss": 0.451057493686676, "token_acc": 0.8170347003154574, "grad_norm": 2.491732597351074, "learning_rate": 6.224016761775933e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0224, "epoch": 0.4505561172901921, "step": 557}, {"loss": 0.4087960422039032, "token_acc": 0.8835978835978836, "grad_norm": 2.020247459411621, "learning_rate": 6.211050688867504e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0224, "epoch": 0.4513650151668352, "step": 558}, {"loss": 0.42803430557250977, "token_acc": 0.8418079096045198, "grad_norm": 2.914745807647705, "learning_rate": 6.198075958587168e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022401, "epoch": 0.45217391304347826, "step": 559}, {"loss": 0.4218277931213379, "token_acc": 0.8411764705882353, "grad_norm": 2.470507860183716, "learning_rate": 6.185092663686671e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022402, "epoch": 0.4529828109201213, "step": 560}, {"loss": 0.3940941095352173, "token_acc": 0.8507936507936508, "grad_norm": 1.9057127237319946, "learning_rate": 6.172100896978985e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022403, "epoch": 0.4537917087967644, "step": 561}, {"loss": 0.4158666431903839, "token_acc": 0.8809523809523809, "grad_norm": 3.1265318393707275, "learning_rate": 6.1591007513376425e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022403, "epoch": 0.45460060667340746, "step": 562}, {"loss": 0.4111853241920471, "token_acc": 0.8944723618090452, "grad_norm": 2.3407959938049316, "learning_rate": 6.146092319696073e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022404, "epoch": 0.4554095045500506, "step": 563}, {"loss": 0.41796183586120605, "token_acc": 0.8415094339622642, "grad_norm": 2.639300584793091, "learning_rate": 6.133075695046944e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022405, "epoch": 0.45621840242669365, "step": 564}, {"loss": 0.4047802686691284, "token_acc": 0.8901734104046243, "grad_norm": 2.0815927982330322, "learning_rate": 6.120050970441485e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022406, "epoch": 0.4570273003033367, "step": 565}, {"loss": 0.45547983050346375, "token_acc": 0.8584905660377359, "grad_norm": 2.186722993850708, "learning_rate": 6.107018238988838e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022406, "epoch": 0.4578361981799798, "step": 566}, {"loss": 0.4355093836784363, "token_acc": 0.8921933085501859, "grad_norm": 2.1137285232543945, "learning_rate": 6.093977593855376e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022407, "epoch": 0.45864509605662285, "step": 567}, {"loss": 0.5192371606826782, "token_acc": 0.8766519823788547, "grad_norm": 2.740379810333252, "learning_rate": 6.080929128264046e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022408, "epoch": 0.4594539939332659, "step": 568}, {"loss": 0.3434896767139435, "token_acc": 0.9264069264069265, "grad_norm": 2.2080211639404297, "learning_rate": 6.067872935493703e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022408, "epoch": 0.460262891809909, "step": 569}, {"loss": 0.4425520896911621, "token_acc": 0.8904761904761904, "grad_norm": 2.196671724319458, "learning_rate": 6.054809108878438e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022409, "epoch": 0.46107178968655205, "step": 570}, {"loss": 0.4603237509727478, "token_acc": 0.8606060606060606, "grad_norm": 2.0799689292907715, "learning_rate": 6.041737741806914e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02241, "epoch": 0.46188068756319517, "step": 571}, {"loss": 0.3965636193752289, "token_acc": 0.8088235294117647, "grad_norm": 2.2659521102905273, "learning_rate": 6.028658927721698e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02241, "epoch": 0.46268958543983824, "step": 572}, {"loss": 0.3759012222290039, "token_acc": 0.8742331288343558, "grad_norm": 1.9087399244308472, "learning_rate": 6.015572760118597e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022411, "epoch": 0.4634984833164813, "step": 573}, {"loss": 0.45862114429473877, "token_acc": 0.8328173374613003, "grad_norm": 1.982033610343933, "learning_rate": 6.002479332545982e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022411, "epoch": 0.46430738119312437, "step": 574}, {"loss": 0.47833582758903503, "token_acc": 0.8853211009174312, "grad_norm": 3.0300614833831787, "learning_rate": 5.989378738604121e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022412, "epoch": 0.46511627906976744, "step": 575}, {"loss": 0.4461168348789215, "token_acc": 0.8412698412698413, "grad_norm": 2.1511874198913574, "learning_rate": 5.976271071944517e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022413, "epoch": 0.4659251769464105, "step": 576}, {"loss": 0.3640004098415375, "token_acc": 0.8808510638297873, "grad_norm": 2.324009418487549, "learning_rate": 5.963156426269228e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022413, "epoch": 0.46673407482305357, "step": 577}, {"loss": 0.3626942038536072, "token_acc": 0.8615384615384616, "grad_norm": 2.6052918434143066, "learning_rate": 5.9500348953302055e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022414, "epoch": 0.4675429726996967, "step": 578}, {"loss": 0.4241126775741577, "token_acc": 0.8881987577639752, "grad_norm": 3.0375425815582275, "learning_rate": 5.936906572928625e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022415, "epoch": 0.46835187057633976, "step": 579}, {"loss": 0.4479450583457947, "token_acc": 0.8616071428571429, "grad_norm": 2.636939764022827, "learning_rate": 5.923771552914202e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022416, "epoch": 0.4691607684529828, "step": 580}, {"loss": 0.37398701906204224, "token_acc": 0.8115942028985508, "grad_norm": 1.9995110034942627, "learning_rate": 5.910629929184541e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022416, "epoch": 0.4699696663296259, "step": 581}, {"loss": 0.4055722951889038, "token_acc": 0.8668941979522184, "grad_norm": 2.149606227874756, "learning_rate": 5.897481795684447e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022417, "epoch": 0.47077856420626896, "step": 582}, {"loss": 0.38462674617767334, "token_acc": 0.8869565217391304, "grad_norm": 3.842085599899292, "learning_rate": 5.8843272464052626e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.471587462082912, "step": 583}, {"loss": 0.4538233280181885, "token_acc": 0.8263888888888888, "grad_norm": 2.599775552749634, "learning_rate": 5.871166375384201e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.4723963599595551, "step": 584}, {"loss": 0.39639097452163696, "token_acc": 0.8488372093023255, "grad_norm": 2.188464403152466, "learning_rate": 5.857999276703657e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022419, "epoch": 0.47320525783619816, "step": 585}, {"loss": 0.40574946999549866, "token_acc": 0.863013698630137, "grad_norm": 2.0777783393859863, "learning_rate": 5.844826044490551e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02242, "epoch": 0.4740141557128413, "step": 586}, {"loss": 0.4573715329170227, "token_acc": 0.8333333333333334, "grad_norm": 2.120650053024292, "learning_rate": 5.831646772915651e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022421, "epoch": 0.47482305358948435, "step": 587}, {"loss": 0.39603498578071594, "token_acc": 0.8802816901408451, "grad_norm": 2.0684597492218018, "learning_rate": 5.8184615561928924e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022421, "epoch": 0.4756319514661274, "step": 588}, {"loss": 0.4210537075996399, "token_acc": 0.8981481481481481, "grad_norm": 2.653454303741455, "learning_rate": 5.805270488578715e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022422, "epoch": 0.4764408493427705, "step": 589}, {"loss": 0.3758474290370941, "token_acc": 0.8515625, "grad_norm": 2.2436983585357666, "learning_rate": 5.7920736643713835e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022423, "epoch": 0.47724974721941354, "step": 590}, {"loss": 0.4624039828777313, "token_acc": 0.8033898305084746, "grad_norm": 3.6357314586639404, "learning_rate": 5.778871177910315e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022423, "epoch": 0.4780586450960566, "step": 591}, {"loss": 0.4041805863380432, "token_acc": 0.8620689655172413, "grad_norm": 2.0779330730438232, "learning_rate": 5.765663123575401e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.4788675429726997, "step": 592}, {"loss": 0.3960053324699402, "token_acc": 0.8228782287822878, "grad_norm": 2.654712200164795, "learning_rate": 5.752449595786341e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.47967644084934274, "step": 593}, {"loss": 0.41592419147491455, "token_acc": 0.7847533632286996, "grad_norm": 2.4642553329467773, "learning_rate": 5.7392306890019565e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022425, "epoch": 0.48048533872598587, "step": 594}, {"loss": 0.46111100912094116, "token_acc": 0.8361204013377926, "grad_norm": 2.2550253868103027, "learning_rate": 5.726006497719525e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022426, "epoch": 0.48129423660262893, "step": 595}, {"loss": 0.5086416006088257, "token_acc": 0.8284023668639053, "grad_norm": 2.8922863006591797, "learning_rate": 5.712777116474103e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.482103134479272, "step": 596}, {"loss": 0.45955491065979004, "token_acc": 0.8786610878661087, "grad_norm": 2.173737049102783, "learning_rate": 5.699542639837844e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.48291203235591507, "step": 597}, {"loss": 0.4127792716026306, "token_acc": 0.8712121212121212, "grad_norm": 1.9948984384536743, "learning_rate": 5.686303162419326e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.48372093023255813, "step": 598}, {"loss": 0.4015938341617584, "token_acc": 0.8502202643171806, "grad_norm": 2.446259021759033, "learning_rate": 5.6730587788628785e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.4845298281092012, "step": 599}, {"loss": 0.44586971402168274, "token_acc": 0.8482490272373541, "grad_norm": 2.781144618988037, "learning_rate": 5.659809583847907e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.48533872598584427, "step": 600}, {"loss": 0.36807918548583984, "token_acc": 0.8648648648648649, "grad_norm": 2.267489433288574, "learning_rate": 5.646555672088203e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.4861476238624874, "step": 601}, {"loss": 0.4327083230018616, "token_acc": 0.8597122302158273, "grad_norm": 2.3026046752929688, "learning_rate": 5.633297138331285e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.48695652173913045, "step": 602}, {"loss": 0.44607388973236084, "token_acc": 0.8711111111111111, "grad_norm": 2.635984420776367, "learning_rate": 5.620034077357708e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.4877654196157735, "step": 603}, {"loss": 0.3917505145072937, "token_acc": 0.9137931034482759, "grad_norm": 2.5992751121520996, "learning_rate": 5.60676658398039e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.4885743174924166, "step": 604}, {"loss": 0.41896378993988037, "token_acc": 0.8821548821548821, "grad_norm": 2.3977952003479004, "learning_rate": 5.593494753043938e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.48938321536905965, "step": 605}, {"loss": 0.436327189207077, "token_acc": 0.8737864077669902, "grad_norm": 2.1268513202667236, "learning_rate": 5.580218679423965e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.4901921132457027, "step": 606}, {"loss": 0.4408925771713257, "token_acc": 0.9095744680851063, "grad_norm": 3.2890071868896484, "learning_rate": 5.566938458026411e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.4910010111223458, "step": 607}, {"loss": 0.46782928705215454, "token_acc": 0.8888888888888888, "grad_norm": 2.2176642417907715, "learning_rate": 5.553654183786872e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.49180990899898885, "step": 608}, {"loss": 0.4359992742538452, "token_acc": 0.8753993610223643, "grad_norm": 2.8756251335144043, "learning_rate": 5.540365951669913e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.492618806875632, "step": 609}, {"loss": 0.4747014343738556, "token_acc": 0.889795918367347, "grad_norm": 2.9646661281585693, "learning_rate": 5.527073856668391e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.49342770475227504, "step": 610}, {"loss": 0.4281376600265503, "token_acc": 0.87890625, "grad_norm": 2.289034128189087, "learning_rate": 5.513777993802781e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.4942366026289181, "step": 611}, {"loss": 0.45447611808776855, "token_acc": 0.8346456692913385, "grad_norm": 2.541618585586548, "learning_rate": 5.500478458120493e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.4950455005055612, "step": 612}, {"loss": 0.4350849688053131, "token_acc": 0.8583333333333333, "grad_norm": 3.065063953399658, "learning_rate": 5.487175344695188e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.49585439838220424, "step": 613}, {"loss": 0.4030672311782837, "token_acc": 0.8527397260273972, "grad_norm": 1.9416303634643555, "learning_rate": 5.47386874862611e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.4966632962588473, "step": 614}, {"loss": 0.4326108396053314, "token_acc": 0.8831168831168831, "grad_norm": 2.4637768268585205, "learning_rate": 5.460558765037392e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.4974721941354904, "step": 615}, {"loss": 0.42490726709365845, "token_acc": 0.8571428571428571, "grad_norm": 2.7800002098083496, "learning_rate": 5.447245489077389e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.49828109201213344, "step": 616}, {"loss": 0.39446377754211426, "token_acc": 0.8888888888888888, "grad_norm": 4.720980167388916, "learning_rate": 5.433929015917988e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.49908998988877656, "step": 617}, {"loss": 0.41358453035354614, "token_acc": 0.8716216216216216, "grad_norm": 2.4783382415771484, "learning_rate": 5.420609440753935e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.49989888776541963, "step": 618}, {"loss": 0.3854910433292389, "token_acc": 0.8565217391304348, "grad_norm": 2.4651012420654297, "learning_rate": 5.407286858802147e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.5007077856420626, "step": 619}, {"loss": 0.3815562427043915, "token_acc": 0.888135593220339, "grad_norm": 2.053473472595215, "learning_rate": 5.393961365301041e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022425, "epoch": 0.5015166835187057, "step": 620}, {"loss": 0.45562463998794556, "token_acc": 0.8426573426573427, "grad_norm": 2.1635167598724365, "learning_rate": 5.380633055509843e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022426, "epoch": 0.5023255813953489, "step": 621}, {"loss": 0.4003329873085022, "token_acc": 0.8444444444444444, "grad_norm": 2.1759238243103027, "learning_rate": 5.367302024707911e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.503134479271992, "step": 622}, {"loss": 0.4506310820579529, "token_acc": 0.8243727598566308, "grad_norm": 2.391221284866333, "learning_rate": 5.35396836819406e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.503943377148635, "step": 623}, {"loss": 0.3775983154773712, "token_acc": 0.9178082191780822, "grad_norm": 2.422003746032715, "learning_rate": 5.340632181285872e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.5047522750252781, "step": 624}, {"loss": 0.46088916063308716, "token_acc": 0.8203389830508474, "grad_norm": 2.822801113128662, "learning_rate": 5.327293559319014e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.5055611729019212, "step": 625}, {"loss": 0.4233189821243286, "token_acc": 0.8892988929889298, "grad_norm": 2.9713943004608154, "learning_rate": 5.3139525976465675e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.5063700707785642, "step": 626}, {"loss": 0.45002853870391846, "token_acc": 0.835820895522388, "grad_norm": 2.24816632270813, "learning_rate": 5.300609391638336e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.5071789686552073, "step": 627}, {"loss": 0.40955209732055664, "token_acc": 0.9, "grad_norm": 3.1802284717559814, "learning_rate": 5.287264036680166e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.5079878665318504, "step": 628}, {"loss": 0.4412648677825928, "token_acc": 0.864951768488746, "grad_norm": 2.9746017456054688, "learning_rate": 5.27391662817327e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.5087967644084934, "step": 629}, {"loss": 0.4368639886379242, "token_acc": 0.9067796610169492, "grad_norm": 7.995876312255859, "learning_rate": 5.260567261533538e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.5096056622851365, "step": 630}, {"loss": 0.3601537346839905, "token_acc": 0.9384615384615385, "grad_norm": 4.124439239501953, "learning_rate": 5.2472160321908535e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.5104145601617796, "step": 631}, {"loss": 0.49298688769340515, "token_acc": 0.8697318007662835, "grad_norm": 2.16349196434021, "learning_rate": 5.233863035588427e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.5112234580384226, "step": 632}, {"loss": 0.3806041479110718, "token_acc": 0.9253112033195021, "grad_norm": 3.2173032760620117, "learning_rate": 5.22050836718209e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.5120323559150657, "step": 633}, {"loss": 0.41035759449005127, "token_acc": 0.86328125, "grad_norm": 2.4195048809051514, "learning_rate": 5.207152122439635e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.5128412537917088, "step": 634}, {"loss": 0.40409672260284424, "token_acc": 0.9050279329608939, "grad_norm": 2.598662853240967, "learning_rate": 5.1937943968401175e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.5136501516683518, "step": 635}, {"loss": 0.4163573682308197, "token_acc": 0.8577405857740585, "grad_norm": 3.158039093017578, "learning_rate": 5.180435285873182e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.514459049544995, "step": 636}, {"loss": 0.43788814544677734, "token_acc": 0.8318181818181818, "grad_norm": 2.9024956226348877, "learning_rate": 5.1670748850383734e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.5152679474216381, "step": 637}, {"loss": 0.43005481362342834, "token_acc": 0.8546099290780141, "grad_norm": 5.88484001159668, "learning_rate": 5.153713289844462e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.5160768452982811, "step": 638}, {"loss": 0.441942036151886, "token_acc": 0.7777777777777778, "grad_norm": 2.6073086261749268, "learning_rate": 5.140350595808751e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.5168857431749242, "step": 639}, {"loss": 0.40762656927108765, "token_acc": 0.9018181818181819, "grad_norm": 2.607276439666748, "learning_rate": 5.126986898456401e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.5176946410515673, "step": 640}, {"loss": 0.4376784861087799, "token_acc": 0.8571428571428571, "grad_norm": 3.1285383701324463, "learning_rate": 5.113622293319749e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.5185035389282103, "step": 641}, {"loss": 0.3872153162956238, "token_acc": 0.8991596638655462, "grad_norm": 2.1132287979125977, "learning_rate": 5.1002568759376134e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.5193124368048534, "step": 642}, {"loss": 0.4477715492248535, "token_acc": 0.8445945945945946, "grad_norm": 2.294435501098633, "learning_rate": 5.086890741854626e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.5201213346814965, "step": 643}, {"loss": 0.4204040765762329, "token_acc": 0.8901960784313725, "grad_norm": 4.424786567687988, "learning_rate": 5.073523986620539e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.5209302325581395, "step": 644}, {"loss": 0.433963418006897, "token_acc": 0.8599221789883269, "grad_norm": 6.769619941711426, "learning_rate": 5.060156705789545e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02244, "epoch": 0.5217391304347826, "step": 645}, {"loss": 0.38716062903404236, "token_acc": 0.9004329004329005, "grad_norm": 2.297720193862915, "learning_rate": 5.046788994919595e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022441, "epoch": 0.5225480283114257, "step": 646}, {"loss": 0.3824414610862732, "token_acc": 0.898989898989899, "grad_norm": 3.8223865032196045, "learning_rate": 5.033420949571712e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022441, "epoch": 0.5233569261880687, "step": 647}, {"loss": 0.40017083287239075, "token_acc": 0.8936170212765957, "grad_norm": 2.3025248050689697, "learning_rate": 5.020052665309312e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022442, "epoch": 0.5241658240647118, "step": 648}, {"loss": 0.3807840347290039, "token_acc": 0.8823529411764706, "grad_norm": 1.8813366889953613, "learning_rate": 5.00668423769752e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022442, "epoch": 0.5249747219413549, "step": 649}, {"loss": 0.4545632302761078, "token_acc": 0.8395061728395061, "grad_norm": 2.805870532989502, "learning_rate": 4.993315762302483e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022443, "epoch": 0.5257836198179979, "step": 650}, {"loss": 0.39456599950790405, "token_acc": 0.8664122137404581, "grad_norm": 2.4668116569519043, "learning_rate": 4.97994733469069e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022443, "epoch": 0.5265925176946411, "step": 651}, {"loss": 0.3933877944946289, "token_acc": 0.8654708520179372, "grad_norm": 2.224895715713501, "learning_rate": 4.96657905042829e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022444, "epoch": 0.5274014155712842, "step": 652}, {"loss": 0.36528831720352173, "token_acc": 0.9087591240875912, "grad_norm": 2.5314419269561768, "learning_rate": 4.9532110050804074e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022444, "epoch": 0.5282103134479272, "step": 653}, {"loss": 0.39938467741012573, "token_acc": 0.8872180451127819, "grad_norm": 2.0852181911468506, "learning_rate": 4.939843294210456e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022445, "epoch": 0.5290192113245703, "step": 654}, {"loss": 0.4587656259536743, "token_acc": 0.9147540983606557, "grad_norm": 2.4768409729003906, "learning_rate": 4.926476013379462e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022446, "epoch": 0.5298281092012134, "step": 655}, {"loss": 0.4000494182109833, "token_acc": 0.8588957055214724, "grad_norm": 3.768552303314209, "learning_rate": 4.9131092581453745e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022446, "epoch": 0.5306370070778564, "step": 656}, {"loss": 0.42587220668792725, "token_acc": 0.8741258741258742, "grad_norm": 2.7904086112976074, "learning_rate": 4.899743124062387e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022447, "epoch": 0.5314459049544995, "step": 657}, {"loss": 0.38174745440483093, "token_acc": 0.8697318007662835, "grad_norm": 2.2774369716644287, "learning_rate": 4.886377706680253e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022447, "epoch": 0.5322548028311426, "step": 658}, {"loss": 0.4340623617172241, "token_acc": 0.8543046357615894, "grad_norm": 2.049821376800537, "learning_rate": 4.873013101543599e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022448, "epoch": 0.5330637007077856, "step": 659}, {"loss": 0.35842257738113403, "token_acc": 0.8933333333333333, "grad_norm": 2.252617120742798, "learning_rate": 4.859649404191251e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022448, "epoch": 0.5338725985844287, "step": 660}, {"loss": 0.40685737133026123, "token_acc": 0.8737201365187713, "grad_norm": 2.1607117652893066, "learning_rate": 4.84628671015554e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022449, "epoch": 0.5346814964610718, "step": 661}, {"loss": 0.44293731451034546, "token_acc": 0.8465608465608465, "grad_norm": 2.924506425857544, "learning_rate": 4.832925114961629e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02245, "epoch": 0.5354903943377148, "step": 662}, {"loss": 0.4585626423358917, "token_acc": 0.8599221789883269, "grad_norm": 3.0079522132873535, "learning_rate": 4.8195647141268196e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02245, "epoch": 0.5362992922143579, "step": 663}, {"loss": 0.4173978567123413, "token_acc": 0.8721804511278195, "grad_norm": 2.986860990524292, "learning_rate": 4.8062056031598825e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022451, "epoch": 0.537108190091001, "step": 664}, {"loss": 0.40209460258483887, "token_acc": 0.8129770992366412, "grad_norm": 2.1893157958984375, "learning_rate": 4.792847877560367e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022451, "epoch": 0.537917087967644, "step": 665}, {"loss": 0.4765605926513672, "token_acc": 0.8706293706293706, "grad_norm": 2.2716012001037598, "learning_rate": 4.779491632817911e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022452, "epoch": 0.5387259858442872, "step": 666}, {"loss": 0.39718160033226013, "token_acc": 0.8536585365853658, "grad_norm": 2.23425555229187, "learning_rate": 4.766136964411576e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022452, "epoch": 0.5395348837209303, "step": 667}, {"loss": 0.4938986301422119, "token_acc": 0.8101694915254237, "grad_norm": 2.647259473800659, "learning_rate": 4.752783967809147e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022453, "epoch": 0.5403437815975733, "step": 668}, {"loss": 0.4376961588859558, "token_acc": 0.8683274021352313, "grad_norm": 2.081202507019043, "learning_rate": 4.739432738466465e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022453, "epoch": 0.5411526794742164, "step": 669}, {"loss": 0.3606075644493103, "token_acc": 0.8583690987124464, "grad_norm": 2.3195981979370117, "learning_rate": 4.726083371826731e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022454, "epoch": 0.5419615773508595, "step": 670}, {"loss": 0.4429006576538086, "token_acc": 0.8438818565400844, "grad_norm": 2.1184582710266113, "learning_rate": 4.712735963319834e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022454, "epoch": 0.5427704752275025, "step": 671}, {"loss": 0.41405189037323, "token_acc": 0.8790697674418605, "grad_norm": 2.6941933631896973, "learning_rate": 4.699390608361665e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022455, "epoch": 0.5435793731041456, "step": 672}, {"loss": 0.4570333659648895, "token_acc": 0.8647686832740213, "grad_norm": 2.466550588607788, "learning_rate": 4.686047402353433e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022455, "epoch": 0.5443882709807887, "step": 673}, {"loss": 0.3652383089065552, "token_acc": 0.8957345971563981, "grad_norm": 3.1605703830718994, "learning_rate": 4.672706440680989e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022456, "epoch": 0.5451971688574317, "step": 674}, {"loss": 0.4206015467643738, "token_acc": 0.88671875, "grad_norm": 2.547511577606201, "learning_rate": 4.65936781871413e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022456, "epoch": 0.5460060667340748, "step": 675}, {"loss": 0.42101001739501953, "token_acc": 0.9054054054054054, "grad_norm": 2.2908408641815186, "learning_rate": 4.64603163180594e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022457, "epoch": 0.5468149646107179, "step": 676}, {"loss": 0.4017224907875061, "token_acc": 0.8642533936651584, "grad_norm": 2.6179423332214355, "learning_rate": 4.6326979752920905e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022457, "epoch": 0.547623862487361, "step": 677}, {"loss": 0.3605102300643921, "token_acc": 0.8927038626609443, "grad_norm": 2.2148091793060303, "learning_rate": 4.619366944490158e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022458, "epoch": 0.548432760364004, "step": 678}, {"loss": 0.3840959370136261, "token_acc": 0.8226415094339623, "grad_norm": 2.3841159343719482, "learning_rate": 4.60603863469896e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022458, "epoch": 0.5492416582406471, "step": 679}, {"loss": 0.41845589876174927, "token_acc": 0.8461538461538461, "grad_norm": 2.1525049209594727, "learning_rate": 4.5927131411978536e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022459, "epoch": 0.5500505561172901, "step": 680}, {"loss": 0.3538067936897278, "token_acc": 0.8301282051282052, "grad_norm": 2.088181495666504, "learning_rate": 4.579390559246066e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022459, "epoch": 0.5508594539939332, "step": 681}, {"loss": 0.4188098907470703, "token_acc": 0.8808777429467085, "grad_norm": 4.506858825683594, "learning_rate": 4.566070984082013e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02246, "epoch": 0.5516683518705764, "step": 682}, {"loss": 0.3949962258338928, "token_acc": 0.8771929824561403, "grad_norm": 7.24404764175415, "learning_rate": 4.552754510922612e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02246, "epoch": 0.5524772497472195, "step": 683}, {"loss": 0.36630767583847046, "token_acc": 0.8398692810457516, "grad_norm": 2.410817861557007, "learning_rate": 4.539441234962609e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022461, "epoch": 0.5532861476238625, "step": 684}, {"loss": 0.4143676161766052, "token_acc": 0.8458149779735683, "grad_norm": 3.47383975982666, "learning_rate": 4.526131251373892e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022461, "epoch": 0.5540950455005056, "step": 685}, {"loss": 0.39957284927368164, "token_acc": 0.8847457627118644, "grad_norm": 3.989591360092163, "learning_rate": 4.512824655304814e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022462, "epoch": 0.5549039433771487, "step": 686}, {"loss": 0.3500638008117676, "token_acc": 0.8498402555910544, "grad_norm": 2.368927001953125, "learning_rate": 4.499521541879508e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022462, "epoch": 0.5557128412537917, "step": 687}, {"loss": 0.3939352035522461, "token_acc": 0.9003831417624522, "grad_norm": 2.1441452503204346, "learning_rate": 4.48622200619722e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022463, "epoch": 0.5565217391304348, "step": 688}, {"loss": 0.4165255129337311, "token_acc": 0.8741935483870967, "grad_norm": 2.4296200275421143, "learning_rate": 4.472926143331612e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022463, "epoch": 0.5573306370070779, "step": 689}, {"loss": 0.3778902292251587, "token_acc": 0.8571428571428571, "grad_norm": 2.0704715251922607, "learning_rate": 4.459634048330089e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022464, "epoch": 0.5581395348837209, "step": 690}, {"loss": 0.3621513843536377, "token_acc": 0.8803827751196173, "grad_norm": 1.9288545846939087, "learning_rate": 4.44634581621313e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022464, "epoch": 0.558948432760364, "step": 691}, {"loss": 0.46439093351364136, "token_acc": 0.8423076923076923, "grad_norm": 2.8786773681640625, "learning_rate": 4.433061541973591e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022465, "epoch": 0.5597573306370071, "step": 692}, {"loss": 0.3596475124359131, "token_acc": 0.8888888888888888, "grad_norm": 7.472469329833984, "learning_rate": 4.419781320576037e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022465, "epoch": 0.5605662285136501, "step": 693}, {"loss": 0.39849790930747986, "token_acc": 0.861904761904762, "grad_norm": 2.2149417400360107, "learning_rate": 4.406505246956064e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022466, "epoch": 0.5613751263902932, "step": 694}, {"loss": 0.33962416648864746, "token_acc": 0.875, "grad_norm": 2.573707342147827, "learning_rate": 4.393233416019611e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022466, "epoch": 0.5621840242669363, "step": 695}, {"loss": 0.43496495485305786, "token_acc": 0.8486842105263158, "grad_norm": 2.2001919746398926, "learning_rate": 4.379965922642294e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022467, "epoch": 0.5629929221435793, "step": 696}, {"loss": 0.3653467297554016, "token_acc": 0.8991935483870968, "grad_norm": 1.9872112274169922, "learning_rate": 4.366702861668717e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022467, "epoch": 0.5638018200202225, "step": 697}, {"loss": 0.4383889138698578, "token_acc": 0.8419243986254296, "grad_norm": 2.000946521759033, "learning_rate": 4.353444327911797e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022468, "epoch": 0.5646107178968656, "step": 698}, {"loss": 0.4090406000614166, "token_acc": 0.8454106280193237, "grad_norm": 2.3316028118133545, "learning_rate": 4.3401904161520944e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022468, "epoch": 0.5654196157735086, "step": 699}, {"loss": 0.40262287855148315, "token_acc": 0.8765432098765432, "grad_norm": 2.3193917274475098, "learning_rate": 4.3269412211371215e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022469, "epoch": 0.5662285136501517, "step": 700}, {"loss": 0.40288880467414856, "token_acc": 0.8993055555555556, "grad_norm": 2.7743844985961914, "learning_rate": 4.313696837580677e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022469, "epoch": 0.5670374115267948, "step": 701}, {"loss": 0.34644150733947754, "token_acc": 0.8622222222222222, "grad_norm": 1.9505183696746826, "learning_rate": 4.300457360162158e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02247, "epoch": 0.5678463094034378, "step": 702}, {"loss": 0.429502934217453, "token_acc": 0.8661417322834646, "grad_norm": 2.183720588684082, "learning_rate": 4.287222883525897e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022471, "epoch": 0.5686552072800809, "step": 703}, {"loss": 0.3910590708255768, "token_acc": 0.8404255319148937, "grad_norm": 2.0480737686157227, "learning_rate": 4.273993502280476e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022471, "epoch": 0.569464105156724, "step": 704}, {"loss": 0.45382118225097656, "token_acc": 0.8862745098039215, "grad_norm": 2.1780683994293213, "learning_rate": 4.2607693109980435e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022472, "epoch": 0.570273003033367, "step": 705}, {"loss": 0.39520663022994995, "token_acc": 0.8012422360248447, "grad_norm": 2.0752146244049072, "learning_rate": 4.247550404213661e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022472, "epoch": 0.5710819009100101, "step": 706}, {"loss": 0.4130653738975525, "token_acc": 0.862453531598513, "grad_norm": 2.0002593994140625, "learning_rate": 4.2343368764246005e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022473, "epoch": 0.5718907987866532, "step": 707}, {"loss": 0.36960452795028687, "token_acc": 0.8981818181818182, "grad_norm": 2.031238317489624, "learning_rate": 4.221128822089687e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022473, "epoch": 0.5726996966632962, "step": 708}, {"loss": 0.43690210580825806, "token_acc": 0.8461538461538461, "grad_norm": 2.3516478538513184, "learning_rate": 4.207926335628617e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022474, "epoch": 0.5735085945399393, "step": 709}, {"loss": 0.3793370723724365, "token_acc": 0.8393574297188755, "grad_norm": 2.5592732429504395, "learning_rate": 4.194729511421285e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022474, "epoch": 0.5743174924165824, "step": 710}, {"loss": 0.39188504219055176, "token_acc": 0.9033613445378151, "grad_norm": 2.097623825073242, "learning_rate": 4.181538443807109e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022475, "epoch": 0.5751263902932254, "step": 711}, {"loss": 0.4174485504627228, "token_acc": 0.8346774193548387, "grad_norm": 1.9303717613220215, "learning_rate": 4.1683532270843505e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022475, "epoch": 0.5759352881698686, "step": 712}, {"loss": 0.3718748390674591, "token_acc": 0.8719723183391004, "grad_norm": 2.5618019104003906, "learning_rate": 4.15517395550945e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022475, "epoch": 0.5767441860465117, "step": 713}, {"loss": 0.3762381970882416, "token_acc": 0.8874458874458875, "grad_norm": 2.322850227355957, "learning_rate": 4.1420007232963435e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022476, "epoch": 0.5775530839231547, "step": 714}, {"loss": 0.40151140093803406, "token_acc": 0.8538461538461538, "grad_norm": 2.1827359199523926, "learning_rate": 4.1288336246158e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022476, "epoch": 0.5783619817997978, "step": 715}, {"loss": 0.34364283084869385, "token_acc": 0.903448275862069, "grad_norm": 2.6647045612335205, "learning_rate": 4.115672753594739e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022477, "epoch": 0.5791708796764409, "step": 716}, {"loss": 0.4202456474304199, "token_acc": 0.8202764976958525, "grad_norm": 2.086578845977783, "learning_rate": 4.102518204315555e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022477, "epoch": 0.5799797775530839, "step": 717}, {"loss": 0.37721166014671326, "token_acc": 0.878419452887538, "grad_norm": 1.952487826347351, "learning_rate": 4.089370070815463e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022478, "epoch": 0.580788675429727, "step": 718}, {"loss": 0.42397576570510864, "token_acc": 0.8559322033898306, "grad_norm": 1.9967212677001953, "learning_rate": 4.0762284470858e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022479, "epoch": 0.5815975733063701, "step": 719}, {"loss": 0.3868061900138855, "token_acc": 0.9313304721030042, "grad_norm": 2.281806707382202, "learning_rate": 4.063093427071376e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022479, "epoch": 0.5824064711830131, "step": 720}, {"loss": 0.4714341163635254, "token_acc": 0.8309859154929577, "grad_norm": 2.5271997451782227, "learning_rate": 4.049965104669795e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022479, "epoch": 0.5832153690596562, "step": 721}, {"loss": 0.4007885456085205, "token_acc": 0.9045643153526971, "grad_norm": 2.1930084228515625, "learning_rate": 4.036843573730774e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02248, "epoch": 0.5840242669362993, "step": 722}, {"loss": 0.4345509707927704, "token_acc": 0.8504672897196262, "grad_norm": 2.2075302600860596, "learning_rate": 4.023728928055486e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02248, "epoch": 0.5848331648129423, "step": 723}, {"loss": 0.39234721660614014, "token_acc": 0.8838174273858921, "grad_norm": 2.093959331512451, "learning_rate": 4.0106212613958805e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022481, "epoch": 0.5856420626895854, "step": 724}, {"loss": 0.377105712890625, "token_acc": 0.8704318936877077, "grad_norm": 2.8163022994995117, "learning_rate": 3.99752066745402e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022481, "epoch": 0.5864509605662285, "step": 725}, {"loss": 0.33992162346839905, "token_acc": 0.8781725888324873, "grad_norm": 3.310258626937866, "learning_rate": 3.984427239881404e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022482, "epoch": 0.5872598584428715, "step": 726}, {"loss": 0.3612005114555359, "token_acc": 0.8576642335766423, "grad_norm": 2.1290695667266846, "learning_rate": 3.971341072278302e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022482, "epoch": 0.5880687563195146, "step": 727}, {"loss": 0.39483344554901123, "token_acc": 0.8625954198473282, "grad_norm": 2.370741844177246, "learning_rate": 3.958262258193089e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022482, "epoch": 0.5888776541961578, "step": 728}, {"loss": 0.3784998059272766, "token_acc": 0.8663101604278075, "grad_norm": 1.9654161930084229, "learning_rate": 3.9451908911215645e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022483, "epoch": 0.5896865520728009, "step": 729}, {"loss": 0.4317411780357361, "token_acc": 0.8413793103448276, "grad_norm": 2.5404610633850098, "learning_rate": 3.9321270645062995e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022484, "epoch": 0.5904954499494439, "step": 730}, {"loss": 0.3979855179786682, "token_acc": 0.8699551569506726, "grad_norm": 1.932789921760559, "learning_rate": 3.919070871735956e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022484, "epoch": 0.591304347826087, "step": 731}, {"loss": 0.4147607088088989, "token_acc": 0.8712871287128713, "grad_norm": 2.322033643722534, "learning_rate": 3.906022406144625e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022484, "epoch": 0.59211324570273, "step": 732}, {"loss": 0.3968489170074463, "token_acc": 0.8418367346938775, "grad_norm": 2.0661261081695557, "learning_rate": 3.892981761011164e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022485, "epoch": 0.5929221435793731, "step": 733}, {"loss": 0.34254151582717896, "token_acc": 0.9105263157894737, "grad_norm": 1.8793938159942627, "learning_rate": 3.8799490295585155e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022485, "epoch": 0.5937310414560162, "step": 734}, {"loss": 0.4647367298603058, "token_acc": 0.864, "grad_norm": 3.2460901737213135, "learning_rate": 3.866924304953059e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022486, "epoch": 0.5945399393326593, "step": 735}, {"loss": 0.4941931962966919, "token_acc": 0.843065693430657, "grad_norm": 2.1490590572357178, "learning_rate": 3.8539076803039285e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022486, "epoch": 0.5953488372093023, "step": 736}, {"loss": 0.43801772594451904, "token_acc": 0.7985611510791367, "grad_norm": 2.9426324367523193, "learning_rate": 3.840899248662358e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022487, "epoch": 0.5961577350859454, "step": 737}, {"loss": 0.36532309651374817, "token_acc": 0.8484848484848485, "grad_norm": 1.8307894468307495, "learning_rate": 3.827899103021017e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022487, "epoch": 0.5969666329625885, "step": 738}, {"loss": 0.3788911998271942, "token_acc": 0.8656716417910447, "grad_norm": 1.6826763153076172, "learning_rate": 3.814907336313329e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022488, "epoch": 0.5977755308392315, "step": 739}, {"loss": 0.3946545720100403, "token_acc": 0.8245614035087719, "grad_norm": 3.5640852451324463, "learning_rate": 3.8019240414128335e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022488, "epoch": 0.5985844287158746, "step": 740}, {"loss": 0.4639260172843933, "token_acc": 0.8678571428571429, "grad_norm": 3.612060785293579, "learning_rate": 3.7889493111324977e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022489, "epoch": 0.5993933265925177, "step": 741}, {"loss": 0.3779371380805969, "token_acc": 0.8962264150943396, "grad_norm": 2.10774564743042, "learning_rate": 3.77598323822407e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022489, "epoch": 0.6002022244691607, "step": 742}, {"loss": 0.4415694773197174, "token_acc": 0.8744939271255061, "grad_norm": 2.0632522106170654, "learning_rate": 3.763025915377403e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02249, "epoch": 0.6010111223458039, "step": 743}, {"loss": 0.4385090470314026, "token_acc": 0.8181818181818182, "grad_norm": 2.2084765434265137, "learning_rate": 3.7500774352198066e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02249, "epoch": 0.601820020222447, "step": 744}, {"loss": 0.36739417910575867, "token_acc": 0.8622047244094488, "grad_norm": 3.2526354789733887, "learning_rate": 3.7371378903153747e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022491, "epoch": 0.60262891809909, "step": 745}, {"loss": 0.39445218443870544, "token_acc": 0.9465648854961832, "grad_norm": 2.1862826347351074, "learning_rate": 3.7242073731643212e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022491, "epoch": 0.6034378159757331, "step": 746}, {"loss": 0.4600139558315277, "token_acc": 0.8509803921568627, "grad_norm": 1.964879035949707, "learning_rate": 3.711285976202331e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022491, "epoch": 0.6042467138523762, "step": 747}, {"loss": 0.38224440813064575, "token_acc": 0.8801498127340824, "grad_norm": 2.6029324531555176, "learning_rate": 3.6983737917998858e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022492, "epoch": 0.6050556117290192, "step": 748}, {"loss": 0.3933752775192261, "token_acc": 0.8681318681318682, "grad_norm": 2.0742950439453125, "learning_rate": 3.685470912261615e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022492, "epoch": 0.6058645096056623, "step": 749}, {"loss": 0.39733976125717163, "token_acc": 0.9066147859922179, "grad_norm": 3.2914257049560547, "learning_rate": 3.672577429825629e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022493, "epoch": 0.6066734074823054, "step": 750}, {"loss": 0.40482792258262634, "token_acc": 0.8535564853556485, "grad_norm": 1.9089115858078003, "learning_rate": 3.659693436662859e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022493, "epoch": 0.6074823053589484, "step": 751}, {"loss": 0.5314335823059082, "token_acc": 0.8707865168539326, "grad_norm": 3.0140185356140137, "learning_rate": 3.6468190248764063e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022493, "epoch": 0.6082912032355915, "step": 752}, {"loss": 0.3704250454902649, "token_acc": 0.8878923766816144, "grad_norm": 2.3016703128814697, "learning_rate": 3.6339542865008724e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022494, "epoch": 0.6091001011122346, "step": 753}, {"loss": 0.4164350628852844, "token_acc": 0.8492462311557789, "grad_norm": 1.9638766050338745, "learning_rate": 3.6210993135017115e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022494, "epoch": 0.6099089989888776, "step": 754}, {"loss": 0.40423935651779175, "token_acc": 0.8679245283018868, "grad_norm": 2.505688428878784, "learning_rate": 3.608254197774567e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022495, "epoch": 0.6107178968655207, "step": 755}, {"loss": 0.3799169957637787, "token_acc": 0.8670520231213873, "grad_norm": 2.152834415435791, "learning_rate": 3.595419031144615e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022495, "epoch": 0.6115267947421638, "step": 756}, {"loss": 0.4056301414966583, "token_acc": 0.855072463768116, "grad_norm": 2.534213066101074, "learning_rate": 3.582593905365912e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022496, "epoch": 0.6123356926188068, "step": 757}, {"loss": 0.4082239270210266, "token_acc": 0.8888888888888888, "grad_norm": 1.9786441326141357, "learning_rate": 3.56977891212073e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022496, "epoch": 0.61314459049545, "step": 758}, {"loss": 0.39076924324035645, "token_acc": 0.8728070175438597, "grad_norm": 1.8767694234848022, "learning_rate": 3.5569741430189163e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022496, "epoch": 0.6139534883720931, "step": 759}, {"loss": 0.4426667094230652, "token_acc": 0.8986486486486487, "grad_norm": 2.0986220836639404, "learning_rate": 3.5441796895972203e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022497, "epoch": 0.6147623862487361, "step": 760}, {"loss": 0.3979909121990204, "token_acc": 0.8770949720670391, "grad_norm": 2.349647045135498, "learning_rate": 3.5313956433186535e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022497, "epoch": 0.6155712841253792, "step": 761}, {"loss": 0.3654158413410187, "token_acc": 0.8448979591836735, "grad_norm": 2.267604351043701, "learning_rate": 3.518622095571831e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022497, "epoch": 0.6163801820020223, "step": 762}, {"loss": 0.3898380398750305, "token_acc": 0.860655737704918, "grad_norm": 2.626412868499756, "learning_rate": 3.505859137670313e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022497, "epoch": 0.6171890798786653, "step": 763}, {"loss": 0.45385637879371643, "token_acc": 0.8448275862068966, "grad_norm": 2.134931802749634, "learning_rate": 3.4931068608519626e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022498, "epoch": 0.6179979777553084, "step": 764}, {"loss": 0.44239288568496704, "token_acc": 0.8226600985221675, "grad_norm": 2.1175262928009033, "learning_rate": 3.4803653562782807e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022498, "epoch": 0.6188068756319515, "step": 765}, {"loss": 0.37729379534721375, "token_acc": 0.8744588744588745, "grad_norm": 1.9157018661499023, "learning_rate": 3.4676347150337673e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022499, "epoch": 0.6196157735085945, "step": 766}, {"loss": 0.40089553594589233, "token_acc": 0.9056603773584906, "grad_norm": 2.0690548419952393, "learning_rate": 3.4549150281252635e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022499, "epoch": 0.6204246713852376, "step": 767}, {"loss": 0.37923118472099304, "token_acc": 0.8286713286713286, "grad_norm": 2.284152030944824, "learning_rate": 3.442206386481297e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022499, "epoch": 0.6212335692618807, "step": 768}, {"loss": 0.38093435764312744, "token_acc": 0.8698224852071006, "grad_norm": 3.0014827251434326, "learning_rate": 3.429508880951444e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0225, "epoch": 0.6220424671385237, "step": 769}, {"loss": 0.4511076509952545, "token_acc": 0.7976190476190477, "grad_norm": 2.2891621589660645, "learning_rate": 3.4168226023056638e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0225, "epoch": 0.6228513650151668, "step": 770}, {"loss": 0.49026528000831604, "token_acc": 0.840625, "grad_norm": 2.116448163986206, "learning_rate": 3.4041476412336672e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022501, "epoch": 0.6236602628918099, "step": 771}, {"loss": 0.3303212523460388, "token_acc": 0.8959276018099548, "grad_norm": 1.6491224765777588, "learning_rate": 3.391484088344257e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022501, "epoch": 0.6244691607684529, "step": 772}, {"loss": 0.37041348218917847, "token_acc": 0.8658008658008658, "grad_norm": 2.458468198776245, "learning_rate": 3.3788320341646764e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022501, "epoch": 0.625278058645096, "step": 773}, {"loss": 0.40716874599456787, "token_acc": 0.8565400843881856, "grad_norm": 1.9400595426559448, "learning_rate": 3.3661915691399814e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022502, "epoch": 0.6260869565217392, "step": 774}, {"loss": 0.4028838276863098, "token_acc": 0.8844444444444445, "grad_norm": 2.076422691345215, "learning_rate": 3.3535627836323683e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022502, "epoch": 0.6268958543983822, "step": 775}, {"loss": 0.3876573443412781, "token_acc": 0.9047619047619048, "grad_norm": 2.1392087936401367, "learning_rate": 3.340945767920547e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022502, "epoch": 0.6277047522750253, "step": 776}, {"loss": 0.3929121494293213, "token_acc": 0.8625, "grad_norm": 1.980198860168457, "learning_rate": 3.328340612199091e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022503, "epoch": 0.6285136501516684, "step": 777}, {"loss": 0.4506552815437317, "token_acc": 0.8625954198473282, "grad_norm": 2.5135369300842285, "learning_rate": 3.315747406577787e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022503, "epoch": 0.6293225480283114, "step": 778}, {"loss": 0.366382896900177, "token_acc": 0.9363636363636364, "grad_norm": 2.9397776126861572, "learning_rate": 3.303166241080996e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022504, "epoch": 0.6301314459049545, "step": 779}, {"loss": 0.39890724420547485, "token_acc": 0.8835341365461847, "grad_norm": 2.5433013439178467, "learning_rate": 3.290597205647009e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022504, "epoch": 0.6309403437815976, "step": 780}, {"loss": 0.3230600953102112, "token_acc": 0.8682170542635659, "grad_norm": 1.8281358480453491, "learning_rate": 3.2780403901274026e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022504, "epoch": 0.6317492416582406, "step": 781}, {"loss": 0.3860858082771301, "token_acc": 0.8675213675213675, "grad_norm": 2.3992929458618164, "learning_rate": 3.265495884286397e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022505, "epoch": 0.6325581395348837, "step": 782}, {"loss": 0.41789501905441284, "token_acc": 0.8291666666666667, "grad_norm": 2.3929519653320312, "learning_rate": 3.2529637778002177e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022505, "epoch": 0.6333670374115268, "step": 783}, {"loss": 0.42455971240997314, "token_acc": 0.8830188679245283, "grad_norm": 2.3482816219329834, "learning_rate": 3.2404441602564507e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022506, "epoch": 0.6341759352881698, "step": 784}, {"loss": 0.3243609070777893, "token_acc": 0.8814229249011858, "grad_norm": 1.525108814239502, "learning_rate": 3.2279371211533976e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022506, "epoch": 0.6349848331648129, "step": 785}, {"loss": 0.424887478351593, "token_acc": 0.8571428571428571, "grad_norm": 2.330397367477417, "learning_rate": 3.2154427498994517e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022506, "epoch": 0.635793731041456, "step": 786}, {"loss": 0.3225609064102173, "token_acc": 0.9056603773584906, "grad_norm": 1.9202159643173218, "learning_rate": 3.202961135812437e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022507, "epoch": 0.636602628918099, "step": 787}, {"loss": 0.3496546745300293, "token_acc": 0.903010033444816, "grad_norm": 1.9144957065582275, "learning_rate": 3.1904923681189883e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022507, "epoch": 0.6374115267947421, "step": 788}, {"loss": 0.41543805599212646, "token_acc": 0.8977272727272727, "grad_norm": 2.0034921169281006, "learning_rate": 3.1780365359539043e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022508, "epoch": 0.6382204246713853, "step": 789}, {"loss": 0.38339167833328247, "token_acc": 0.8555133079847909, "grad_norm": 1.9115188121795654, "learning_rate": 3.1655937283595116e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022508, "epoch": 0.6390293225480284, "step": 790}, {"loss": 0.3975831866264343, "token_acc": 0.8322368421052632, "grad_norm": 2.29840350151062, "learning_rate": 3.153164034285031e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022508, "epoch": 0.6398382204246714, "step": 791}, {"loss": 0.346437931060791, "token_acc": 0.8744588744588745, "grad_norm": 2.4968957901000977, "learning_rate": 3.1407475425859348e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022509, "epoch": 0.6406471183013145, "step": 792}, {"loss": 0.4348532557487488, "token_acc": 0.881578947368421, "grad_norm": 2.1374566555023193, "learning_rate": 3.1283443420233196e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022509, "epoch": 0.6414560161779576, "step": 793}, {"loss": 0.3768533170223236, "token_acc": 0.8533834586466166, "grad_norm": 2.104574203491211, "learning_rate": 3.1159545212632697e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02251, "epoch": 0.6422649140546006, "step": 794}, {"loss": 0.3694327473640442, "token_acc": 0.8781512605042017, "grad_norm": 2.8082082271575928, "learning_rate": 3.1035781688762177e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02251, "epoch": 0.6430738119312437, "step": 795}, {"loss": 0.4223785996437073, "token_acc": 0.9013452914798207, "grad_norm": 2.036285161972046, "learning_rate": 3.0912153733363203e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02251, "epoch": 0.6438827098078868, "step": 796}, {"loss": 0.39007920026779175, "token_acc": 0.8409090909090909, "grad_norm": 1.9402992725372314, "learning_rate": 3.078866223020815e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022511, "epoch": 0.6446916076845298, "step": 797}, {"loss": 0.39857369661331177, "token_acc": 0.8956521739130435, "grad_norm": 2.3638556003570557, "learning_rate": 3.066530806209402e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022511, "epoch": 0.6455005055611729, "step": 798}, {"loss": 0.3549560010433197, "token_acc": 0.8955823293172691, "grad_norm": 1.8377914428710938, "learning_rate": 3.0542092110835996e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022512, "epoch": 0.646309403437816, "step": 799}, {"loss": 0.43962785601615906, "token_acc": 0.8395522388059702, "grad_norm": 2.2061686515808105, "learning_rate": 3.04190152572612e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022512, "epoch": 0.647118301314459, "step": 800}, {"loss": 0.37227606773376465, "token_acc": 0.8662420382165605, "grad_norm": 2.3892087936401367, "learning_rate": 3.0296078381202465e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022512, "epoch": 0.6479271991911021, "step": 801}, {"loss": 0.43218767642974854, "token_acc": 0.8796992481203008, "grad_norm": 2.125608444213867, "learning_rate": 3.017328236149187e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022513, "epoch": 0.6487360970677452, "step": 802}, {"loss": 0.3682135343551636, "token_acc": 0.9087136929460581, "grad_norm": 2.3993020057678223, "learning_rate": 3.0050628075954643e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022513, "epoch": 0.6495449949443882, "step": 803}, {"loss": 0.4699886441230774, "token_acc": 0.8686440677966102, "grad_norm": 2.251502513885498, "learning_rate": 2.9928116401402753e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022513, "epoch": 0.6503538928210314, "step": 804}, {"loss": 0.3267248272895813, "token_acc": 0.8592057761732852, "grad_norm": 13.69151496887207, "learning_rate": 2.9805748213628727e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022514, "epoch": 0.6511627906976745, "step": 805}, {"loss": 0.4122653901576996, "token_acc": 0.8377581120943953, "grad_norm": 2.1798858642578125, "learning_rate": 2.968352438739936e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022514, "epoch": 0.6519716885743175, "step": 806}, {"loss": 0.36671823263168335, "token_acc": 0.8716216216216216, "grad_norm": 1.9182910919189453, "learning_rate": 2.956144579644942e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022515, "epoch": 0.6527805864509606, "step": 807}, {"loss": 0.3970714807510376, "token_acc": 0.9066666666666666, "grad_norm": 2.026547908782959, "learning_rate": 2.9439513313475464e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022515, "epoch": 0.6535894843276037, "step": 808}, {"loss": 0.3996396064758301, "token_acc": 0.8494623655913979, "grad_norm": 2.1154861450195312, "learning_rate": 2.931772781012958e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022515, "epoch": 0.6543983822042467, "step": 809}, {"loss": 0.44487231969833374, "token_acc": 0.8075471698113208, "grad_norm": 2.0756337642669678, "learning_rate": 2.9196090157013146e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022516, "epoch": 0.6552072800808898, "step": 810}, {"loss": 0.3471815586090088, "token_acc": 0.8540925266903915, "grad_norm": 2.0214574337005615, "learning_rate": 2.907460122367062e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022516, "epoch": 0.6560161779575329, "step": 811}, {"loss": 0.3285714387893677, "token_acc": 0.9137931034482759, "grad_norm": 1.8203327655792236, "learning_rate": 2.8953261878583263e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022517, "epoch": 0.6568250758341759, "step": 812}, {"loss": 0.38925743103027344, "token_acc": 0.8852459016393442, "grad_norm": 2.6111230850219727, "learning_rate": 2.8832072989163048e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022517, "epoch": 0.657633973710819, "step": 813}, {"loss": 0.3698727488517761, "token_acc": 0.8767605633802817, "grad_norm": 1.8417023420333862, "learning_rate": 2.871103542174637e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022517, "epoch": 0.6584428715874621, "step": 814}, {"loss": 0.37436971068382263, "token_acc": 0.8426966292134831, "grad_norm": 2.0547242164611816, "learning_rate": 2.859015004158789e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022518, "epoch": 0.6592517694641051, "step": 815}, {"loss": 0.4491364359855652, "token_acc": 0.8157894736842105, "grad_norm": 3.1478235721588135, "learning_rate": 2.8469417712854287e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022518, "epoch": 0.6600606673407482, "step": 816}, {"loss": 0.3636167049407959, "token_acc": 0.9236947791164659, "grad_norm": 2.21091890335083, "learning_rate": 2.834883929861818e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022518, "epoch": 0.6608695652173913, "step": 817}, {"loss": 0.3697773218154907, "token_acc": 0.9090909090909091, "grad_norm": 2.1053714752197266, "learning_rate": 2.822841566085192e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022519, "epoch": 0.6616784630940343, "step": 818}, {"loss": 0.42437541484832764, "token_acc": 0.8985507246376812, "grad_norm": 1.9461814165115356, "learning_rate": 2.8108147660421325e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022519, "epoch": 0.6624873609706774, "step": 819}, {"loss": 0.40904805064201355, "token_acc": 0.8475609756097561, "grad_norm": 1.9878171682357788, "learning_rate": 2.798803615707976e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022519, "epoch": 0.6632962588473206, "step": 820}, {"loss": 0.3745640218257904, "token_acc": 0.914396887159533, "grad_norm": 1.8959929943084717, "learning_rate": 2.78680820094617e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02252, "epoch": 0.6641051567239636, "step": 821}, {"loss": 0.364071786403656, "token_acc": 0.8765432098765432, "grad_norm": 2.005540609359741, "learning_rate": 2.7748286075076834e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02252, "epoch": 0.6649140546006067, "step": 822}, {"loss": 0.37051212787628174, "token_acc": 0.8909774436090225, "grad_norm": 2.166395902633667, "learning_rate": 2.762864921030384e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02252, "epoch": 0.6657229524772498, "step": 823}, {"loss": 0.39772191643714905, "token_acc": 0.8986928104575164, "grad_norm": 1.9548283815383911, "learning_rate": 2.750917227038419e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022521, "epoch": 0.6665318503538928, "step": 824}, {"loss": 0.39033639430999756, "token_acc": 0.8876404494382022, "grad_norm": 2.373486280441284, "learning_rate": 2.7389856109416178e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022521, "epoch": 0.6673407482305359, "step": 825}, {"loss": 0.4327496588230133, "token_acc": 0.8840579710144928, "grad_norm": 1.9656351804733276, "learning_rate": 2.7270701580348737e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022522, "epoch": 0.668149646107179, "step": 826}, {"loss": 0.4038127064704895, "token_acc": 0.8581081081081081, "grad_norm": 1.7876020669937134, "learning_rate": 2.715170953497532e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022522, "epoch": 0.668958543983822, "step": 827}, {"loss": 0.3742678165435791, "token_acc": 0.9116279069767442, "grad_norm": 2.269183397293091, "learning_rate": 2.703288082392791e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022522, "epoch": 0.6697674418604651, "step": 828}, {"loss": 0.3477456867694855, "token_acc": 0.8858447488584474, "grad_norm": 2.3092498779296875, "learning_rate": 2.691421629667076e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022523, "epoch": 0.6705763397371082, "step": 829}, {"loss": 0.3951851725578308, "token_acc": 0.8655913978494624, "grad_norm": 2.0374417304992676, "learning_rate": 2.6795716801494538e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022523, "epoch": 0.6713852376137512, "step": 830}, {"loss": 0.37477776408195496, "token_acc": 0.8745519713261649, "grad_norm": 2.6279661655426025, "learning_rate": 2.6677383185510053e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022523, "epoch": 0.6721941354903943, "step": 831}, {"loss": 0.34244000911712646, "token_acc": 0.8764478764478765, "grad_norm": 2.128077268600464, "learning_rate": 2.6559216294642446e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022524, "epoch": 0.6730030333670374, "step": 832}, {"loss": 0.36798208951950073, "token_acc": 0.9363957597173145, "grad_norm": 1.9825257062911987, "learning_rate": 2.6441216973624857e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022524, "epoch": 0.6738119312436804, "step": 833}, {"loss": 0.3946457505226135, "token_acc": 0.8380681818181818, "grad_norm": 2.1210215091705322, "learning_rate": 2.6323386065992596e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022524, "epoch": 0.6746208291203235, "step": 834}, {"loss": 0.3758698105812073, "token_acc": 0.8895705521472392, "grad_norm": 1.8778958320617676, "learning_rate": 2.6205724414077064e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022525, "epoch": 0.6754297269969667, "step": 835}, {"loss": 0.3301732540130615, "token_acc": 0.9437229437229437, "grad_norm": 1.917371153831482, "learning_rate": 2.6088232858999644e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022525, "epoch": 0.6762386248736098, "step": 836}, {"loss": 0.4553636908531189, "token_acc": 0.8589211618257261, "grad_norm": 2.223240613937378, "learning_rate": 2.5970912240665815e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022525, "epoch": 0.6770475227502528, "step": 837}, {"loss": 0.46183380484580994, "token_acc": 0.8557213930348259, "grad_norm": 3.028218984603882, "learning_rate": 2.585376339775908e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022526, "epoch": 0.6778564206268959, "step": 838}, {"loss": 0.38901880383491516, "token_acc": 0.8819188191881919, "grad_norm": 1.9921714067459106, "learning_rate": 2.573678716773496e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022526, "epoch": 0.678665318503539, "step": 839}, {"loss": 0.4160255193710327, "token_acc": 0.8577981651376146, "grad_norm": 2.3916425704956055, "learning_rate": 2.5619984386815073e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022526, "epoch": 0.679474216380182, "step": 840}, {"loss": 0.46858906745910645, "token_acc": 0.8333333333333334, "grad_norm": 2.2416515350341797, "learning_rate": 2.550335588998103e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022526, "epoch": 0.6802831142568251, "step": 841}, {"loss": 0.4036467969417572, "token_acc": 0.8421052631578947, "grad_norm": 1.9555854797363281, "learning_rate": 2.5386902510968627e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022527, "epoch": 0.6810920121334681, "step": 842}, {"loss": 0.37610989809036255, "token_acc": 0.8712871287128713, "grad_norm": 4.791243553161621, "learning_rate": 2.527062508226176e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022527, "epoch": 0.6819009100101112, "step": 843}, {"loss": 0.3707886040210724, "token_acc": 0.8761904761904762, "grad_norm": 1.9034098386764526, "learning_rate": 2.5154524435086537e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022527, "epoch": 0.6827098078867543, "step": 844}, {"loss": 0.4223529100418091, "token_acc": 0.844106463878327, "grad_norm": 2.0733163356781006, "learning_rate": 2.5038601399405337e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022528, "epoch": 0.6835187057633973, "step": 845}, {"loss": 0.38297271728515625, "token_acc": 0.8446215139442231, "grad_norm": 1.9344497919082642, "learning_rate": 2.492285680391079e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022528, "epoch": 0.6843276036400404, "step": 846}, {"loss": 0.3631531000137329, "token_acc": 0.8963963963963963, "grad_norm": 2.1887664794921875, "learning_rate": 2.4807291476019996e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022529, "epoch": 0.6851365015166835, "step": 847}, {"loss": 0.4326528310775757, "token_acc": 0.8395522388059702, "grad_norm": 2.7835731506347656, "learning_rate": 2.4691906241868473e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022529, "epoch": 0.6859453993933265, "step": 848}, {"loss": 0.34864187240600586, "token_acc": 0.899581589958159, "grad_norm": 2.0431745052337646, "learning_rate": 2.4576701926304357e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022529, "epoch": 0.6867542972699696, "step": 849}, {"loss": 0.4054935574531555, "token_acc": 0.8398058252427184, "grad_norm": 5.60698938369751, "learning_rate": 2.4461679352882443e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022529, "epoch": 0.6875631951466128, "step": 850}, {"loss": 0.32462042570114136, "token_acc": 0.8726591760299626, "grad_norm": 1.8018779754638672, "learning_rate": 2.434683934385833e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02253, "epoch": 0.6883720930232559, "step": 851}, {"loss": 0.3477787375450134, "token_acc": 0.8364312267657993, "grad_norm": 3.250086545944214, "learning_rate": 2.4232182720182524e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02253, "epoch": 0.6891809908998989, "step": 852}, {"loss": 0.38884738087654114, "token_acc": 0.9395348837209302, "grad_norm": 2.627101421356201, "learning_rate": 2.4117710301494527e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022531, "epoch": 0.689989888776542, "step": 853}, {"loss": 0.40084555745124817, "token_acc": 0.8843283582089553, "grad_norm": 2.8539373874664307, "learning_rate": 2.40034229061171e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022531, "epoch": 0.6907987866531851, "step": 854}, {"loss": 0.36527204513549805, "token_acc": 0.911504424778761, "grad_norm": 2.5881996154785156, "learning_rate": 2.3889321351050286e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022531, "epoch": 0.6916076845298281, "step": 855}, {"loss": 0.4530036151409149, "token_acc": 0.8681672025723473, "grad_norm": 2.2433817386627197, "learning_rate": 2.377540645196565e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022532, "epoch": 0.6924165824064712, "step": 856}, {"loss": 0.44757646322250366, "token_acc": 0.9019607843137255, "grad_norm": 2.251718759536743, "learning_rate": 2.3661679023200422e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022532, "epoch": 0.6932254802831143, "step": 857}, {"loss": 0.34107983112335205, "token_acc": 0.871875, "grad_norm": 1.987608790397644, "learning_rate": 2.354813987775163e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022532, "epoch": 0.6940343781597573, "step": 858}, {"loss": 0.4043659269809723, "token_acc": 0.8947368421052632, "grad_norm": 2.4668984413146973, "learning_rate": 2.343478982727039e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022532, "epoch": 0.6948432760364004, "step": 859}, {"loss": 0.378429114818573, "token_acc": 0.848297213622291, "grad_norm": 1.9259587526321411, "learning_rate": 2.3321629682055984e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022533, "epoch": 0.6956521739130435, "step": 860}, {"loss": 0.34357139468193054, "token_acc": 0.8348348348348348, "grad_norm": 1.9682130813598633, "learning_rate": 2.320866025105016e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022533, "epoch": 0.6964610717896865, "step": 861}, {"loss": 0.3498800992965698, "token_acc": 0.8847736625514403, "grad_norm": 2.785592794418335, "learning_rate": 2.309588234183137e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022534, "epoch": 0.6972699696663296, "step": 862}, {"loss": 0.39585980772972107, "token_acc": 0.865546218487395, "grad_norm": 2.4636342525482178, "learning_rate": 2.298329676060884e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022534, "epoch": 0.6980788675429727, "step": 863}, {"loss": 0.37628334760665894, "token_acc": 0.8954703832752613, "grad_norm": 1.8095598220825195, "learning_rate": 2.287090431221701e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022534, "epoch": 0.6988877654196157, "step": 864}, {"loss": 0.3849208354949951, "token_acc": 0.910958904109589, "grad_norm": 1.9140504598617554, "learning_rate": 2.275870580010958e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022534, "epoch": 0.6996966632962589, "step": 865}, {"loss": 0.3840162754058838, "token_acc": 0.8550185873605948, "grad_norm": 1.7582415342330933, "learning_rate": 2.264670202635396e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022535, "epoch": 0.700505561172902, "step": 866}, {"loss": 0.3248283565044403, "token_acc": 0.896, "grad_norm": 1.8664969205856323, "learning_rate": 2.2534893791625408e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022535, "epoch": 0.701314459049545, "step": 867}, {"loss": 0.35055387020111084, "token_acc": 0.8939393939393939, "grad_norm": 1.9030721187591553, "learning_rate": 2.242328189520134e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022535, "epoch": 0.7021233569261881, "step": 868}, {"loss": 0.41889488697052, "token_acc": 0.8565573770491803, "grad_norm": 2.2921035289764404, "learning_rate": 2.2311867134955637e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022535, "epoch": 0.7029322548028312, "step": 869}, {"loss": 0.3641519844532013, "token_acc": 0.8726415094339622, "grad_norm": 2.5671067237854004, "learning_rate": 2.2200650307352883e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022536, "epoch": 0.7037411526794742, "step": 870}, {"loss": 0.34707674384117126, "token_acc": 0.898876404494382, "grad_norm": 2.0666255950927734, "learning_rate": 2.2089632207442763e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022536, "epoch": 0.7045500505561173, "step": 871}, {"loss": 0.30853113532066345, "token_acc": 0.8477611940298507, "grad_norm": 2.3214352130889893, "learning_rate": 2.197881362885426e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022536, "epoch": 0.7053589484327604, "step": 872}, {"loss": 0.44838905334472656, "token_acc": 0.8190954773869347, "grad_norm": 2.3969626426696777, "learning_rate": 2.1868195363790147e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022537, "epoch": 0.7061678463094034, "step": 873}, {"loss": 0.4084170460700989, "token_acc": 0.875, "grad_norm": 2.3142099380493164, "learning_rate": 2.1757778203021163e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022537, "epoch": 0.7069767441860465, "step": 874}, {"loss": 0.4108632802963257, "token_acc": 0.8553054662379421, "grad_norm": 2.4327192306518555, "learning_rate": 2.1647562935880405e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022537, "epoch": 0.7077856420626896, "step": 875}, {"loss": 0.3645017743110657, "token_acc": 0.825925925925926, "grad_norm": 1.7217832803726196, "learning_rate": 2.153755035025777e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022538, "epoch": 0.7085945399393326, "step": 876}, {"loss": 0.3739239573478699, "token_acc": 0.8757961783439491, "grad_norm": 1.7630640268325806, "learning_rate": 2.1427741232594185e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022538, "epoch": 0.7094034378159757, "step": 877}, {"loss": 0.3128720223903656, "token_acc": 0.8744769874476988, "grad_norm": 1.9821792840957642, "learning_rate": 2.1318136367876098e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022538, "epoch": 0.7102123356926188, "step": 878}, {"loss": 0.39012840390205383, "token_acc": 0.865814696485623, "grad_norm": 1.9988818168640137, "learning_rate": 2.120873653962983e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022538, "epoch": 0.7110212335692618, "step": 879}, {"loss": 0.3977096676826477, "token_acc": 0.8461538461538461, "grad_norm": 2.3474910259246826, "learning_rate": 2.109954252991595e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022539, "epoch": 0.7118301314459049, "step": 880}, {"loss": 0.37561237812042236, "token_acc": 0.8759124087591241, "grad_norm": 1.7941343784332275, "learning_rate": 2.0990555119323737e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022539, "epoch": 0.7126390293225481, "step": 881}, {"loss": 0.3414373993873596, "token_acc": 0.8681318681318682, "grad_norm": 2.288217782974243, "learning_rate": 2.0881775086965494e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022539, "epoch": 0.7134479271991911, "step": 882}, {"loss": 0.3832324147224426, "token_acc": 0.8442028985507246, "grad_norm": 1.7807132005691528, "learning_rate": 2.0773203210471115e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02254, "epoch": 0.7142568250758342, "step": 883}, {"loss": 0.4304344952106476, "token_acc": 0.8095238095238095, "grad_norm": 1.990700602531433, "learning_rate": 2.0664840265982457e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02254, "epoch": 0.7150657229524773, "step": 884}, {"loss": 0.4029080867767334, "token_acc": 0.8530612244897959, "grad_norm": 1.9708170890808105, "learning_rate": 2.0556687028147765e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02254, "epoch": 0.7158746208291203, "step": 885}, {"loss": 0.390356183052063, "token_acc": 0.8823529411764706, "grad_norm": 2.2865779399871826, "learning_rate": 2.0448744270116206e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022541, "epoch": 0.7166835187057634, "step": 886}, {"loss": 0.40166282653808594, "token_acc": 0.8840579710144928, "grad_norm": 2.5284066200256348, "learning_rate": 2.0341012763532243e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022541, "epoch": 0.7174924165824065, "step": 887}, {"loss": 0.38176417350769043, "token_acc": 0.8652482269503546, "grad_norm": 6.747030258178711, "learning_rate": 2.023349327853025e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022541, "epoch": 0.7183013144590495, "step": 888}, {"loss": 0.3778286576271057, "token_acc": 0.8429319371727748, "grad_norm": 2.049042224884033, "learning_rate": 2.0126186583728856e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022542, "epoch": 0.7191102123356926, "step": 889}, {"loss": 0.4231566786766052, "token_acc": 0.8865979381443299, "grad_norm": 2.2993712425231934, "learning_rate": 2.001909344622559e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022542, "epoch": 0.7199191102123357, "step": 890}, {"loss": 0.3927876651287079, "token_acc": 0.8867924528301887, "grad_norm": 2.244127035140991, "learning_rate": 1.9912214631591314e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022542, "epoch": 0.7207280080889787, "step": 891}, {"loss": 0.39008790254592896, "token_acc": 0.8244274809160306, "grad_norm": 1.9843049049377441, "learning_rate": 1.9805550903864775e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022543, "epoch": 0.7215369059656218, "step": 892}, {"loss": 0.3611776828765869, "token_acc": 0.84765625, "grad_norm": 2.253777027130127, "learning_rate": 1.9699103025547145e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022543, "epoch": 0.7223458038422649, "step": 893}, {"loss": 0.4213542640209198, "token_acc": 0.8754716981132076, "grad_norm": 2.2141964435577393, "learning_rate": 1.9592871757596532e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022543, "epoch": 0.7231547017189079, "step": 894}, {"loss": 0.4320271611213684, "token_acc": 0.8327526132404182, "grad_norm": 1.9213643074035645, "learning_rate": 1.9486857859422607e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022543, "epoch": 0.723963599595551, "step": 895}, {"loss": 0.3284885883331299, "token_acc": 0.8831615120274914, "grad_norm": 2.10569167137146, "learning_rate": 1.9381062088881142e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022543, "epoch": 0.7247724974721942, "step": 896}, {"loss": 0.35665562748908997, "token_acc": 0.9037037037037037, "grad_norm": 1.6468027830123901, "learning_rate": 1.9275485202268574e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022544, "epoch": 0.7255813953488373, "step": 897}, {"loss": 0.3552227020263672, "token_acc": 0.8705882352941177, "grad_norm": 1.961858868598938, "learning_rate": 1.917012795431665e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022544, "epoch": 0.7263902932254803, "step": 898}, {"loss": 0.42378872632980347, "token_acc": 0.8449612403100775, "grad_norm": 2.2594661712646484, "learning_rate": 1.9064991098186935e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022544, "epoch": 0.7271991911021234, "step": 899}, {"loss": 0.38160020112991333, "token_acc": 0.8577235772357723, "grad_norm": 2.3480887413024902, "learning_rate": 1.8960075385465547e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022545, "epoch": 0.7280080889787665, "step": 900}, {"loss": 0.3788355588912964, "token_acc": 0.9140271493212669, "grad_norm": 2.0713682174682617, "learning_rate": 1.8855381566157727e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022545, "epoch": 0.7288169868554095, "step": 901}, {"loss": 0.38564032316207886, "token_acc": 0.8618181818181818, "grad_norm": 1.8822578191757202, "learning_rate": 1.875091038868243e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022545, "epoch": 0.7296258847320526, "step": 902}, {"loss": 0.4137299060821533, "token_acc": 0.8893617021276595, "grad_norm": 2.0705273151397705, "learning_rate": 1.8646662599867072e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022545, "epoch": 0.7304347826086957, "step": 903}, {"loss": 0.41165363788604736, "token_acc": 0.873015873015873, "grad_norm": 2.7392282485961914, "learning_rate": 1.8542638944942127e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022546, "epoch": 0.7312436804853387, "step": 904}, {"loss": 0.39759790897369385, "token_acc": 0.8949416342412452, "grad_norm": 2.251229763031006, "learning_rate": 1.8438840167535826e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022546, "epoch": 0.7320525783619818, "step": 905}, {"loss": 0.36323827505111694, "token_acc": 0.9142857142857143, "grad_norm": 2.1164135932922363, "learning_rate": 1.8335267009668794e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022546, "epoch": 0.7328614762386249, "step": 906}, {"loss": 0.35361167788505554, "token_acc": 0.8603603603603603, "grad_norm": 2.421180009841919, "learning_rate": 1.8231920211748822e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022547, "epoch": 0.7336703741152679, "step": 907}, {"loss": 0.37238454818725586, "token_acc": 0.8442906574394463, "grad_norm": 2.0135669708251953, "learning_rate": 1.8128800512565514e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022547, "epoch": 0.734479271991911, "step": 908}, {"loss": 0.41406381130218506, "token_acc": 0.8631178707224335, "grad_norm": 3.3785688877105713, "learning_rate": 1.8025908649285033e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022548, "epoch": 0.735288169868554, "step": 909}, {"loss": 0.3641640543937683, "token_acc": 0.9076923076923077, "grad_norm": 2.393422842025757, "learning_rate": 1.7923245357444847e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022548, "epoch": 0.7360970677451971, "step": 910}, {"loss": 0.35734257102012634, "token_acc": 0.8491379310344828, "grad_norm": 2.425569534301758, "learning_rate": 1.7820811370948371e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022548, "epoch": 0.7369059656218403, "step": 911}, {"loss": 0.4984077513217926, "token_acc": 0.8333333333333334, "grad_norm": 2.3215856552124023, "learning_rate": 1.771860742205988e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022548, "epoch": 0.7377148634984834, "step": 912}, {"loss": 0.3875213861465454, "token_acc": 0.8376383763837638, "grad_norm": 2.343384265899658, "learning_rate": 1.7616634241399177e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022548, "epoch": 0.7385237613751264, "step": 913}, {"loss": 0.3730790615081787, "token_acc": 0.8776223776223776, "grad_norm": 1.9467604160308838, "learning_rate": 1.7514892557936309e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022549, "epoch": 0.7393326592517695, "step": 914}, {"loss": 0.3576545715332031, "token_acc": 0.8874172185430463, "grad_norm": 2.171644687652588, "learning_rate": 1.7413383098986563e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022549, "epoch": 0.7401415571284126, "step": 915}, {"loss": 0.3864002227783203, "token_acc": 0.9036144578313253, "grad_norm": 2.274996519088745, "learning_rate": 1.7312106590205014e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022549, "epoch": 0.7409504550050556, "step": 916}, {"loss": 0.36603063344955444, "token_acc": 0.8798798798798799, "grad_norm": 1.9122254848480225, "learning_rate": 1.7211063755581524e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022549, "epoch": 0.7417593528816987, "step": 917}, {"loss": 0.38110482692718506, "token_acc": 0.8325581395348837, "grad_norm": 2.126805067062378, "learning_rate": 1.7110255317435503e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02255, "epoch": 0.7425682507583418, "step": 918}, {"loss": 0.3204044699668884, "token_acc": 0.8575757575757575, "grad_norm": 2.5423946380615234, "learning_rate": 1.7009681996410693e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02255, "epoch": 0.7433771486349848, "step": 919}, {"loss": 0.3353678286075592, "token_acc": 0.9169811320754717, "grad_norm": 2.0116817951202393, "learning_rate": 1.6909344511470116e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02255, "epoch": 0.7441860465116279, "step": 920}, {"loss": 0.401151180267334, "token_acc": 0.823321554770318, "grad_norm": 2.245171546936035, "learning_rate": 1.6809243579890865e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022551, "epoch": 0.744994944388271, "step": 921}, {"loss": 0.4471093714237213, "token_acc": 0.8719723183391004, "grad_norm": 2.26719331741333, "learning_rate": 1.6709379917259028e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022551, "epoch": 0.745803842264914, "step": 922}, {"loss": 0.4046187400817871, "token_acc": 0.835, "grad_norm": 2.297231435775757, "learning_rate": 1.6609754237464475e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022551, "epoch": 0.7466127401415571, "step": 923}, {"loss": 0.3570983409881592, "token_acc": 0.883177570093458, "grad_norm": 2.375325918197632, "learning_rate": 1.651036725269588e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022552, "epoch": 0.7474216380182002, "step": 924}, {"loss": 0.33470356464385986, "token_acc": 0.9057377049180327, "grad_norm": 1.6737430095672607, "learning_rate": 1.6411219673435564e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022552, "epoch": 0.7482305358948432, "step": 925}, {"loss": 0.37246596813201904, "token_acc": 0.8854166666666666, "grad_norm": 1.9846247434616089, "learning_rate": 1.6312312208454373e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022552, "epoch": 0.7490394337714863, "step": 926}, {"loss": 0.3770504593849182, "token_acc": 0.9072164948453608, "grad_norm": 1.810141921043396, "learning_rate": 1.6213645564806751e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022553, "epoch": 0.7498483316481295, "step": 927}, {"loss": 0.376004159450531, "token_acc": 0.9196428571428571, "grad_norm": 2.10400128364563, "learning_rate": 1.6115220447825503e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022553, "epoch": 0.7506572295247725, "step": 928}, {"loss": 0.3456549048423767, "token_acc": 0.8565573770491803, "grad_norm": 2.000704050064087, "learning_rate": 1.6017037561116899e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022553, "epoch": 0.7514661274014156, "step": 929}, {"loss": 0.33691200613975525, "token_acc": 0.8848920863309353, "grad_norm": 1.5539889335632324, "learning_rate": 1.59190976065556e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022554, "epoch": 0.7522750252780587, "step": 930}, {"loss": 0.39200344681739807, "token_acc": 0.8892857142857142, "grad_norm": 1.6070380210876465, "learning_rate": 1.582140128427957e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022554, "epoch": 0.7530839231547017, "step": 931}, {"loss": 0.34315165877342224, "token_acc": 0.8774193548387097, "grad_norm": 1.8517992496490479, "learning_rate": 1.5723949292685193e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022554, "epoch": 0.7538928210313448, "step": 932}, {"loss": 0.3751834034919739, "token_acc": 0.9234234234234234, "grad_norm": 2.0841267108917236, "learning_rate": 1.5626742328422195e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022554, "epoch": 0.7547017189079879, "step": 933}, {"loss": 0.37340766191482544, "token_acc": 0.9068627450980392, "grad_norm": 2.080343008041382, "learning_rate": 1.552978108638869e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022555, "epoch": 0.7555106167846309, "step": 934}, {"loss": 0.4011552929878235, "token_acc": 0.9128440366972477, "grad_norm": 2.0687668323516846, "learning_rate": 1.543306625972623e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022555, "epoch": 0.756319514661274, "step": 935}, {"loss": 0.389544278383255, "token_acc": 0.8618181818181818, "grad_norm": 1.9438579082489014, "learning_rate": 1.5336598539814784e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022555, "epoch": 0.7571284125379171, "step": 936}, {"loss": 0.34044280648231506, "token_acc": 0.8879310344827587, "grad_norm": 2.186204671859741, "learning_rate": 1.5240378616267887e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022555, "epoch": 0.7579373104145601, "step": 937}, {"loss": 0.41251152753829956, "token_acc": 0.8347107438016529, "grad_norm": 2.069333076477051, "learning_rate": 1.514440717692765e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.7587462082912032, "step": 938}, {"loss": 0.4127691984176636, "token_acc": 0.842443729903537, "grad_norm": 1.9282809495925903, "learning_rate": 1.5048684907859873e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.7595551061678463, "step": 939}, {"loss": 0.42502281069755554, "token_acc": 0.8642857142857143, "grad_norm": 2.28041410446167, "learning_rate": 1.495321249334908e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.7603640040444893, "step": 940}, {"loss": 0.4206182658672333, "token_acc": 0.8811475409836066, "grad_norm": 1.8921377658843994, "learning_rate": 1.485799061589372e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.7611729019211324, "step": 941}, {"loss": 0.3889954090118408, "token_acc": 0.8821752265861027, "grad_norm": 1.8928072452545166, "learning_rate": 1.4763019956201252e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.7619817997977756, "step": 942}, {"loss": 0.38851073384284973, "token_acc": 0.8724137931034482, "grad_norm": 3.128412961959839, "learning_rate": 1.4668301193183198e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022556, "epoch": 0.7627906976744186, "step": 943}, {"loss": 0.38765308260917664, "token_acc": 0.8867924528301887, "grad_norm": 1.9432473182678223, "learning_rate": 1.4573835003950438e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022557, "epoch": 0.7635995955510617, "step": 944}, {"loss": 0.43059998750686646, "token_acc": 0.8793774319066148, "grad_norm": 2.4022583961486816, "learning_rate": 1.4479622063808242e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022557, "epoch": 0.7644084934277048, "step": 945}, {"loss": 0.4037495255470276, "token_acc": 0.8772727272727273, "grad_norm": 2.3695461750030518, "learning_rate": 1.4385663046251514e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022557, "epoch": 0.7652173913043478, "step": 946}, {"loss": 0.35621780157089233, "token_acc": 0.9019607843137255, "grad_norm": 1.9513347148895264, "learning_rate": 1.4291958622959972e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022557, "epoch": 0.7660262891809909, "step": 947}, {"loss": 0.38198453187942505, "token_acc": 0.8981132075471698, "grad_norm": 2.0191597938537598, "learning_rate": 1.4198509463793275e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022558, "epoch": 0.766835187057634, "step": 948}, {"loss": 0.39389660954475403, "token_acc": 0.8419689119170984, "grad_norm": 1.8823531866073608, "learning_rate": 1.4105316236786332e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022558, "epoch": 0.767644084934277, "step": 949}, {"loss": 0.40055525302886963, "token_acc": 0.8776371308016878, "grad_norm": 2.254852771759033, "learning_rate": 1.4012379608144477e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022558, "epoch": 0.7684529828109201, "step": 950}, {"loss": 0.4659748673439026, "token_acc": 0.804635761589404, "grad_norm": 2.2618825435638428, "learning_rate": 1.3919700242238715e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022559, "epoch": 0.7692618806875632, "step": 951}, {"loss": 0.34575021266937256, "token_acc": 0.8618421052631579, "grad_norm": 1.884406328201294, "learning_rate": 1.382727880160098e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022559, "epoch": 0.7700707785642062, "step": 952}, {"loss": 0.35355186462402344, "token_acc": 0.9132231404958677, "grad_norm": 2.369433641433716, "learning_rate": 1.3735115946919342e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022559, "epoch": 0.7708796764408493, "step": 953}, {"loss": 0.35935360193252563, "token_acc": 0.8350877192982457, "grad_norm": 1.9989012479782104, "learning_rate": 1.3643212337033396e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02256, "epoch": 0.7716885743174924, "step": 954}, {"loss": 0.41261640191078186, "token_acc": 0.849112426035503, "grad_norm": 2.4037156105041504, "learning_rate": 1.3551568628929434e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02256, "epoch": 0.7724974721941354, "step": 955}, {"loss": 0.46254298090934753, "token_acc": 0.8521400778210116, "grad_norm": 3.044893741607666, "learning_rate": 1.346018547773582e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02256, "epoch": 0.7733063700707785, "step": 956}, {"loss": 0.39035511016845703, "token_acc": 0.8973509933774835, "grad_norm": 2.8486831188201904, "learning_rate": 1.3369063536718347e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02256, "epoch": 0.7741152679474217, "step": 957}, {"loss": 0.4135955572128296, "token_acc": 0.8804347826086957, "grad_norm": 2.8728833198547363, "learning_rate": 1.3278203457275401e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02256, "epoch": 0.7749241658240648, "step": 958}, {"loss": 0.3800261616706848, "token_acc": 0.8988095238095238, "grad_norm": 2.2483723163604736, "learning_rate": 1.3187605888933508e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022561, "epoch": 0.7757330637007078, "step": 959}, {"loss": 0.4093528389930725, "token_acc": 0.8419243986254296, "grad_norm": 2.3790223598480225, "learning_rate": 1.3097271479342526e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022561, "epoch": 0.7765419615773509, "step": 960}, {"loss": 0.30737096071243286, "token_acc": 0.8328173374613003, "grad_norm": 2.5826141834259033, "learning_rate": 1.3007200874271126e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022561, "epoch": 0.777350859453994, "step": 961}, {"loss": 0.3649098575115204, "token_acc": 0.8901960784313725, "grad_norm": 1.8254023790359497, "learning_rate": 1.2917394717602123e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022562, "epoch": 0.778159757330637, "step": 962}, {"loss": 0.3445701599121094, "token_acc": 0.87890625, "grad_norm": 1.9518779516220093, "learning_rate": 1.2827853651327883e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022562, "epoch": 0.7789686552072801, "step": 963}, {"loss": 0.3813546299934387, "token_acc": 0.8389830508474576, "grad_norm": 2.0577752590179443, "learning_rate": 1.2738578315545751e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022562, "epoch": 0.7797775530839232, "step": 964}, {"loss": 0.4146482050418854, "token_acc": 0.8581314878892734, "grad_norm": 2.2759878635406494, "learning_rate": 1.2649569348453416e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022562, "epoch": 0.7805864509605662, "step": 965}, {"loss": 0.43926411867141724, "token_acc": 0.908256880733945, "grad_norm": 2.162762403488159, "learning_rate": 1.2560827386344444e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022563, "epoch": 0.7813953488372093, "step": 966}, {"loss": 0.3915598690509796, "token_acc": 0.8888888888888888, "grad_norm": 2.6653337478637695, "learning_rate": 1.2472353063603626e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022563, "epoch": 0.7822042467138524, "step": 967}, {"loss": 0.3581811189651489, "token_acc": 0.8584615384615385, "grad_norm": 1.9902511835098267, "learning_rate": 1.238414701270252e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022563, "epoch": 0.7830131445904954, "step": 968}, {"loss": 0.40156054496765137, "token_acc": 0.8660436137071651, "grad_norm": 2.0768163204193115, "learning_rate": 1.229620986419494e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022563, "epoch": 0.7838220424671385, "step": 969}, {"loss": 0.3723048269748688, "token_acc": 0.9051724137931034, "grad_norm": 2.0157761573791504, "learning_rate": 1.2208542246712346e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022564, "epoch": 0.7846309403437816, "step": 970}, {"loss": 0.39407879114151, "token_acc": 0.8828125, "grad_norm": 2.2510571479797363, "learning_rate": 1.2121144786959466e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022564, "epoch": 0.7854398382204246, "step": 971}, {"loss": 0.3809299170970917, "token_acc": 0.8663967611336032, "grad_norm": 1.9419714212417603, "learning_rate": 1.2034018109709716e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022564, "epoch": 0.7862487360970677, "step": 972}, {"loss": 0.41355523467063904, "token_acc": 0.8683274021352313, "grad_norm": 2.204801321029663, "learning_rate": 1.1947162837800842e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022565, "epoch": 0.7870576339737109, "step": 973}, {"loss": 0.407459557056427, "token_acc": 0.8583333333333333, "grad_norm": 2.461207866668701, "learning_rate": 1.1860579592130366e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022565, "epoch": 0.7878665318503539, "step": 974}, {"loss": 0.33745524287223816, "token_acc": 0.9018691588785047, "grad_norm": 1.8681888580322266, "learning_rate": 1.177426899165121e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022565, "epoch": 0.788675429726997, "step": 975}, {"loss": 0.36072519421577454, "token_acc": 0.8922413793103449, "grad_norm": 1.9317001104354858, "learning_rate": 1.1688231653367271e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022565, "epoch": 0.7894843276036401, "step": 976}, {"loss": 0.3215617537498474, "token_acc": 0.9003436426116839, "grad_norm": 1.4545793533325195, "learning_rate": 1.1602468192328936e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022566, "epoch": 0.7902932254802831, "step": 977}, {"loss": 0.36492764949798584, "token_acc": 0.8724489795918368, "grad_norm": 2.098681926727295, "learning_rate": 1.1516979221628804e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022566, "epoch": 0.7911021233569262, "step": 978}, {"loss": 0.3920031785964966, "token_acc": 0.875, "grad_norm": 1.852514386177063, "learning_rate": 1.1431765352397167e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022566, "epoch": 0.7919110212335693, "step": 979}, {"loss": 0.3568735718727112, "token_acc": 0.9057971014492754, "grad_norm": 2.011186122894287, "learning_rate": 1.13468271937978e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022566, "epoch": 0.7927199191102123, "step": 980}, {"loss": 0.3684077560901642, "token_acc": 0.8900343642611683, "grad_norm": 2.8331449031829834, "learning_rate": 1.1262165353023474e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022567, "epoch": 0.7935288169868554, "step": 981}, {"loss": 0.3318890929222107, "token_acc": 0.8755760368663594, "grad_norm": 2.3888087272644043, "learning_rate": 1.1177780435291641e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022567, "epoch": 0.7943377148634985, "step": 982}, {"loss": 0.32926511764526367, "token_acc": 0.8690095846645367, "grad_norm": 1.8067930936813354, "learning_rate": 1.1093673043840182e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022567, "epoch": 0.7951466127401415, "step": 983}, {"loss": 0.39484211802482605, "token_acc": 0.8741496598639455, "grad_norm": 2.238401412963867, "learning_rate": 1.100984377992298e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022567, "epoch": 0.7959555106167846, "step": 984}, {"loss": 0.45714324712753296, "token_acc": 0.8478260869565217, "grad_norm": 2.389265298843384, "learning_rate": 1.0926293242805735e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022568, "epoch": 0.7967644084934277, "step": 985}, {"loss": 0.37196797132492065, "token_acc": 0.8589211618257261, "grad_norm": 2.173175811767578, "learning_rate": 1.0843022029761596e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022568, "epoch": 0.7975733063700707, "step": 986}, {"loss": 0.44243717193603516, "token_acc": 0.8244274809160306, "grad_norm": 2.0259294509887695, "learning_rate": 1.0760030736066952e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022568, "epoch": 0.7983822042467138, "step": 987}, {"loss": 0.39491477608680725, "token_acc": 0.9015544041450777, "grad_norm": 2.151653528213501, "learning_rate": 1.0677319954997129e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022568, "epoch": 0.799191102123357, "step": 988}, {"loss": 0.3383401334285736, "token_acc": 0.8840125391849529, "grad_norm": 2.1169228553771973, "learning_rate": 1.0594890277822151e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022569, "epoch": 0.8, "step": 989}, {"loss": 0.38963425159454346, "token_acc": 0.8666666666666667, "grad_norm": 2.4547696113586426, "learning_rate": 1.0512742293802558e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022569, "epoch": 0.8008088978766431, "step": 990}, {"loss": 0.36352628469467163, "token_acc": 0.92, "grad_norm": 1.8448153734207153, "learning_rate": 1.0430876590185162e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022569, "epoch": 0.8016177957532862, "step": 991}, {"loss": 0.37957262992858887, "token_acc": 0.887240356083086, "grad_norm": 1.883742094039917, "learning_rate": 1.0349293752198842e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022569, "epoch": 0.8024266936299292, "step": 992}, {"loss": 0.3739085793495178, "token_acc": 0.834061135371179, "grad_norm": 2.0374629497528076, "learning_rate": 1.0267994363050387e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02257, "epoch": 0.8032355915065723, "step": 993}, {"loss": 0.31939688324928284, "token_acc": 0.8784313725490196, "grad_norm": 2.806663751602173, "learning_rate": 1.0186979003920273e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02257, "epoch": 0.8040444893832154, "step": 994}, {"loss": 0.37592533230781555, "token_acc": 0.900355871886121, "grad_norm": 2.3647608757019043, "learning_rate": 1.0106248253958607e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02257, "epoch": 0.8048533872598584, "step": 995}, {"loss": 0.3363335132598877, "token_acc": 0.9078014184397163, "grad_norm": 2.112464427947998, "learning_rate": 1.0025802690280851e-06, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02257, "epoch": 0.8056622851365015, "step": 996}, {"loss": 0.38282421231269836, "token_acc": 0.8685446009389671, "grad_norm": 2.177457809448242, "learning_rate": 9.945642887963842e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022571, "epoch": 0.8064711830131446, "step": 997}, {"loss": 0.3649854063987732, "token_acc": 0.8651685393258427, "grad_norm": 2.463026523590088, "learning_rate": 9.86576942004156e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022571, "epoch": 0.8072800808897876, "step": 998}, {"loss": 0.4093163013458252, "token_acc": 0.8106060606060606, "grad_norm": 2.1493732929229736, "learning_rate": 9.78618285750112e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022571, "epoch": 0.8080889787664307, "step": 999}, {"loss": 0.3501003682613373, "token_acc": 0.8641975308641975, "grad_norm": 1.8683381080627441, "learning_rate": 9.70688376927864e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022571, "epoch": 0.8088978766430738, "step": 1000}, {"eval_loss": 0.36755362153053284, "eval_token_acc": 0.8743528175883545, "eval_runtime": 428.8026, "eval_samples_per_second": 3.727, "eval_steps_per_second": 0.117, "epoch": 0.8088978766430738, "step": 1000}, {"loss": 0.3149925470352173, "token_acc": 0.875, "grad_norm": 6.642233371734619, "learning_rate": 9.627872722255154e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022354, "epoch": 0.8097067745197168, "step": 1001}, {"loss": 0.4250641167163849, "token_acc": 0.8754448398576512, "grad_norm": 2.2048041820526123, "learning_rate": 9.549150281252633e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022354, "epoch": 0.8105156723963599, "step": 1002}, {"loss": 0.32009008526802063, "token_acc": 0.89, "grad_norm": 1.8660839796066284, "learning_rate": 9.470717009029889e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022354, "epoch": 0.8113245702730031, "step": 1003}, {"loss": 0.3357139825820923, "token_acc": 0.9012875536480687, "grad_norm": 1.9054193496704102, "learning_rate": 9.39257346627857e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022355, "epoch": 0.8121334681496462, "step": 1004}, {"loss": 0.38648778200149536, "token_acc": 0.9029850746268657, "grad_norm": 3.9081051349639893, "learning_rate": 9.314720211619166e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022355, "epoch": 0.8129423660262892, "step": 1005}, {"loss": 0.3301439881324768, "token_acc": 0.8925925925925926, "grad_norm": 2.1040167808532715, "learning_rate": 9.237157801596958e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022356, "epoch": 0.8137512639029323, "step": 1006}, {"loss": 0.37634193897247314, "token_acc": 0.8092485549132948, "grad_norm": 1.6679681539535522, "learning_rate": 9.159886790678124e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022356, "epoch": 0.8145601617795754, "step": 1007}, {"loss": 0.4119229316711426, "token_acc": 0.8262548262548263, "grad_norm": 2.3380022048950195, "learning_rate": 9.082907731245733e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022357, "epoch": 0.8153690596562184, "step": 1008}, {"loss": 0.355658620595932, "token_acc": 0.926530612244898, "grad_norm": 1.9643757343292236, "learning_rate": 9.006221173595741e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022357, "epoch": 0.8161779575328615, "step": 1009}, {"loss": 0.3310469388961792, "token_acc": 0.9036697247706422, "grad_norm": 1.6694306135177612, "learning_rate": 8.929827665933211e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022358, "epoch": 0.8169868554095046, "step": 1010}, {"loss": 0.3335992693901062, "token_acc": 0.9045226130653267, "grad_norm": 3.9332058429718018, "learning_rate": 8.853727754368191e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022358, "epoch": 0.8177957532861476, "step": 1011}, {"loss": 0.3944769501686096, "token_acc": 0.8847583643122676, "grad_norm": 2.0935213565826416, "learning_rate": 8.777921982911996e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022359, "epoch": 0.8186046511627907, "step": 1012}, {"loss": 0.3291887938976288, "token_acc": 0.8565217391304348, "grad_norm": 1.8062115907669067, "learning_rate": 8.702410893473173e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022359, "epoch": 0.8194135490394338, "step": 1013}, {"loss": 0.2895755469799042, "token_acc": 0.9145299145299145, "grad_norm": 2.1609699726104736, "learning_rate": 8.627195025853735e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02236, "epoch": 0.8202224469160768, "step": 1014}, {"loss": 0.3750014901161194, "token_acc": 0.8930817610062893, "grad_norm": 2.0408060550689697, "learning_rate": 8.552274917745246e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02236, "epoch": 0.8210313447927199, "step": 1015}, {"loss": 0.3800932466983795, "token_acc": 0.8439306358381503, "grad_norm": 2.2596545219421387, "learning_rate": 8.477651104724994e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022361, "epoch": 0.821840242669363, "step": 1016}, {"loss": 0.3251078128814697, "token_acc": 0.9111969111969112, "grad_norm": 1.547613263130188, "learning_rate": 8.40332412025216e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022361, "epoch": 0.822649140546006, "step": 1017}, {"loss": 0.38296395540237427, "token_acc": 0.8782894736842105, "grad_norm": 2.1521153450012207, "learning_rate": 8.329294495663981e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022361, "epoch": 0.8234580384226491, "step": 1018}, {"loss": 0.3523367643356323, "token_acc": 0.8269896193771626, "grad_norm": 2.0719387531280518, "learning_rate": 8.255562760172004e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022362, "epoch": 0.8242669362992923, "step": 1019}, {"loss": 0.37082982063293457, "token_acc": 0.8984126984126984, "grad_norm": 2.2503058910369873, "learning_rate": 8.18212944085826e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022362, "epoch": 0.8250758341759353, "step": 1020}, {"loss": 0.44092637300491333, "token_acc": 0.8571428571428571, "grad_norm": 2.572887659072876, "learning_rate": 8.108995062671482e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022363, "epoch": 0.8258847320525784, "step": 1021}, {"loss": 0.3986678123474121, "token_acc": 0.9176470588235294, "grad_norm": 2.121467113494873, "learning_rate": 8.036160148423449e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022363, "epoch": 0.8266936299292215, "step": 1022}, {"loss": 0.35733747482299805, "token_acc": 0.9130434782608695, "grad_norm": 1.8472903966903687, "learning_rate": 7.963625218785099e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022364, "epoch": 0.8275025278058645, "step": 1023}, {"loss": 0.2967044711112976, "token_acc": 0.9016393442622951, "grad_norm": 1.9388898611068726, "learning_rate": 7.891390792282927e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022364, "epoch": 0.8283114256825076, "step": 1024}, {"loss": 0.31166231632232666, "token_acc": 0.9090909090909091, "grad_norm": 1.7470604181289673, "learning_rate": 7.819457385295254e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022364, "epoch": 0.8291203235591507, "step": 1025}, {"loss": 0.3713032007217407, "token_acc": 0.8540540540540541, "grad_norm": 2.2927539348602295, "learning_rate": 7.747825512048462e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022365, "epoch": 0.8299292214357937, "step": 1026}, {"loss": 0.3384319543838501, "token_acc": 0.9325842696629213, "grad_norm": 2.0093610286712646, "learning_rate": 7.676495684613433e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022365, "epoch": 0.8307381193124368, "step": 1027}, {"loss": 0.4422561824321747, "token_acc": 0.8424657534246576, "grad_norm": 1.9166637659072876, "learning_rate": 7.605468412901801e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022366, "epoch": 0.8315470171890799, "step": 1028}, {"loss": 0.42556819319725037, "token_acc": 0.8181818181818182, "grad_norm": 2.4499292373657227, "learning_rate": 7.534744204662348e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022366, "epoch": 0.8323559150657229, "step": 1029}, {"loss": 0.46478235721588135, "token_acc": 0.8811881188118812, "grad_norm": 2.4436521530151367, "learning_rate": 7.464323565477372e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022367, "epoch": 0.833164812942366, "step": 1030}, {"loss": 0.34241783618927, "token_acc": 0.8908450704225352, "grad_norm": 1.8678390979766846, "learning_rate": 7.394206998759013e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022367, "epoch": 0.8339737108190091, "step": 1031}, {"loss": 0.3532907962799072, "token_acc": 0.8291814946619217, "grad_norm": 2.002629041671753, "learning_rate": 7.324395005745772e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022368, "epoch": 0.8347826086956521, "step": 1032}, {"loss": 0.39124253392219543, "token_acc": 0.8664122137404581, "grad_norm": 2.4754257202148438, "learning_rate": 7.254888085498812e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022368, "epoch": 0.8355915065722952, "step": 1033}, {"loss": 0.3519361913204193, "token_acc": 0.8725490196078431, "grad_norm": 2.009551763534546, "learning_rate": 7.185686734898478e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022368, "epoch": 0.8364004044489384, "step": 1034}, {"loss": 0.3848615884780884, "token_acc": 0.8981481481481481, "grad_norm": 2.077303886413574, "learning_rate": 7.116791448640664e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022369, "epoch": 0.8372093023255814, "step": 1035}, {"loss": 0.3747529983520508, "token_acc": 0.9141914191419142, "grad_norm": 1.8623238801956177, "learning_rate": 7.048202719233344e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022369, "epoch": 0.8380182002022245, "step": 1036}, {"loss": 0.3627777099609375, "token_acc": 0.8225352112676056, "grad_norm": 1.8672590255737305, "learning_rate": 6.979921036993042e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02237, "epoch": 0.8388270980788676, "step": 1037}, {"loss": 0.4054332375526428, "token_acc": 0.8860759493670886, "grad_norm": 2.0797042846679688, "learning_rate": 6.911946890041254e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02237, "epoch": 0.8396359959555106, "step": 1038}, {"loss": 0.33668115735054016, "token_acc": 0.9083665338645418, "grad_norm": 2.2241296768188477, "learning_rate": 6.844280764301075e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022371, "epoch": 0.8404448938321537, "step": 1039}, {"loss": 0.3522379696369171, "token_acc": 0.8508771929824561, "grad_norm": 1.7550405263900757, "learning_rate": 6.776923143493636e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022371, "epoch": 0.8412537917087968, "step": 1040}, {"loss": 0.4433209300041199, "token_acc": 0.8392282958199357, "grad_norm": 1.8860352039337158, "learning_rate": 6.709874509134684e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022371, "epoch": 0.8420626895854398, "step": 1041}, {"loss": 0.3951689302921295, "token_acc": 0.8928571428571429, "grad_norm": 2.263840913772583, "learning_rate": 6.643135340531137e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022372, "epoch": 0.8428715874620829, "step": 1042}, {"loss": 0.39435216784477234, "token_acc": 0.8184523809523809, "grad_norm": 2.3143765926361084, "learning_rate": 6.576706114777626e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022372, "epoch": 0.843680485338726, "step": 1043}, {"loss": 0.38613927364349365, "token_acc": 0.8405797101449275, "grad_norm": 2.4204423427581787, "learning_rate": 6.510587306753135e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022373, "epoch": 0.844489383215369, "step": 1044}, {"loss": 0.3638315498828888, "token_acc": 0.8671328671328671, "grad_norm": 1.9565153121948242, "learning_rate": 6.444779389117579e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022373, "epoch": 0.8452982810920121, "step": 1045}, {"loss": 0.3477684557437897, "token_acc": 0.8731343283582089, "grad_norm": 1.82338547706604, "learning_rate": 6.379282832308414e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022374, "epoch": 0.8461071789686552, "step": 1046}, {"loss": 0.359966516494751, "token_acc": 0.84, "grad_norm": 2.053645610809326, "learning_rate": 6.314098104537325e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022374, "epoch": 0.8469160768452982, "step": 1047}, {"loss": 0.3331785202026367, "token_acc": 0.9153846153846154, "grad_norm": 2.145159959793091, "learning_rate": 6.249225671786785e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022375, "epoch": 0.8477249747219413, "step": 1048}, {"loss": 0.3494233191013336, "token_acc": 0.8663594470046083, "grad_norm": 2.2616126537323, "learning_rate": 6.184665997806832e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022375, "epoch": 0.8485338725985845, "step": 1049}, {"loss": 0.35964176058769226, "token_acc": 0.893687707641196, "grad_norm": 2.032336711883545, "learning_rate": 6.120419544111655e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022375, "epoch": 0.8493427704752275, "step": 1050}, {"loss": 0.37345680594444275, "token_acc": 0.8767123287671232, "grad_norm": 1.9737732410430908, "learning_rate": 6.056486769976388e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022376, "epoch": 0.8501516683518706, "step": 1051}, {"loss": 0.3770935535430908, "token_acc": 0.8894230769230769, "grad_norm": 3.4677176475524902, "learning_rate": 5.992868132433755e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022376, "epoch": 0.8509605662285137, "step": 1052}, {"loss": 0.40682828426361084, "token_acc": 0.875, "grad_norm": 2.0082759857177734, "learning_rate": 5.929564086270834e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022376, "epoch": 0.8517694641051567, "step": 1053}, {"loss": 0.3442041873931885, "token_acc": 0.86, "grad_norm": 1.6112618446350098, "learning_rate": 5.866575084025816e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022377, "epoch": 0.8525783619817998, "step": 1054}, {"loss": 0.37148886919021606, "token_acc": 0.9269406392694064, "grad_norm": 2.1978917121887207, "learning_rate": 5.803901575984721e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022377, "epoch": 0.8533872598584429, "step": 1055}, {"loss": 0.37758809328079224, "token_acc": 0.8744939271255061, "grad_norm": 2.1480906009674072, "learning_rate": 5.74154401017824e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022378, "epoch": 0.854196157735086, "step": 1056}, {"loss": 0.3692307472229004, "token_acc": 0.8982035928143712, "grad_norm": 2.161919593811035, "learning_rate": 5.679502832378497e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022378, "epoch": 0.855005055611729, "step": 1057}, {"loss": 0.36903953552246094, "token_acc": 0.8892857142857142, "grad_norm": 2.31783390045166, "learning_rate": 5.61777848609587e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022378, "epoch": 0.8558139534883721, "step": 1058}, {"loss": 0.40472832322120667, "token_acc": 0.8706896551724138, "grad_norm": 2.582380771636963, "learning_rate": 5.556371412575834e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022379, "epoch": 0.8566228513650151, "step": 1059}, {"loss": 0.3849819302558899, "token_acc": 0.8406374501992032, "grad_norm": 1.9625579118728638, "learning_rate": 5.495282050795763e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022379, "epoch": 0.8574317492416582, "step": 1060}, {"loss": 0.43619173765182495, "token_acc": 0.8464730290456431, "grad_norm": 2.0185904502868652, "learning_rate": 5.434510837461854e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02238, "epoch": 0.8582406471183013, "step": 1061}, {"loss": 0.37471503019332886, "token_acc": 0.9219512195121952, "grad_norm": 2.0642013549804688, "learning_rate": 5.374058207005945e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02238, "epoch": 0.8590495449949443, "step": 1062}, {"loss": 0.3878336548805237, "token_acc": 0.8531073446327684, "grad_norm": 2.187964677810669, "learning_rate": 5.313924591582453e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02238, "epoch": 0.8598584428715874, "step": 1063}, {"loss": 0.4011298716068268, "token_acc": 0.8282442748091603, "grad_norm": 3.5268666744232178, "learning_rate": 5.254110421065301e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022381, "epoch": 0.8606673407482305, "step": 1064}, {"loss": 0.3823421597480774, "token_acc": 0.8555555555555555, "grad_norm": 1.9126622676849365, "learning_rate": 5.194616123044749e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022381, "epoch": 0.8614762386248737, "step": 1065}, {"loss": 0.41584277153015137, "token_acc": 0.896, "grad_norm": 1.9851644039154053, "learning_rate": 5.135442122824453e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022382, "epoch": 0.8622851365015167, "step": 1066}, {"loss": 0.3853064775466919, "token_acc": 0.8201634877384196, "grad_norm": 2.158141613006592, "learning_rate": 5.076588843418345e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022382, "epoch": 0.8630940343781598, "step": 1067}, {"loss": 0.3744017481803894, "token_acc": 0.8693693693693694, "grad_norm": 2.003866672515869, "learning_rate": 5.018056705547652e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022382, "epoch": 0.8639029322548029, "step": 1068}, {"loss": 0.3795039653778076, "token_acc": 0.8388625592417062, "grad_norm": 3.3579702377319336, "learning_rate": 4.959846127637874e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022383, "epoch": 0.8647118301314459, "step": 1069}, {"loss": 0.35196787118911743, "token_acc": 0.8385650224215246, "grad_norm": 2.1418285369873047, "learning_rate": 4.901957525815787e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022383, "epoch": 0.865520728008089, "step": 1070}, {"loss": 0.3312758207321167, "token_acc": 0.8912280701754386, "grad_norm": 2.060997486114502, "learning_rate": 4.844391313906482e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022384, "epoch": 0.8663296258847321, "step": 1071}, {"loss": 0.4016328752040863, "token_acc": 0.8404669260700389, "grad_norm": 2.250108242034912, "learning_rate": 4.787147903430383e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022384, "epoch": 0.8671385237613751, "step": 1072}, {"loss": 0.3070691227912903, "token_acc": 0.8928571428571429, "grad_norm": 1.5963561534881592, "learning_rate": 4.730227703600354e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022384, "epoch": 0.8679474216380182, "step": 1073}, {"loss": 0.32245370745658875, "token_acc": 0.8725868725868726, "grad_norm": 2.321164846420288, "learning_rate": 4.6736311213186724e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022385, "epoch": 0.8687563195146613, "step": 1074}, {"loss": 0.32412296533584595, "token_acc": 0.9473684210526315, "grad_norm": 1.9174984693527222, "learning_rate": 4.617358561174279e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022385, "epoch": 0.8695652173913043, "step": 1075}, {"loss": 0.299832284450531, "token_acc": 0.9108527131782945, "grad_norm": 1.674944281578064, "learning_rate": 4.561410425439744e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022386, "epoch": 0.8703741152679474, "step": 1076}, {"loss": 0.3502030670642853, "token_acc": 0.8602941176470589, "grad_norm": 1.9611433744430542, "learning_rate": 4.505787114068433e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022386, "epoch": 0.8711830131445905, "step": 1077}, {"loss": 0.39019766449928284, "token_acc": 0.8958333333333334, "grad_norm": 2.2846431732177734, "learning_rate": 4.45048902469169e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022386, "epoch": 0.8719919110212335, "step": 1078}, {"loss": 0.37344303727149963, "token_acc": 0.9163179916317992, "grad_norm": 2.490588903427124, "learning_rate": 4.3955165526159306e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022387, "epoch": 0.8728008088978766, "step": 1079}, {"loss": 0.3260120153427124, "token_acc": 0.8585858585858586, "grad_norm": 5.213693141937256, "learning_rate": 4.3408700908198654e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022387, "epoch": 0.8736097067745198, "step": 1080}, {"loss": 0.36192968487739563, "token_acc": 0.8915094339622641, "grad_norm": 2.62857723236084, "learning_rate": 4.2865500299516747e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022387, "epoch": 0.8744186046511628, "step": 1081}, {"loss": 0.35925909876823425, "token_acc": 0.8312236286919831, "grad_norm": 2.0130198001861572, "learning_rate": 4.232556758326212e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022388, "epoch": 0.8752275025278059, "step": 1082}, {"loss": 0.34093332290649414, "token_acc": 0.8543046357615894, "grad_norm": 1.795419454574585, "learning_rate": 4.178890661922241e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022388, "epoch": 0.876036400404449, "step": 1083}, {"loss": 0.412899911403656, "token_acc": 0.85, "grad_norm": 2.5592668056488037, "learning_rate": 4.125552124379628e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022389, "epoch": 0.876845298281092, "step": 1084}, {"loss": 0.3767935633659363, "token_acc": 0.8523676880222841, "grad_norm": 1.8965997695922852, "learning_rate": 4.072541526996682e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022389, "epoch": 0.8776541961577351, "step": 1085}, {"loss": 0.3973158597946167, "token_acc": 0.8678414096916299, "grad_norm": 2.412139415740967, "learning_rate": 4.0198592487273426e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022389, "epoch": 0.8784630940343782, "step": 1086}, {"loss": 0.35584717988967896, "token_acc": 0.8561643835616438, "grad_norm": 1.8268601894378662, "learning_rate": 3.9675056661785563e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02239, "epoch": 0.8792719919110212, "step": 1087}, {"loss": 0.37817463278770447, "token_acc": 0.8680851063829788, "grad_norm": 2.1522209644317627, "learning_rate": 3.915481153607525e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02239, "epoch": 0.8800808897876643, "step": 1088}, {"loss": 0.33031123876571655, "token_acc": 0.9203539823008849, "grad_norm": 1.805523157119751, "learning_rate": 3.863786082919019e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02239, "epoch": 0.8808897876643074, "step": 1089}, {"loss": 0.32658106088638306, "token_acc": 0.900990099009901, "grad_norm": 1.8276246786117554, "learning_rate": 3.8124208236627825e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022391, "epoch": 0.8816986855409504, "step": 1090}, {"loss": 0.3983362019062042, "token_acc": 0.9166666666666666, "grad_norm": 2.1186046600341797, "learning_rate": 3.761385743030821e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022391, "epoch": 0.8825075834175935, "step": 1091}, {"loss": 0.34843602776527405, "token_acc": 0.8144329896907216, "grad_norm": 2.2194223403930664, "learning_rate": 3.710681205854838e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022391, "epoch": 0.8833164812942366, "step": 1092}, {"loss": 0.3717504143714905, "token_acc": 0.9043824701195219, "grad_norm": 1.7586379051208496, "learning_rate": 3.6603075746035886e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022392, "epoch": 0.8841253791708796, "step": 1093}, {"loss": 0.33724552392959595, "token_acc": 0.8942857142857142, "grad_norm": 1.730454921722412, "learning_rate": 3.6102652093802983e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022392, "epoch": 0.8849342770475227, "step": 1094}, {"loss": 0.40413105487823486, "token_acc": 0.8922413793103449, "grad_norm": 1.7972487211227417, "learning_rate": 3.5605544679200966e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022393, "epoch": 0.8857431749241659, "step": 1095}, {"loss": 0.4261808693408966, "token_acc": 0.8990384615384616, "grad_norm": 2.4188039302825928, "learning_rate": 3.511175705587433e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022393, "epoch": 0.8865520728008089, "step": 1096}, {"loss": 0.3905704617500305, "token_acc": 0.9346153846153846, "grad_norm": 2.6165802478790283, "learning_rate": 3.462129275373577e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022394, "epoch": 0.887360970677452, "step": 1097}, {"loss": 0.42883560061454773, "token_acc": 0.8745247148288974, "grad_norm": 1.8218803405761719, "learning_rate": 3.4134155278940594e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022394, "epoch": 0.8881698685540951, "step": 1098}, {"loss": 0.36739590764045715, "token_acc": 0.8987341772151899, "grad_norm": 1.979760766029358, "learning_rate": 3.3650348113861864e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022394, "epoch": 0.8889787664307381, "step": 1099}, {"loss": 0.43099868297576904, "token_acc": 0.8531746031746031, "grad_norm": 2.169462203979492, "learning_rate": 3.3169874717065564e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022395, "epoch": 0.8897876643073812, "step": 1100}, {"loss": 0.3875833749771118, "token_acc": 0.9, "grad_norm": 3.057952642440796, "learning_rate": 3.269273852328547e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022395, "epoch": 0.8905965621840243, "step": 1101}, {"loss": 0.3375704884529114, "token_acc": 0.8617511520737328, "grad_norm": 1.8207221031188965, "learning_rate": 3.2218942943399114e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022396, "epoch": 0.8914054600606673, "step": 1102}, {"loss": 0.36066344380378723, "token_acc": 0.8494208494208494, "grad_norm": 2.1824142932891846, "learning_rate": 3.174849136440294e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022396, "epoch": 0.8922143579373104, "step": 1103}, {"loss": 0.39939042925834656, "token_acc": 0.8765432098765432, "grad_norm": 2.046804428100586, "learning_rate": 3.1281387149388556e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022396, "epoch": 0.8930232558139535, "step": 1104}, {"loss": 0.35777053236961365, "token_acc": 0.8803827751196173, "grad_norm": 2.1102182865142822, "learning_rate": 3.081763363751844e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022397, "epoch": 0.8938321536905965, "step": 1105}, {"loss": 0.32706207036972046, "token_acc": 0.8989169675090253, "grad_norm": 1.6538591384887695, "learning_rate": 3.0357234144001766e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022397, "epoch": 0.8946410515672396, "step": 1106}, {"loss": 0.3731483817100525, "token_acc": 0.8875, "grad_norm": 2.0191094875335693, "learning_rate": 2.9900191960071544e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022397, "epoch": 0.8954499494438827, "step": 1107}, {"loss": 0.3792566657066345, "token_acc": 0.8431372549019608, "grad_norm": 1.9920696020126343, "learning_rate": 2.9446510352959924e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022398, "epoch": 0.8962588473205257, "step": 1108}, {"loss": 0.4134003520011902, "token_acc": 0.8088888888888889, "grad_norm": 4.2869157791137695, "learning_rate": 2.899619256587605e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022398, "epoch": 0.8970677451971688, "step": 1109}, {"loss": 0.3089058995246887, "token_acc": 0.8550185873605948, "grad_norm": 1.730612874031067, "learning_rate": 2.854924181798202e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022398, "epoch": 0.897876643073812, "step": 1110}, {"loss": 0.33643391728401184, "token_acc": 0.8732876712328768, "grad_norm": 2.020568370819092, "learning_rate": 2.8105661304370256e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022399, "epoch": 0.898685540950455, "step": 1111}, {"loss": 0.39632314443588257, "token_acc": 0.8884297520661157, "grad_norm": 2.182412624359131, "learning_rate": 2.7665454196040665e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022399, "epoch": 0.8994944388270981, "step": 1112}, {"loss": 0.43140286207199097, "token_acc": 0.8701298701298701, "grad_norm": 2.2093279361724854, "learning_rate": 2.722862363987749e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022399, "epoch": 0.9003033367037412, "step": 1113}, {"loss": 0.40689289569854736, "token_acc": 0.880184331797235, "grad_norm": 4.873557090759277, "learning_rate": 2.6795172758627584e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0224, "epoch": 0.9011122345803843, "step": 1114}, {"loss": 0.3976328372955322, "token_acc": 0.8812260536398467, "grad_norm": 2.0055012702941895, "learning_rate": 2.6365104650877716e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.0224, "epoch": 0.9019211324570273, "step": 1115}, {"loss": 0.40250563621520996, "token_acc": 0.8953168044077136, "grad_norm": 1.9500057697296143, "learning_rate": 2.593842239103206e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022401, "epoch": 0.9027300303336704, "step": 1116}, {"loss": 0.35562485456466675, "token_acc": 0.8726591760299626, "grad_norm": 1.8744258880615234, "learning_rate": 2.5515129029290984e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022401, "epoch": 0.9035389282103135, "step": 1117}, {"loss": 0.32878684997558594, "token_acc": 0.8952879581151832, "grad_norm": 1.818701982498169, "learning_rate": 2.5095227591628467e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022401, "epoch": 0.9043478260869565, "step": 1118}, {"loss": 0.4192107617855072, "token_acc": 0.8461538461538461, "grad_norm": 2.0827207565307617, "learning_rate": 2.4678721079770984e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022402, "epoch": 0.9051567239635996, "step": 1119}, {"loss": 0.3454943895339966, "token_acc": 0.9144981412639405, "grad_norm": 2.060375690460205, "learning_rate": 2.4265612471176036e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022402, "epoch": 0.9059656218402427, "step": 1120}, {"loss": 0.31142184138298035, "token_acc": 0.8678571428571429, "grad_norm": 1.8084218502044678, "learning_rate": 2.385590471901045e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022402, "epoch": 0.9067745197168857, "step": 1121}, {"loss": 0.3716868460178375, "token_acc": 0.8819672131147541, "grad_norm": 2.012327194213867, "learning_rate": 2.3449600752129598e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022403, "epoch": 0.9075834175935288, "step": 1122}, {"loss": 0.3710024356842041, "token_acc": 0.8555555555555555, "grad_norm": 2.0449485778808594, "learning_rate": 2.3046703475056554e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022403, "epoch": 0.9083923154701719, "step": 1123}, {"loss": 0.3403990864753723, "token_acc": 0.925, "grad_norm": 2.0092179775238037, "learning_rate": 2.2647215767961083e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022403, "epoch": 0.9092012133468149, "step": 1124}, {"loss": 0.37321048974990845, "token_acc": 0.9308510638297872, "grad_norm": 2.1806256771087646, "learning_rate": 2.2251140486639068e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022404, "epoch": 0.910010111223458, "step": 1125}, {"loss": 0.37797796726226807, "token_acc": 0.8571428571428571, "grad_norm": 2.1333301067352295, "learning_rate": 2.1858480462492283e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022404, "epoch": 0.9108190091001012, "step": 1126}, {"loss": 0.3420672118663788, "token_acc": 0.889795918367347, "grad_norm": 2.240083694458008, "learning_rate": 2.1469238502507926e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022404, "epoch": 0.9116279069767442, "step": 1127}, {"loss": 0.3892640471458435, "token_acc": 0.8831168831168831, "grad_norm": 2.032658338546753, "learning_rate": 2.1083417389238858e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022405, "epoch": 0.9124368048533873, "step": 1128}, {"loss": 0.33542943000793457, "token_acc": 0.8740458015267175, "grad_norm": 2.2067453861236572, "learning_rate": 2.0701019880783324e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022405, "epoch": 0.9132457027300304, "step": 1129}, {"loss": 0.3520893454551697, "token_acc": 0.8688524590163934, "grad_norm": 2.052781343460083, "learning_rate": 2.0322048710765485e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022405, "epoch": 0.9140546006066734, "step": 1130}, {"loss": 0.3370997905731201, "token_acc": 0.8984771573604061, "grad_norm": 7.5011773109436035, "learning_rate": 1.9946506588315818e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022406, "epoch": 0.9148634984833165, "step": 1131}, {"loss": 0.3234095871448517, "token_acc": 0.8681818181818182, "grad_norm": 2.2244808673858643, "learning_rate": 1.957439619805196e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022406, "epoch": 0.9156723963599596, "step": 1132}, {"loss": 0.39126190543174744, "token_acc": 0.909433962264151, "grad_norm": 1.946089506149292, "learning_rate": 1.9205720200058843e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022406, "epoch": 0.9164812942366026, "step": 1133}, {"loss": 0.37995028495788574, "token_acc": 0.8557046979865772, "grad_norm": 11.597419738769531, "learning_rate": 1.8840481229870644e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022407, "epoch": 0.9172901921132457, "step": 1134}, {"loss": 0.3505871295928955, "token_acc": 0.9249146757679181, "grad_norm": 1.789217233657837, "learning_rate": 1.84786818984512e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022407, "epoch": 0.9180990899898888, "step": 1135}, {"loss": 0.3749197721481323, "token_acc": 0.886435331230284, "grad_norm": 1.919080138206482, "learning_rate": 1.8120324792175569e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022407, "epoch": 0.9189079878665318, "step": 1136}, {"loss": 0.3757126033306122, "token_acc": 0.8934010152284264, "grad_norm": 2.741631269454956, "learning_rate": 1.776541247281177e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022408, "epoch": 0.9197168857431749, "step": 1137}, {"loss": 0.3616572320461273, "token_acc": 0.9, "grad_norm": 1.856645107269287, "learning_rate": 1.7413947477501913e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022408, "epoch": 0.920525783619818, "step": 1138}, {"loss": 0.3780667185783386, "token_acc": 0.8723404255319149, "grad_norm": 2.687711477279663, "learning_rate": 1.7065932318744704e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022409, "epoch": 0.921334681496461, "step": 1139}, {"loss": 0.35959312319755554, "token_acc": 0.8790849673202614, "grad_norm": 1.6964043378829956, "learning_rate": 1.6721369484377082e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022409, "epoch": 0.9221435793731041, "step": 1140}, {"loss": 0.34360718727111816, "token_acc": 0.9063829787234042, "grad_norm": 2.040339469909668, "learning_rate": 1.6380261437556666e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022409, "epoch": 0.9229524772497473, "step": 1141}, {"loss": 0.36330220103263855, "token_acc": 0.8585858585858586, "grad_norm": 1.9790493249893188, "learning_rate": 1.6042610616743782e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02241, "epoch": 0.9237613751263903, "step": 1142}, {"loss": 0.3349642753601074, "token_acc": 0.8650519031141869, "grad_norm": 1.878999948501587, "learning_rate": 1.5708419435684463e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02241, "epoch": 0.9245702730030334, "step": 1143}, {"loss": 0.3546566963195801, "token_acc": 0.8781725888324873, "grad_norm": 1.9973299503326416, "learning_rate": 1.5377690283392977e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02241, "epoch": 0.9253791708796765, "step": 1144}, {"loss": 0.34872984886169434, "token_acc": 0.8742138364779874, "grad_norm": 1.9398893117904663, "learning_rate": 1.505042552413466e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022411, "epoch": 0.9261880687563195, "step": 1145}, {"loss": 0.3644063472747803, "token_acc": 0.8945147679324894, "grad_norm": 1.9519524574279785, "learning_rate": 1.4726627497409274e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022411, "epoch": 0.9269969666329626, "step": 1146}, {"loss": 0.42128363251686096, "token_acc": 0.8775510204081632, "grad_norm": 2.4077093601226807, "learning_rate": 1.440629851793407e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022411, "epoch": 0.9278058645096057, "step": 1147}, {"loss": 0.3700520396232605, "token_acc": 0.8464566929133859, "grad_norm": 2.0536437034606934, "learning_rate": 1.408944087562736e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022412, "epoch": 0.9286147623862487, "step": 1148}, {"loss": 0.3489128351211548, "token_acc": 0.8795811518324608, "grad_norm": 2.154677391052246, "learning_rate": 1.3776056835592132e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022412, "epoch": 0.9294236602628918, "step": 1149}, {"loss": 0.36078181862831116, "token_acc": 0.8864468864468864, "grad_norm": 1.8740899562835693, "learning_rate": 1.346614863809953e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022412, "epoch": 0.9302325581395349, "step": 1150}, {"loss": 0.3723437190055847, "token_acc": 0.8691275167785235, "grad_norm": 2.146127700805664, "learning_rate": 1.315971849857356e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022413, "epoch": 0.9310414560161779, "step": 1151}, {"loss": 0.3393116891384125, "token_acc": 0.9015544041450777, "grad_norm": 1.787015438079834, "learning_rate": 1.2856768607574565e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022413, "epoch": 0.931850353892821, "step": 1152}, {"loss": 0.34008848667144775, "token_acc": 0.8700787401574803, "grad_norm": 2.211394786834717, "learning_rate": 1.255730113078385e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022413, "epoch": 0.9326592517694641, "step": 1153}, {"loss": 0.31053483486175537, "token_acc": 0.8535825545171339, "grad_norm": 1.7942789793014526, "learning_rate": 1.2261318208988294e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022414, "epoch": 0.9334681496461071, "step": 1154}, {"loss": 0.4369804859161377, "token_acc": 0.8713692946058091, "grad_norm": 2.598997116088867, "learning_rate": 1.1968821958064702e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022414, "epoch": 0.9342770475227502, "step": 1155}, {"loss": 0.3438988924026489, "token_acc": 0.8736059479553904, "grad_norm": 1.7106472253799438, "learning_rate": 1.1679814468965211e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022414, "epoch": 0.9350859453993934, "step": 1156}, {"loss": 0.3768293261528015, "token_acc": 0.9270833333333334, "grad_norm": 1.8687455654144287, "learning_rate": 1.1394297807701737e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022415, "epoch": 0.9358948432760364, "step": 1157}, {"loss": 0.3412172496318817, "token_acc": 0.875, "grad_norm": 1.5831663608551025, "learning_rate": 1.111227401533166e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022415, "epoch": 0.9367037411526795, "step": 1158}, {"loss": 0.4136160910129547, "token_acc": 0.9094488188976378, "grad_norm": 1.8993335962295532, "learning_rate": 1.083374510794305e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022415, "epoch": 0.9375126390293226, "step": 1159}, {"loss": 0.3755384087562561, "token_acc": 0.9172932330827067, "grad_norm": 3.2496023178100586, "learning_rate": 1.0558713076640415e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022416, "epoch": 0.9383215369059656, "step": 1160}, {"loss": 0.3936523199081421, "token_acc": 0.8974358974358975, "grad_norm": 2.1333253383636475, "learning_rate": 1.028717988753014e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022416, "epoch": 0.9391304347826087, "step": 1161}, {"loss": 0.40892741084098816, "token_acc": 0.9217391304347826, "grad_norm": 2.6341114044189453, "learning_rate": 1.0019147481706626e-07, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022417, "epoch": 0.9399393326592518, "step": 1162}, {"loss": 0.36974000930786133, "token_acc": 0.8614457831325302, "grad_norm": 1.8160382509231567, "learning_rate": 9.754617775238562e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022417, "epoch": 0.9407482305358948, "step": 1163}, {"loss": 0.3862905502319336, "token_acc": 0.8700787401574803, "grad_norm": 2.1739790439605713, "learning_rate": 9.493592659155004e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022417, "epoch": 0.9415571284125379, "step": 1164}, {"loss": 0.4268924593925476, "token_acc": 0.8847736625514403, "grad_norm": 2.973860502243042, "learning_rate": 9.236073999431939e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.942366026289181, "step": 1165}, {"loss": 0.3827816843986511, "token_acc": 0.8765432098765432, "grad_norm": 2.2699947357177734, "learning_rate": 8.98206363697901e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.943174924165824, "step": 1166}, {"loss": 0.3976903259754181, "token_acc": 0.8338658146964856, "grad_norm": 2.014028549194336, "learning_rate": 8.731563387626096e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.9439838220424671, "step": 1167}, {"loss": 0.3837153911590576, "token_acc": 0.8766666666666667, "grad_norm": 2.3635129928588867, "learning_rate": 8.484575042110699e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022418, "epoch": 0.9447927199191102, "step": 1168}, {"loss": 0.37266969680786133, "token_acc": 0.8828828828828829, "grad_norm": 2.5257232189178467, "learning_rate": 8.241100366064902e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022419, "epoch": 0.9456016177957532, "step": 1169}, {"loss": 0.32720375061035156, "token_acc": 0.8850174216027874, "grad_norm": 2.1283090114593506, "learning_rate": 8.001141100002885e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022419, "epoch": 0.9464105156723963, "step": 1170}, {"loss": 0.38027650117874146, "token_acc": 0.8956521739130435, "grad_norm": 2.261035919189453, "learning_rate": 7.764698959308315e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022419, "epoch": 0.9472194135490394, "step": 1171}, {"loss": 0.37682783603668213, "token_acc": 0.8680851063829788, "grad_norm": 1.921704888343811, "learning_rate": 7.531775634222138e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02242, "epoch": 0.9480283114256826, "step": 1172}, {"loss": 0.3404289484024048, "token_acc": 0.8355555555555556, "grad_norm": 2.031587600708008, "learning_rate": 7.302372789830702e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02242, "epoch": 0.9488372093023256, "step": 1173}, {"loss": 0.3675205111503601, "token_acc": 0.8758389261744967, "grad_norm": 1.8540045022964478, "learning_rate": 7.076492066053486e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02242, "epoch": 0.9496461071789687, "step": 1174}, {"loss": 0.3710861802101135, "token_acc": 0.8367875647668394, "grad_norm": 2.207390546798706, "learning_rate": 6.854135077631774e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022421, "epoch": 0.9504550050556118, "step": 1175}, {"loss": 0.375140517950058, "token_acc": 0.8616600790513834, "grad_norm": 2.1160874366760254, "learning_rate": 6.635303414116834e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022421, "epoch": 0.9512639029322548, "step": 1176}, {"loss": 0.33210816979408264, "token_acc": 0.9314079422382672, "grad_norm": 1.8097771406173706, "learning_rate": 6.419998639858538e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022421, "epoch": 0.9520728008088979, "step": 1177}, {"loss": 0.3717727065086365, "token_acc": 0.8639455782312925, "grad_norm": 1.6278916597366333, "learning_rate": 6.208222293994425e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022422, "epoch": 0.952881698685541, "step": 1178}, {"loss": 0.35759437084198, "token_acc": 0.9078498293515358, "grad_norm": 2.6115875244140625, "learning_rate": 5.999975890438436e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022422, "epoch": 0.953690596562184, "step": 1179}, {"loss": 0.37362658977508545, "token_acc": 0.8454545454545455, "grad_norm": 2.0658047199249268, "learning_rate": 5.79526091787036e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022422, "epoch": 0.9544994944388271, "step": 1180}, {"loss": 0.37239736318588257, "token_acc": 0.855072463768116, "grad_norm": 2.23612117767334, "learning_rate": 5.594078839724793e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022423, "epoch": 0.9553083923154702, "step": 1181}, {"loss": 0.3480920195579529, "token_acc": 0.8709677419354839, "grad_norm": 1.8740304708480835, "learning_rate": 5.396431094181198e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022423, "epoch": 0.9561172901921132, "step": 1182}, {"loss": 0.3483563959598541, "token_acc": 0.8866666666666667, "grad_norm": 2.2320539951324463, "learning_rate": 5.202319094153252e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022423, "epoch": 0.9569261880687563, "step": 1183}, {"loss": 0.33139705657958984, "token_acc": 0.9110169491525424, "grad_norm": 1.7620937824249268, "learning_rate": 5.011744227278625e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.9577350859453994, "step": 1184}, {"loss": 0.3572564125061035, "token_acc": 0.8842592592592593, "grad_norm": 1.869081974029541, "learning_rate": 4.824707855909605e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.9585439838220424, "step": 1185}, {"loss": 0.39302319288253784, "token_acc": 0.9107142857142857, "grad_norm": 2.5178749561309814, "learning_rate": 4.6412113171028226e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022424, "epoch": 0.9593528816986855, "step": 1186}, {"loss": 0.3867931365966797, "token_acc": 0.8819444444444444, "grad_norm": 2.3168158531188965, "learning_rate": 4.461255922609986e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022425, "epoch": 0.9601617795753287, "step": 1187}, {"loss": 0.3992939591407776, "token_acc": 0.8392857142857143, "grad_norm": 2.4859671592712402, "learning_rate": 4.2848429588683295e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022425, "epoch": 0.9609706774519717, "step": 1188}, {"loss": 0.49971675872802734, "token_acc": 0.8101694915254237, "grad_norm": 3.0036697387695312, "learning_rate": 4.111973686991677e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022425, "epoch": 0.9617795753286148, "step": 1189}, {"loss": 0.38460367918014526, "token_acc": 0.8319327731092437, "grad_norm": 2.2183077335357666, "learning_rate": 3.9426493427611177e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022426, "epoch": 0.9625884732052579, "step": 1190}, {"loss": 0.4845053553581238, "token_acc": 0.8, "grad_norm": 2.1675848960876465, "learning_rate": 3.776871136616289e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022426, "epoch": 0.9633973710819009, "step": 1191}, {"loss": 0.40070268511772156, "token_acc": 0.8436363636363636, "grad_norm": 1.8861103057861328, "learning_rate": 3.6146402536468285e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022426, "epoch": 0.964206268958544, "step": 1192}, {"loss": 0.3965553343296051, "token_acc": 0.8791208791208791, "grad_norm": 2.5333354473114014, "learning_rate": 3.455957853583769e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.9650151668351871, "step": 1193}, {"loss": 0.35347798466682434, "token_acc": 0.8908296943231441, "grad_norm": 2.1063308715820312, "learning_rate": 3.3008250707913246e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.9658240647118301, "step": 1194}, {"loss": 0.3923337757587433, "token_acc": 0.8774834437086093, "grad_norm": 2.082961320877075, "learning_rate": 3.14924301425884e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022427, "epoch": 0.9666329625884732, "step": 1195}, {"loss": 0.35899072885513306, "token_acc": 0.8819444444444444, "grad_norm": 1.8798726797103882, "learning_rate": 3.0012127675925206e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.9674418604651163, "step": 1196}, {"loss": 0.3928597569465637, "token_acc": 0.8653846153846154, "grad_norm": 13.926689147949219, "learning_rate": 2.8567353890082696e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.9682507583417593, "step": 1197}, {"loss": 0.344777375459671, "token_acc": 0.9090909090909091, "grad_norm": 1.9069607257843018, "learning_rate": 2.7158119113234738e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.9690596562184024, "step": 1198}, {"loss": 0.35486793518066406, "token_acc": 0.8652849740932642, "grad_norm": 2.385317087173462, "learning_rate": 2.5784433419501763e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022428, "epoch": 0.9698685540950455, "step": 1199}, {"loss": 0.3595341444015503, "token_acc": 0.8879310344827587, "grad_norm": 2.183742046356201, "learning_rate": 2.4446306628875814e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.9706774519716885, "step": 1200}, {"loss": 0.39095747470855713, "token_acc": 0.8861788617886179, "grad_norm": 2.103287935256958, "learning_rate": 2.3143748307150605e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.9714863498483316, "step": 1201}, {"loss": 0.3016042113304138, "token_acc": 0.8571428571428571, "grad_norm": 2.1582367420196533, "learning_rate": 2.1876767765853237e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022429, "epoch": 0.9722952477249748, "step": 1202}, {"loss": 0.36447232961654663, "token_acc": 0.8480392156862745, "grad_norm": 2.0449063777923584, "learning_rate": 2.0645374062179257e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.9731041456016178, "step": 1203}, {"loss": 0.43112486600875854, "token_acc": 0.8607594936708861, "grad_norm": 3.5183372497558594, "learning_rate": 1.9449575998924387e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.9739130434782609, "step": 1204}, {"loss": 0.38468360900878906, "token_acc": 0.8654545454545455, "grad_norm": 2.14886736869812, "learning_rate": 1.8289382124426214e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02243, "epoch": 0.974721941354904, "step": 1205}, {"loss": 0.3501737713813782, "token_acc": 0.8855421686746988, "grad_norm": 2.688023090362549, "learning_rate": 1.7164800732498156e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.975530839231547, "step": 1206}, {"loss": 0.31531471014022827, "token_acc": 0.865979381443299, "grad_norm": 2.0248029232025146, "learning_rate": 1.6075839862374487e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.9763397371081901, "step": 1207}, {"loss": 0.3675447106361389, "token_acc": 0.8636363636363636, "grad_norm": 3.5692150592803955, "learning_rate": 1.5022507298649848e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.9771486349848332, "step": 1208}, {"loss": 0.38956940174102783, "token_acc": 0.8914473684210527, "grad_norm": 1.9649704694747925, "learning_rate": 1.400481057122538e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022431, "epoch": 0.9779575328614762, "step": 1209}, {"loss": 0.3772105574607849, "token_acc": 0.8963963963963963, "grad_norm": 2.3865509033203125, "learning_rate": 1.3022756955254901e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.9787664307381193, "step": 1210}, {"loss": 0.39102572202682495, "token_acc": 0.8317757009345794, "grad_norm": 9.275412559509277, "learning_rate": 1.207635347108993e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.9795753286147624, "step": 1211}, {"loss": 0.37432482838630676, "token_acc": 0.875, "grad_norm": 2.0313827991485596, "learning_rate": 1.1165606884234182e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022432, "epoch": 0.9803842264914054, "step": 1212}, {"loss": 0.3433490991592407, "token_acc": 0.8885714285714286, "grad_norm": 1.960199236869812, "learning_rate": 1.0290523705291932e-08, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.9811931243680485, "step": 1213}, {"loss": 0.3818192183971405, "token_acc": 0.8989547038327527, "grad_norm": 1.8676866292953491, "learning_rate": 9.451110189923063e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.9820020222446916, "step": 1214}, {"loss": 0.4184320569038391, "token_acc": 0.8434782608695652, "grad_norm": 2.4343481063842773, "learning_rate": 8.647372338795867e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.9828109201213346, "step": 1215}, {"loss": 0.40056365728378296, "token_acc": 0.8210526315789474, "grad_norm": 2.3009696006774902, "learning_rate": 7.8793158975482e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022433, "epoch": 0.9836198179979777, "step": 1216}, {"loss": 0.37496888637542725, "token_acc": 0.9244444444444444, "grad_norm": 4.763977527618408, "learning_rate": 7.146946356743068e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.9844287158746208, "step": 1217}, {"loss": 0.3727502226829529, "token_acc": 0.819327731092437, "grad_norm": 2.2471978664398193, "learning_rate": 6.450268951830319e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.985237613751264, "step": 1218}, {"loss": 0.32791298627853394, "token_acc": 0.8659420289855072, "grad_norm": 1.7557698488235474, "learning_rate": 5.789288663110015e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.986046511627907, "step": 1219}, {"loss": 0.37463176250457764, "token_acc": 0.8560885608856088, "grad_norm": 2.5717544555664062, "learning_rate": 5.164010215695792e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022434, "epoch": 0.9868554095045501, "step": 1220}, {"loss": 0.32435593008995056, "token_acc": 0.8685446009389671, "grad_norm": 3.5073463916778564, "learning_rate": 4.574438079480992e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.9876643073811932, "step": 1221}, {"loss": 0.38409414887428284, "token_acc": 0.8888888888888888, "grad_norm": 1.9765585660934448, "learning_rate": 4.020576469108139e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.9884732052578362, "step": 1222}, {"loss": 0.3716433644294739, "token_acc": 0.8876811594202898, "grad_norm": 1.8832907676696777, "learning_rate": 3.502429343937297e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022435, "epoch": 0.9892821031344793, "step": 1223}, {"loss": 0.3268841505050659, "token_acc": 0.9003831417624522, "grad_norm": 1.9831905364990234, "learning_rate": 3.020000408018864e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.9900910010111224, "step": 1224}, {"loss": 0.33263713121414185, "token_acc": 0.8669527896995708, "grad_norm": 2.281235456466675, "learning_rate": 2.573293110065822e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.9908998988877654, "step": 1225}, {"loss": 0.39835768938064575, "token_acc": 0.8962655601659751, "grad_norm": 2.3608005046844482, "learning_rate": 2.162310643430976e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022436, "epoch": 0.9917087967644085, "step": 1226}, {"loss": 0.4261908531188965, "token_acc": 0.8935574229691877, "grad_norm": 2.6654913425445557, "learning_rate": 1.7870559460814173e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.9925176946410516, "step": 1227}, {"loss": 0.3241886496543884, "token_acc": 0.9383886255924171, "grad_norm": 1.8069103956222534, "learning_rate": 1.447531700580207e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.9933265925176946, "step": 1228}, {"loss": 0.4070656895637512, "token_acc": 0.8465753424657534, "grad_norm": 2.0414981842041016, "learning_rate": 1.1437403340652797e-09, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022437, "epoch": 0.9941354903943377, "step": 1229}, {"loss": 0.3987523317337036, "token_acc": 0.8187134502923976, "grad_norm": 2.6518869400024414, "learning_rate": 8.756840182344573e-10, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.9949443882709808, "step": 1230}, {"loss": 0.32140272855758667, "token_acc": 0.9049773755656109, "grad_norm": 1.9646754264831543, "learning_rate": 6.433646693265738e-10, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.9957532861476238, "step": 1231}, {"loss": 0.38582661747932434, "token_acc": 0.8961937716262975, "grad_norm": 2.0284359455108643, "learning_rate": 4.4678394810981904e-10, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022438, "epoch": 0.9965621840242669, "step": 1232}, {"loss": 0.3542518615722656, "token_acc": 0.9240506329113924, "grad_norm": 1.9221043586730957, "learning_rate": 2.8594325987119086e-10, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.9973710819009101, "step": 1233}, {"loss": 0.44038695096969604, "token_acc": 0.8537735849056604, "grad_norm": 2.5311009883880615, "learning_rate": 1.6084375440317268e-10, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.9981799797775531, "step": 1234}, {"loss": 0.3628859221935272, "token_acc": 0.8671328671328671, "grad_norm": 2.092437505722046, "learning_rate": 7.148632599707217e-11, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022439, "epoch": 0.9989888776541962, "step": 1235}, {"loss": 0.4479348063468933, "token_acc": 0.8859934853420195, "grad_norm": 2.2749087810516357, "learning_rate": 1.787161343858035e-11, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.02244, "epoch": 0.9997977755308393, "step": 1236}, {"loss": 0.41172629594802856, "token_acc": 0.8541666666666666, "grad_norm": 4.017106056213379, "learning_rate": 0.0, "memory(GiB)": 74.62, "train_speed(iter/s)": 0.022445, "epoch": 1.0, "step": 1237}, {"eval_loss": 0.3615947365760803, "eval_token_acc": 0.8760036017108126, "eval_runtime": 428.6167, "eval_samples_per_second": 3.728, "eval_steps_per_second": 0.117, "epoch": 1.0, "step": 1237}, {"train_runtime": 55558.7271, "train_samples_per_second": 2.848, "train_steps_per_second": 0.022, "total_flos": 3.135344722858895e+19, "train_loss": 0.4470101938723747, "epoch": 1.0, "step": 1237}], "memory": 74.62109375}