diff --git "a/logging.jsonl" "b/logging.jsonl"
--- "a/logging.jsonl"
+++ "b/logging.jsonl"
@@ -1,775 +1,201 @@
-{"loss": 1.20739579, "grad_norm": 30.91956398, "learning_rate": 3e-08, "token_acc": 0.72841132, "epoch": 0.00129786, "global_step/max_steps": "1/771", "percentage": "0.13%", "elapsed_time": "9s", "remaining_time": "2h 4m 1s", "memory(GiB)": 24.15, "train_speed(iter/s)": 0.103468}
-{"loss": 1.05416203, "grad_norm": 29.45538778, "learning_rate": 5e-08, "token_acc": 0.75535715, "epoch": 0.00259572, "global_step/max_steps": "2/771", "percentage": "0.26%", "elapsed_time": "16s", "remaining_time": "1h 43m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.123347}
-{"loss": 1.17344856, "grad_norm": 30.42989615, "learning_rate": 8e-08, "token_acc": 0.73796123, "epoch": 0.00389358, "global_step/max_steps": "3/771", "percentage": "0.39%", "elapsed_time": "21s", "remaining_time": "1h 31m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.140578}
-{"loss": 1.14551175, "grad_norm": 32.06780099, "learning_rate": 1e-07, "token_acc": 0.74499089, "epoch": 0.00519143, "global_step/max_steps": "4/771", "percentage": "0.52%", "elapsed_time": "28s", "remaining_time": "1h 30m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.142018}
-{"loss": 1.18818891, "grad_norm": 32.05685503, "learning_rate": 1.3e-07, "token_acc": 0.75331563, "epoch": 0.00648929, "global_step/max_steps": "5/771", "percentage": "0.65%", "elapsed_time": "33s", "remaining_time": "1h 26m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.147821}
-{"loss": 1.18378997, "grad_norm": 29.30064783, "learning_rate": 1.5e-07, "token_acc": 0.75221241, "epoch": 0.00778715, "global_step/max_steps": "6/771", "percentage": "0.78%", "elapsed_time": "39s", "remaining_time": "1h 23m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.152218}
-{"loss": 1.2068553, "grad_norm": 33.45963686, "learning_rate": 1.8e-07, "token_acc": 0.73544306, "epoch": 0.00908501, "global_step/max_steps": "7/771", "percentage": "0.91%", "elapsed_time": "46s", "remaining_time": "1h 25m 16s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.149315}
-{"loss": 1.21345186, "grad_norm": 31.77599139, "learning_rate": 2.1e-07, "token_acc": 0.72866064, "epoch": 0.01038287, "global_step/max_steps": "8/771", "percentage": "1.04%", "elapsed_time": "51s", "remaining_time": "1h 21m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.155844}
-{"loss": 1.2406919, "grad_norm": 31.17261794, "learning_rate": 2.3e-07, "token_acc": 0.73426151, "epoch": 0.01168073, "global_step/max_steps": "9/771", "percentage": "1.17%", "elapsed_time": "57s", "remaining_time": "1h 21m 1s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156758}
-{"loss": 1.21045554, "grad_norm": 29.87657739, "learning_rate": 2.6e-07, "token_acc": 0.74506283, "epoch": 0.01297859, "global_step/max_steps": "10/771", "percentage": "1.30%", "elapsed_time": "1m 2s", "remaining_time": "1h 19m 6s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160312}
-{"loss": 1.08886826, "grad_norm": 28.52313429, "learning_rate": 2.8e-07, "token_acc": 0.76523995, "epoch": 0.01427644, "global_step/max_steps": "11/771", "percentage": "1.43%", "elapsed_time": "1m 7s", "remaining_time": "1h 18m 6s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.162161}
-{"loss": 1.10375357, "grad_norm": 26.51994511, "learning_rate": 3.1e-07, "token_acc": 0.75142854, "epoch": 0.0155743, "global_step/max_steps": "12/771", "percentage": "1.56%", "elapsed_time": "1m 13s", "remaining_time": "1h 17m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.162879}
-{"loss": 1.25340796, "grad_norm": 29.65570191, "learning_rate": 3.3e-07, "token_acc": 0.71119845, "epoch": 0.01687216, "global_step/max_steps": "13/771", "percentage": "1.69%", "elapsed_time": "1m 19s", "remaining_time": "1h 17m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.163337}
-{"loss": 1.06692576, "grad_norm": 28.3684436, "learning_rate": 3.6e-07, "token_acc": 0.73946857, "epoch": 0.01817002, "global_step/max_steps": "14/771", "percentage": "1.82%", "elapsed_time": "1m 27s", "remaining_time": "1h 18m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160367}
-{"loss": 1.21452641, "grad_norm": 26.95997144, "learning_rate": 3.8e-07, "token_acc": 0.72469133, "epoch": 0.01946788, "global_step/max_steps": "15/771", "percentage": "1.95%", "elapsed_time": "1m 33s", "remaining_time": "1h 18m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159664}
-{"loss": 0.96078831, "grad_norm": 24.75562399, "learning_rate": 4.1e-07, "token_acc": 0.77076221, "epoch": 0.02076574, "global_step/max_steps": "16/771", "percentage": "2.08%", "elapsed_time": "1m 39s", "remaining_time": "1h 18m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160115}
-{"loss": 0.99676144, "grad_norm": 25.00880229, "learning_rate": 4.4e-07, "token_acc": 0.73859769, "epoch": 0.0220636, "global_step/max_steps": "17/771", "percentage": "2.20%", "elapsed_time": "1m 45s", "remaining_time": "1h 18m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160495}
-{"loss": 1.11377454, "grad_norm": 24.01677908, "learning_rate": 4.6e-07, "token_acc": 0.736929, "epoch": 0.02336145, "global_step/max_steps": "18/771", "percentage": "2.33%", "elapsed_time": "1m 53s", "remaining_time": "1h 18m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159183}
-{"loss": 1.02271056, "grad_norm": 23.51495048, "learning_rate": 4.9e-07, "token_acc": 0.75494879, "epoch": 0.02465931, "global_step/max_steps": "19/771", "percentage": "2.46%", "elapsed_time": "1m 58s", "remaining_time": "1h 18m 12s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160254}
-{"loss": 0.8696515, "grad_norm": 17.3805576, "learning_rate": 5.1e-07, "token_acc": 0.77091986, "epoch": 0.02595717, "global_step/max_steps": "20/771", "percentage": "2.59%", "elapsed_time": "2m 4s", "remaining_time": "1h 17m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160486}
-{"loss": 0.94092178, "grad_norm": 17.72878391, "learning_rate": 5.4e-07, "token_acc": 0.75378788, "epoch": 0.02725503, "global_step/max_steps": "21/771", "percentage": "2.72%", "elapsed_time": "2m 12s", "remaining_time": "1h 19m 9s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157927}
-{"loss": 0.85062581, "grad_norm": 15.60168933, "learning_rate": 5.6e-07, "token_acc": 0.76413041, "epoch": 0.02855289, "global_step/max_steps": "22/771", "percentage": "2.85%", "elapsed_time": "2m 19s", "remaining_time": "1h 19m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157895}
-{"loss": 0.81441498, "grad_norm": 17.07744318, "learning_rate": 5.9e-07, "token_acc": 0.78457445, "epoch": 0.02985075, "global_step/max_steps": "23/771", "percentage": "2.98%", "elapsed_time": "2m 26s", "remaining_time": "1h 19m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15663}
-{"loss": 0.84718877, "grad_norm": 14.49072755, "learning_rate": 6.2e-07, "token_acc": 0.77364862, "epoch": 0.0311486, "global_step/max_steps": "24/771", "percentage": "3.11%", "elapsed_time": "2m 31s", "remaining_time": "1h 18m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158073}
-{"loss": 0.77464211, "grad_norm": 15.13406461, "learning_rate": 6.4e-07, "token_acc": 0.79098594, "epoch": 0.03244646, "global_step/max_steps": "25/771", "percentage": "3.24%", "elapsed_time": "2m 37s", "remaining_time": "1h 18m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158557}
-{"loss": 0.70513809, "grad_norm": 11.39301291, "learning_rate": 6.7e-07, "token_acc": 0.79545456, "epoch": 0.03374432, "global_step/max_steps": "26/771", "percentage": "3.37%", "elapsed_time": "2m 42s", "remaining_time": "1h 17m 42s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159777}
-{"loss": 0.74765885, "grad_norm": 13.5070108, "learning_rate": 6.9e-07, "token_acc": 0.77622843, "epoch": 0.03504218, "global_step/max_steps": "27/771", "percentage": "3.50%", "elapsed_time": "2m 47s", "remaining_time": "1h 16m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.161309}
-{"loss": 0.87669677, "grad_norm": 12.40618692, "learning_rate": 7.2e-07, "token_acc": 0.74970132, "epoch": 0.03634004, "global_step/max_steps": "28/771", "percentage": "3.63%", "elapsed_time": "2m 55s", "remaining_time": "1h 17m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159964}
-{"loss": 0.7878865, "grad_norm": 11.56922759, "learning_rate": 7.4e-07, "token_acc": 0.76795214, "epoch": 0.0376379, "global_step/max_steps": "29/771", "percentage": "3.76%", "elapsed_time": "3m 1s", "remaining_time": "1h 17m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159453}
-{"loss": 0.73784053, "grad_norm": 9.95198371, "learning_rate": 7.7e-07, "token_acc": 0.77423555, "epoch": 0.03893576, "global_step/max_steps": "30/771", "percentage": "3.89%", "elapsed_time": "3m 6s", "remaining_time": "1h 16m 47s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160818}
-{"loss": 0.77920902, "grad_norm": 11.94234815, "learning_rate": 7.9e-07, "token_acc": 0.78028351, "epoch": 0.04023361, "global_step/max_steps": "31/771", "percentage": "4.02%", "elapsed_time": "3m 11s", "remaining_time": "1h 16m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.161887}
-{"loss": 0.72712755, "grad_norm": 10.38043359, "learning_rate": 8.2e-07, "token_acc": 0.78762215, "epoch": 0.04153147, "global_step/max_steps": "32/771", "percentage": "4.15%", "elapsed_time": "3m 18s", "remaining_time": "1h 16m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160863}
-{"loss": 0.72992706, "grad_norm": 10.12560655, "learning_rate": 8.5e-07, "token_acc": 0.79920214, "epoch": 0.04282933, "global_step/max_steps": "33/771", "percentage": "4.28%", "elapsed_time": "3m 25s", "remaining_time": "1h 16m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160855}
-{"loss": 0.73146343, "grad_norm": 11.06030307, "learning_rate": 8.7e-07, "token_acc": 0.78950953, "epoch": 0.04412719, "global_step/max_steps": "34/771", "percentage": "4.41%", "elapsed_time": "3m 32s", "remaining_time": "1h 16m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.16036}
-{"loss": 0.67552578, "grad_norm": 9.03565795, "learning_rate": 9e-07, "token_acc": 0.80000001, "epoch": 0.04542505, "global_step/max_steps": "35/771", "percentage": "4.54%", "elapsed_time": "3m 37s", "remaining_time": "1h 16m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.161104}
-{"loss": 0.75381297, "grad_norm": 10.41744479, "learning_rate": 9.2e-07, "token_acc": 0.76684636, "epoch": 0.04672291, "global_step/max_steps": "36/771", "percentage": "4.67%", "elapsed_time": "3m 43s", "remaining_time": "1h 16m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160818}
-{"loss": 0.57981354, "grad_norm": 8.72844922, "learning_rate": 9.5e-07, "token_acc": 0.83067846, "epoch": 0.04802077, "global_step/max_steps": "37/771", "percentage": "4.80%", "elapsed_time": "3m 51s", "remaining_time": "1h 16m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159725}
-{"loss": 0.71698016, "grad_norm": 10.20590457, "learning_rate": 9.7e-07, "token_acc": 0.78977638, "epoch": 0.04931862, "global_step/max_steps": "38/771", "percentage": "4.93%", "elapsed_time": "3m 57s", "remaining_time": "1h 16m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159903}
-{"loss": 0.72680914, "grad_norm": 9.92271571, "learning_rate": 1e-06, "token_acc": 0.7863248, "epoch": 0.05061648, "global_step/max_steps": "39/771", "percentage": "5.06%", "elapsed_time": "4m 4s", "remaining_time": "1h 16m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159236}
-{"loss": 0.71671182, "grad_norm": 9.50620206, "learning_rate": 1e-06, "token_acc": 0.78724605, "epoch": 0.05191434, "global_step/max_steps": "40/771", "percentage": "5.19%", "elapsed_time": "4m 11s", "remaining_time": "1h 16m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15925}
-{"loss": 0.62275076, "grad_norm": 9.72938026, "learning_rate": 1e-06, "token_acc": 0.8148396, "epoch": 0.0532122, "global_step/max_steps": "41/771", "percentage": "5.32%", "elapsed_time": "4m 18s", "remaining_time": "1h 16m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158793}
-{"loss": 0.67724407, "grad_norm": 8.73122496, "learning_rate": 1e-06, "token_acc": 0.79378533, "epoch": 0.05451006, "global_step/max_steps": "42/771", "percentage": "5.45%", "elapsed_time": "4m 24s", "remaining_time": "1h 16m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158613}
-{"loss": 0.63843071, "grad_norm": 8.14765762, "learning_rate": 1e-06, "token_acc": 0.80314958, "epoch": 0.05580792, "global_step/max_steps": "43/771", "percentage": "5.58%", "elapsed_time": "4m 30s", "remaining_time": "1h 16m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159174}
-{"loss": 0.67573863, "grad_norm": 8.56967604, "learning_rate": 1e-06, "token_acc": 0.80149347, "epoch": 0.05710578, "global_step/max_steps": "44/771", "percentage": "5.71%", "elapsed_time": "4m 35s", "remaining_time": "1h 15m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159686}
-{"loss": 0.61659527, "grad_norm": 8.54347957, "learning_rate": 1e-06, "token_acc": 0.81286174, "epoch": 0.05840363, "global_step/max_steps": "45/771", "percentage": "5.84%", "elapsed_time": "4m 40s", "remaining_time": "1h 15m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.160496}
-{"loss": 0.62179887, "grad_norm": 8.34716199, "learning_rate": 1e-06, "token_acc": 0.81216776, "epoch": 0.05970149, "global_step/max_steps": "46/771", "percentage": "5.97%", "elapsed_time": "4m 45s", "remaining_time": "1h 14m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.161142}
-{"loss": 0.62494063, "grad_norm": 8.08300453, "learning_rate": 1e-06, "token_acc": 0.81954396, "epoch": 0.06099935, "global_step/max_steps": "47/771", "percentage": "6.10%", "elapsed_time": "4m 55s", "remaining_time": "1h 15m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159157}
-{"loss": 0.64679706, "grad_norm": 7.71629623, "learning_rate": 1e-06, "token_acc": 0.8066417, "epoch": 0.06229721, "global_step/max_steps": "48/771", "percentage": "6.23%", "elapsed_time": "5m 1s", "remaining_time": "1h 15m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.159059}
-{"loss": 0.63723731, "grad_norm": 7.69291649, "learning_rate": 1e-06, "token_acc": 0.79988295, "epoch": 0.06359507, "global_step/max_steps": "49/771", "percentage": "6.36%", "elapsed_time": "5m 9s", "remaining_time": "1h 16m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158322}
-{"loss": 0.61166131, "grad_norm": 7.11690492, "learning_rate": 1e-06, "token_acc": 0.81994134, "epoch": 0.06489293, "global_step/max_steps": "50/771", "percentage": "6.49%", "elapsed_time": "5m 17s", "remaining_time": "1h 16m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157574}
-{"loss": 0.54298812, "grad_norm": 7.05218027, "learning_rate": 1e-06, "token_acc": 0.83324224, "epoch": 0.06619079, "global_step/max_steps": "51/771", "percentage": "6.61%", "elapsed_time": "5m 23s", "remaining_time": "1h 16m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157652}
-{"loss": 0.61317998, "grad_norm": 7.7046662, "learning_rate": 1e-06, "token_acc": 0.82502896, "epoch": 0.06748864, "global_step/max_steps": "52/771", "percentage": "6.74%", "elapsed_time": "5m 31s", "remaining_time": "1h 16m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156946}
-{"loss": 0.64362752, "grad_norm": 8.1604541, "learning_rate": 1e-06, "token_acc": 0.80381632, "epoch": 0.0687865, "global_step/max_steps": "53/771", "percentage": "6.87%", "elapsed_time": "5m 36s", "remaining_time": "1h 16m 1s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157409}
-{"loss": 0.57701302, "grad_norm": 7.31235971, "learning_rate": 1e-06, "token_acc": 0.82155269, "epoch": 0.07008436, "global_step/max_steps": "54/771", "percentage": "7.00%", "elapsed_time": "5m 43s", "remaining_time": "1h 16m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156986}
-{"loss": 0.57766932, "grad_norm": 9.40270476, "learning_rate": 1e-06, "token_acc": 0.82894737, "epoch": 0.07138222, "global_step/max_steps": "55/771", "percentage": "7.13%", "elapsed_time": "5m 50s", "remaining_time": "1h 15m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157107}
-{"loss": 0.51611531, "grad_norm": 7.68432422, "learning_rate": 1e-06, "token_acc": 0.84422112, "epoch": 0.07268008, "global_step/max_steps": "56/771", "percentage": "7.26%", "elapsed_time": "5m 55s", "remaining_time": "1h 15m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157455}
-{"loss": 0.64269227, "grad_norm": 8.08542212, "learning_rate": 1e-06, "token_acc": 0.80079228, "epoch": 0.07397794, "global_step/max_steps": "57/771", "percentage": "7.39%", "elapsed_time": "6m 2s", "remaining_time": "1h 15m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157258}
-{"loss": 0.47266275, "grad_norm": 7.19568235, "learning_rate": 1e-06, "token_acc": 0.84990734, "epoch": 0.07527579, "global_step/max_steps": "58/771", "percentage": "7.52%", "elapsed_time": "6m 6s", "remaining_time": "1h 15m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158056}
-{"loss": 0.52936423, "grad_norm": 7.10226186, "learning_rate": 1e-06, "token_acc": 0.83486801, "epoch": 0.07657365, "global_step/max_steps": "59/771", "percentage": "7.65%", "elapsed_time": "6m 11s", "remaining_time": "1h 14m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158734}
-{"loss": 0.6170727, "grad_norm": 8.30002853, "learning_rate": 1e-06, "token_acc": 0.82048041, "epoch": 0.07787151, "global_step/max_steps": "60/771", "percentage": "7.78%", "elapsed_time": "6m 18s", "remaining_time": "1h 14m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15833}
-{"loss": 0.57974899, "grad_norm": 8.3219327, "learning_rate": 1e-06, "token_acc": 0.81823599, "epoch": 0.07916937, "global_step/max_steps": "61/771", "percentage": "7.91%", "elapsed_time": "6m 25s", "remaining_time": "1h 14m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158414}
-{"loss": 0.4533366, "grad_norm": 7.28625611, "learning_rate": 1e-06, "token_acc": 0.85714287, "epoch": 0.08046723, "global_step/max_steps": "62/771", "percentage": "8.04%", "elapsed_time": "6m 31s", "remaining_time": "1h 14m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15823}
-{"loss": 0.58444929, "grad_norm": 7.29112867, "learning_rate": 1e-06, "token_acc": 0.82129514, "epoch": 0.08176509, "global_step/max_steps": "63/771", "percentage": "8.17%", "elapsed_time": "6m 37s", "remaining_time": "1h 14m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158341}
-{"loss": 0.55455917, "grad_norm": 7.27144598, "learning_rate": 1e-06, "token_acc": 0.83041304, "epoch": 0.08306295, "global_step/max_steps": "64/771", "percentage": "8.30%", "elapsed_time": "6m 44s", "remaining_time": "1h 14m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158392}
-{"loss": 0.52238458, "grad_norm": 7.03916184, "learning_rate": 1e-06, "token_acc": 0.83058983, "epoch": 0.0843608, "global_step/max_steps": "65/771", "percentage": "8.43%", "elapsed_time": "6m 51s", "remaining_time": "1h 14m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15794}
-{"loss": 0.54455817, "grad_norm": 8.34079708, "learning_rate": 1e-06, "token_acc": 0.83133292, "epoch": 0.08565866, "global_step/max_steps": "66/771", "percentage": "8.56%", "elapsed_time": "6m 57s", "remaining_time": "1h 14m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157941}
-{"loss": 0.55295664, "grad_norm": 8.56985056, "learning_rate": 1e-06, "token_acc": 0.82770503, "epoch": 0.08695652, "global_step/max_steps": "67/771", "percentage": "8.69%", "elapsed_time": "7m 2s", "remaining_time": "1h 13m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158589}
-{"loss": 0.5676229, "grad_norm": 6.99041581, "learning_rate": 1e-06, "token_acc": 0.82389939, "epoch": 0.08825438, "global_step/max_steps": "68/771", "percentage": "8.82%", "elapsed_time": "7m 10s", "remaining_time": "1h 14m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157952}
-{"loss": 0.55149281, "grad_norm": 7.14849482, "learning_rate": 1e-06, "token_acc": 0.82172245, "epoch": 0.08955224, "global_step/max_steps": "69/771", "percentage": "8.95%", "elapsed_time": "7m 18s", "remaining_time": "1h 14m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157396}
-{"loss": 0.4973368, "grad_norm": 6.71009373, "learning_rate": 1e-06, "token_acc": 0.84498483, "epoch": 0.0908501, "global_step/max_steps": "70/771", "percentage": "9.08%", "elapsed_time": "7m 25s", "remaining_time": "1h 14m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157227}
-{"loss": 0.45006907, "grad_norm": 6.66909579, "learning_rate": 1e-06, "token_acc": 0.85302764, "epoch": 0.09214796, "global_step/max_steps": "71/771", "percentage": "9.21%", "elapsed_time": "7m 30s", "remaining_time": "1h 13m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157754}
-{"loss": 0.5479635, "grad_norm": 6.93784037, "learning_rate": 9.9e-07, "token_acc": 0.82836318, "epoch": 0.09344581, "global_step/max_steps": "72/771", "percentage": "9.34%", "elapsed_time": "7m 34s", "remaining_time": "1h 13m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.158288}
-{"loss": 0.53429532, "grad_norm": 7.18743726, "learning_rate": 9.9e-07, "token_acc": 0.83409089, "epoch": 0.09474367, "global_step/max_steps": "73/771", "percentage": "9.47%", "elapsed_time": "7m 42s", "remaining_time": "1h 13m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157737}
-{"loss": 0.52117193, "grad_norm": 7.73062212, "learning_rate": 9.9e-07, "token_acc": 0.83297646, "epoch": 0.09604153, "global_step/max_steps": "74/771", "percentage": "9.60%", "elapsed_time": "7m 49s", "remaining_time": "1h 13m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15754}
-{"loss": 0.56588799, "grad_norm": 8.92246312, "learning_rate": 9.9e-07, "token_acc": 0.82036316, "epoch": 0.09733939, "global_step/max_steps": "75/771", "percentage": "9.73%", "elapsed_time": "7m 57s", "remaining_time": "1h 13m 47s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157216}
-{"loss": 0.49659204, "grad_norm": 6.75277057, "learning_rate": 9.9e-07, "token_acc": 0.83974361, "epoch": 0.09863725, "global_step/max_steps": "76/771", "percentage": "9.86%", "elapsed_time": "8m 3s", "remaining_time": "1h 13m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15732}
-{"loss": 0.51705629, "grad_norm": 7.78458315, "learning_rate": 9.9e-07, "token_acc": 0.82965302, "epoch": 0.09993511, "global_step/max_steps": "77/771", "percentage": "9.99%", "elapsed_time": "8m 12s", "remaining_time": "1h 13m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156501}
-{"loss": 0.56700641, "grad_norm": 7.31887496, "learning_rate": 9.9e-07, "token_acc": 0.82851636, "epoch": 0.10123297, "global_step/max_steps": "78/771", "percentage": "10.12%", "elapsed_time": "8m 18s", "remaining_time": "1h 13m 47s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156518}
-{"loss": 0.43067241, "grad_norm": 6.46660148, "learning_rate": 9.9e-07, "token_acc": 0.8617143, "epoch": 0.10253082, "global_step/max_steps": "79/771", "percentage": "10.25%", "elapsed_time": "8m 24s", "remaining_time": "1h 13m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156447}
-{"loss": 0.56602097, "grad_norm": 7.24448929, "learning_rate": 9.9e-07, "token_acc": 0.81691706, "epoch": 0.10382868, "global_step/max_steps": "80/771", "percentage": "10.38%", "elapsed_time": "8m 29s", "remaining_time": "1h 13m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156908}
-{"loss": 0.59677732, "grad_norm": 7.21654898, "learning_rate": 9.9e-07, "token_acc": 0.81967211, "epoch": 0.10512654, "global_step/max_steps": "81/771", "percentage": "10.51%", "elapsed_time": "8m 35s", "remaining_time": "1h 13m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157138}
-{"loss": 0.46779582, "grad_norm": 7.44058941, "learning_rate": 9.9e-07, "token_acc": 0.85740292, "epoch": 0.1064244, "global_step/max_steps": "82/771", "percentage": "10.64%", "elapsed_time": "8m 41s", "remaining_time": "1h 13m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.157169}
-{"loss": 0.55492163, "grad_norm": 7.52440162, "learning_rate": 9.9e-07, "token_acc": 0.82932419, "epoch": 0.10772226, "global_step/max_steps": "83/771", "percentage": "10.77%", "elapsed_time": "8m 49s", "remaining_time": "1h 13m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156771}
-{"loss": 0.54508388, "grad_norm": 8.03612591, "learning_rate": 9.9e-07, "token_acc": 0.82703084, "epoch": 0.10902012, "global_step/max_steps": "84/771", "percentage": "10.89%", "elapsed_time": "8m 55s", "remaining_time": "1h 13m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156739}
-{"loss": 0.48513043, "grad_norm": 7.76420264, "learning_rate": 9.9e-07, "token_acc": 0.84246969, "epoch": 0.11031798, "global_step/max_steps": "85/771", "percentage": "11.02%", "elapsed_time": "9m 1s", "remaining_time": "1h 12m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156898}
-{"loss": 0.47643176, "grad_norm": 7.04864496, "learning_rate": 9.9e-07, "token_acc": 0.85541403, "epoch": 0.11161583, "global_step/max_steps": "86/771", "percentage": "11.15%", "elapsed_time": "9m 8s", "remaining_time": "1h 12m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156884}
-{"loss": 0.45950729, "grad_norm": 6.24741231, "learning_rate": 9.9e-07, "token_acc": 0.84699452, "epoch": 0.11291369, "global_step/max_steps": "87/771", "percentage": "11.28%", "elapsed_time": "9m 14s", "remaining_time": "1h 12m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156941}
-{"loss": 0.60540217, "grad_norm": 6.97781333, "learning_rate": 9.9e-07, "token_acc": 0.82105261, "epoch": 0.11421155, "global_step/max_steps": "88/771", "percentage": "11.41%", "elapsed_time": "9m 22s", "remaining_time": "1h 12m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156468}
-{"loss": 0.48031315, "grad_norm": 7.12367592, "learning_rate": 9.9e-07, "token_acc": 0.84040403, "epoch": 0.11550941, "global_step/max_steps": "89/771", "percentage": "11.54%", "elapsed_time": "9m 29s", "remaining_time": "1h 12m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156363}
-{"loss": 0.53275168, "grad_norm": 6.91062516, "learning_rate": 9.9e-07, "token_acc": 0.8222841, "epoch": 0.11680727, "global_step/max_steps": "90/771", "percentage": "11.67%", "elapsed_time": "9m 35s", "remaining_time": "1h 12m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156329}
-{"loss": 0.5744555, "grad_norm": 8.04635131, "learning_rate": 9.9e-07, "token_acc": 0.81776315, "epoch": 0.11810513, "global_step/max_steps": "91/771", "percentage": "11.80%", "elapsed_time": "9m 41s", "remaining_time": "1h 12m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156365}
-{"loss": 0.45812941, "grad_norm": 6.16675871, "learning_rate": 9.9e-07, "token_acc": 0.85164833, "epoch": 0.11940299, "global_step/max_steps": "92/771", "percentage": "11.93%", "elapsed_time": "9m 49s", "remaining_time": "1h 12m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156138}
-{"loss": 0.45353568, "grad_norm": 5.93130604, "learning_rate": 9.9e-07, "token_acc": 0.84822524, "epoch": 0.12070084, "global_step/max_steps": "93/771", "percentage": "12.06%", "elapsed_time": "9m 55s", "remaining_time": "1h 12m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156283}
-{"loss": 0.49574512, "grad_norm": 7.28035054, "learning_rate": 9.9e-07, "token_acc": 0.83909494, "epoch": 0.1219987, "global_step/max_steps": "94/771", "percentage": "12.19%", "elapsed_time": "10m 1s", "remaining_time": "1h 12m 14s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156174}
-{"loss": 0.49424136, "grad_norm": 6.20537518, "learning_rate": 9.9e-07, "token_acc": 0.8394689, "epoch": 0.12329656, "global_step/max_steps": "95/771", "percentage": "12.32%", "elapsed_time": "10m 6s", "remaining_time": "1h 11m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156639}
-{"loss": 0.54170477, "grad_norm": 7.25285627, "learning_rate": 9.9e-07, "token_acc": 0.83273768, "epoch": 0.12459442, "global_step/max_steps": "96/771", "percentage": "12.45%", "elapsed_time": "10m 13s", "remaining_time": "1h 11m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156558}
-{"loss": 0.46660215, "grad_norm": 7.40468971, "learning_rate": 9.8e-07, "token_acc": 0.84900987, "epoch": 0.12589228, "global_step/max_steps": "97/771", "percentage": "12.58%", "elapsed_time": "10m 20s", "remaining_time": "1h 11m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156302}
-{"loss": 0.64030898, "grad_norm": 7.85481903, "learning_rate": 9.8e-07, "token_acc": 0.80670255, "epoch": 0.12719014, "global_step/max_steps": "98/771", "percentage": "12.71%", "elapsed_time": "10m 26s", "remaining_time": "1h 11m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156304}
-{"loss": 0.59783232, "grad_norm": 6.83286019, "learning_rate": 9.8e-07, "token_acc": 0.81589961, "epoch": 0.12848799, "global_step/max_steps": "99/771", "percentage": "12.84%", "elapsed_time": "10m 34s", "remaining_time": "1h 11m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.155969}
-{"loss": 0.4787721, "grad_norm": 6.56744046, "learning_rate": 9.8e-07, "token_acc": 0.85940355, "epoch": 0.12978585, "global_step/max_steps": "100/771", "percentage": "12.97%", "elapsed_time": "10m 40s", "remaining_time": "1h 11m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156117}
-{"loss": 0.47874564, "grad_norm": 7.34410589, "learning_rate": 9.8e-07, "token_acc": 0.8424983, "epoch": 0.13108371, "global_step/max_steps": "101/771", "percentage": "13.10%", "elapsed_time": "10m 47s", "remaining_time": "1h 11m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156063}
-{"loss": 0.46582872, "grad_norm": 6.17860536, "learning_rate": 9.8e-07, "token_acc": 0.84623539, "epoch": 0.13238157, "global_step/max_steps": "102/771", "percentage": "13.23%", "elapsed_time": "10m 53s", "remaining_time": "1h 11m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156057}
-{"loss": 0.49345881, "grad_norm": 6.47453782, "learning_rate": 9.8e-07, "token_acc": 0.84628671, "epoch": 0.13367943, "global_step/max_steps": "103/771", "percentage": "13.36%", "elapsed_time": "10m 57s", "remaining_time": "1h 11m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156536}
-{"loss": 0.5657717, "grad_norm": 6.42682113, "learning_rate": 9.8e-07, "token_acc": 0.82326186, "epoch": 0.13497729, "global_step/max_steps": "104/771", "percentage": "13.49%", "elapsed_time": "11m 5s", "remaining_time": "1h 11m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156374}
-{"loss": 0.45083731, "grad_norm": 6.67860282, "learning_rate": 9.8e-07, "token_acc": 0.85395539, "epoch": 0.13627515, "global_step/max_steps": "105/771", "percentage": "13.62%", "elapsed_time": "11m 9s", "remaining_time": "1h 10m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156752}
-{"loss": 0.50565159, "grad_norm": 6.56708988, "learning_rate": 9.8e-07, "token_acc": 0.83256084, "epoch": 0.137573, "global_step/max_steps": "106/771", "percentage": "13.75%", "elapsed_time": "11m 16s", "remaining_time": "1h 10m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156803}
-{"loss": 0.58500409, "grad_norm": 6.68773515, "learning_rate": 9.8e-07, "token_acc": 0.81226766, "epoch": 0.13887086, "global_step/max_steps": "107/771", "percentage": "13.88%", "elapsed_time": "11m 23s", "remaining_time": "1h 10m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15657}
-{"loss": 0.42626536, "grad_norm": 6.00576568, "learning_rate": 9.8e-07, "token_acc": 0.87108886, "epoch": 0.14016872, "global_step/max_steps": "108/771", "percentage": "14.01%", "elapsed_time": "11m 29s", "remaining_time": "1h 10m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156712}
-{"loss": 0.41637316, "grad_norm": 6.34563673, "learning_rate": 9.8e-07, "token_acc": 0.86619717, "epoch": 0.14146658, "global_step/max_steps": "109/771", "percentage": "14.14%", "elapsed_time": "11m 36s", "remaining_time": "1h 10m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156562}
-{"loss": 0.49610388, "grad_norm": 6.19023389, "learning_rate": 9.8e-07, "token_acc": 0.84010839, "epoch": 0.14276444, "global_step/max_steps": "110/771", "percentage": "14.27%", "elapsed_time": "11m 41s", "remaining_time": "1h 10m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156787}
-{"loss": 0.51072085, "grad_norm": 6.65611912, "learning_rate": 9.8e-07, "token_acc": 0.83941609, "epoch": 0.1440623, "global_step/max_steps": "111/771", "percentage": "14.40%", "elapsed_time": "11m 47s", "remaining_time": "1h 10m 9s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156804}
-{"loss": 0.58378267, "grad_norm": 8.09169826, "learning_rate": 9.8e-07, "token_acc": 0.8214286, "epoch": 0.14536016, "global_step/max_steps": "112/771", "percentage": "14.53%", "elapsed_time": "11m 56s", "remaining_time": "1h 10m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156241}
-{"loss": 0.47541216, "grad_norm": 6.42104454, "learning_rate": 9.7e-07, "token_acc": 0.84644192, "epoch": 0.14665801, "global_step/max_steps": "113/771", "percentage": "14.66%", "elapsed_time": "12m 1s", "remaining_time": "1h 10m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156583}
-{"loss": 0.53371954, "grad_norm": 6.84303262, "learning_rate": 9.7e-07, "token_acc": 0.82588392, "epoch": 0.14795587, "global_step/max_steps": "114/771", "percentage": "14.79%", "elapsed_time": "12m 8s", "remaining_time": "1h 9m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156439}
-{"loss": 0.58851111, "grad_norm": 6.2252971, "learning_rate": 9.7e-07, "token_acc": 0.81551468, "epoch": 0.14925373, "global_step/max_steps": "115/771", "percentage": "14.92%", "elapsed_time": "12m 14s", "remaining_time": "1h 9m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156499}
-{"loss": 0.4229719, "grad_norm": 5.82809051, "learning_rate": 9.7e-07, "token_acc": 0.86322582, "epoch": 0.15055159, "global_step/max_steps": "116/771", "percentage": "15.05%", "elapsed_time": "12m 21s", "remaining_time": "1h 9m 47s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156423}
-{"loss": 0.43214777, "grad_norm": 5.85630087, "learning_rate": 9.7e-07, "token_acc": 0.86212814, "epoch": 0.15184945, "global_step/max_steps": "117/771", "percentage": "15.18%", "elapsed_time": "12m 29s", "remaining_time": "1h 9m 49s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15609}
-{"loss": 0.46930426, "grad_norm": 6.32924271, "learning_rate": 9.7e-07, "token_acc": 0.85740972, "epoch": 0.15314731, "global_step/max_steps": "118/771", "percentage": "15.30%", "elapsed_time": "12m 36s", "remaining_time": "1h 9m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.156068}
-{"loss": 0.49348348, "grad_norm": 6.60682382, "learning_rate": 9.7e-07, "token_acc": 0.84918648, "epoch": 0.15444517, "global_step/max_steps": "119/771", "percentage": "15.43%", "elapsed_time": "12m 44s", "remaining_time": "1h 9m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.155655}
-{"loss": 0.49689186, "grad_norm": 6.30821509, "learning_rate": 9.7e-07, "token_acc": 0.83947533, "epoch": 0.15574302, "global_step/max_steps": "120/771", "percentage": "15.56%", "elapsed_time": "12m 49s", "remaining_time": "1h 9m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15588}
-{"loss": 0.46527568, "grad_norm": 5.99561566, "learning_rate": 9.7e-07, "token_acc": 0.85159421, "epoch": 0.15704088, "global_step/max_steps": "121/771", "percentage": "15.69%", "elapsed_time": "12m 55s", "remaining_time": "1h 9m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.155963}
-{"loss": 0.49576956, "grad_norm": 6.64886055, "learning_rate": 9.7e-07, "token_acc": 0.83354348, "epoch": 0.15833874, "global_step/max_steps": "122/771", "percentage": "15.82%", "elapsed_time": "13m 2s", "remaining_time": "1h 9m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.155873}
-{"loss": 0.47029603, "grad_norm": 6.79389467, "learning_rate": 9.7e-07, "token_acc": 0.84968245, "epoch": 0.1596366, "global_step/max_steps": "123/771", "percentage": "15.95%", "elapsed_time": "13m 9s", "remaining_time": "1h 9m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.155744}
-{"loss": 0.5581609, "grad_norm": 6.92148326, "learning_rate": 9.7e-07, "token_acc": 0.83090025, "epoch": 0.16093446, "global_step/max_steps": "124/771", "percentage": "16.08%", "elapsed_time": "13m 17s", "remaining_time": "1h 9m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15541}
-{"loss": 0.38048053, "grad_norm": 6.22534143, "learning_rate": 9.7e-07, "token_acc": 0.86993009, "epoch": 0.16223232, "global_step/max_steps": "125/771", "percentage": "16.21%", "elapsed_time": "13m 26s", "remaining_time": "1h 9m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.155}
-{"loss": 0.371654, "grad_norm": 5.70328671, "learning_rate": 9.7e-07, "token_acc": 0.87305874, "epoch": 0.16353018, "global_step/max_steps": "126/771", "percentage": "16.34%", "elapsed_time": "13m 32s", "remaining_time": "1h 9m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.155048}
-{"loss": 0.43919364, "grad_norm": 6.05249109, "learning_rate": 9.6e-07, "token_acc": 0.84875, "epoch": 0.16482803, "global_step/max_steps": "127/771", "percentage": "16.47%", "elapsed_time": "13m 40s", "remaining_time": "1h 9m 19s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154835}
-{"loss": 0.47148129, "grad_norm": 6.4010606, "learning_rate": 9.6e-07, "token_acc": 0.84158415, "epoch": 0.16612589, "global_step/max_steps": "128/771", "percentage": "16.60%", "elapsed_time": "13m 46s", "remaining_time": "1h 9m 12s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154859}
-{"loss": 0.54639184, "grad_norm": 6.82302716, "learning_rate": 9.6e-07, "token_acc": 0.82943141, "epoch": 0.16742375, "global_step/max_steps": "129/771", "percentage": "16.73%", "elapsed_time": "13m 53s", "remaining_time": "1h 9m 6s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154819}
-{"loss": 0.45923418, "grad_norm": 5.79976261, "learning_rate": 9.6e-07, "token_acc": 0.84820884, "epoch": 0.16872161, "global_step/max_steps": "130/771", "percentage": "16.86%", "elapsed_time": "13m 58s", "remaining_time": "1h 8m 56s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154948}
-{"loss": 0.5359205, "grad_norm": 6.52733719, "learning_rate": 9.6e-07, "token_acc": 0.83755404, "epoch": 0.17001947, "global_step/max_steps": "131/771", "percentage": "16.99%", "elapsed_time": "14m 6s", "remaining_time": "1h 8m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154783}
-{"loss": 0.50531995, "grad_norm": 6.77423472, "learning_rate": 9.6e-07, "token_acc": 0.84447223, "epoch": 0.17131733, "global_step/max_steps": "132/771", "percentage": "17.12%", "elapsed_time": "14m 13s", "remaining_time": "1h 8m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154695}
-{"loss": 0.52959013, "grad_norm": 5.62191991, "learning_rate": 9.6e-07, "token_acc": 0.83497053, "epoch": 0.17261518, "global_step/max_steps": "133/771", "percentage": "17.25%", "elapsed_time": "14m 21s", "remaining_time": "1h 8m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154449}
-{"loss": 0.48809028, "grad_norm": 6.85254103, "learning_rate": 9.6e-07, "token_acc": 0.84296978, "epoch": 0.17391304, "global_step/max_steps": "134/771", "percentage": "17.38%", "elapsed_time": "14m 27s", "remaining_time": "1h 8m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154434}
-{"loss": 0.40907082, "grad_norm": 7.56478529, "learning_rate": 9.6e-07, "token_acc": 0.86826348, "epoch": 0.1752109, "global_step/max_steps": "135/771", "percentage": "17.51%", "elapsed_time": "14m 35s", "remaining_time": "1h 8m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15419}
-{"loss": 0.48744148, "grad_norm": 6.17798808, "learning_rate": 9.6e-07, "token_acc": 0.84649968, "epoch": 0.17650876, "global_step/max_steps": "136/771", "percentage": "17.64%", "elapsed_time": "14m 41s", "remaining_time": "1h 8m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154208}
-{"loss": 0.53821415, "grad_norm": 6.25192756, "learning_rate": 9.6e-07, "token_acc": 0.82306832, "epoch": 0.17780662, "global_step/max_steps": "137/771", "percentage": "17.77%", "elapsed_time": "14m 47s", "remaining_time": "1h 8m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154323}
-{"loss": 0.48433849, "grad_norm": 5.38374871, "learning_rate": 9.6e-07, "token_acc": 0.84540594, "epoch": 0.17910448, "global_step/max_steps": "138/771", "percentage": "17.90%", "elapsed_time": "14m 53s", "remaining_time": "1h 8m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154384}
-{"loss": 0.54209858, "grad_norm": 7.4806099, "learning_rate": 9.5e-07, "token_acc": 0.83099449, "epoch": 0.18040234, "global_step/max_steps": "139/771", "percentage": "18.03%", "elapsed_time": "15m 2s", "remaining_time": "1h 8m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154073}
-{"loss": 0.54124987, "grad_norm": 6.90766116, "learning_rate": 9.5e-07, "token_acc": 0.82208204, "epoch": 0.18170019, "global_step/max_steps": "140/771", "percentage": "18.16%", "elapsed_time": "15m 9s", "remaining_time": "1h 8m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153882}
-{"loss": 0.48082381, "grad_norm": 6.79293145, "learning_rate": 9.5e-07, "token_acc": 0.85140306, "epoch": 0.18299805, "global_step/max_steps": "141/771", "percentage": "18.29%", "elapsed_time": "15m 16s", "remaining_time": "1h 8m 14s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15388}
-{"loss": 0.52454722, "grad_norm": 6.96644259, "learning_rate": 9.5e-07, "token_acc": 0.84478807, "epoch": 0.18429591, "global_step/max_steps": "142/771", "percentage": "18.42%", "elapsed_time": "15m 21s", "remaining_time": "1h 8m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154017}
-{"loss": 0.49625081, "grad_norm": 7.03504435, "learning_rate": 9.5e-07, "token_acc": 0.84961885, "epoch": 0.18559377, "global_step/max_steps": "143/771", "percentage": "18.55%", "elapsed_time": "15m 27s", "remaining_time": "1h 7m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154244}
-{"loss": 0.4981671, "grad_norm": 6.20881244, "learning_rate": 9.5e-07, "token_acc": 0.83913869, "epoch": 0.18689163, "global_step/max_steps": "144/771", "percentage": "18.68%", "elapsed_time": "15m 32s", "remaining_time": "1h 7m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154395}
-{"loss": 0.46635526, "grad_norm": 6.13879047, "learning_rate": 9.5e-07, "token_acc": 0.84615386, "epoch": 0.18818949, "global_step/max_steps": "145/771", "percentage": "18.81%", "elapsed_time": "15m 39s", "remaining_time": "1h 7m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154416}
-{"loss": 0.52260017, "grad_norm": 6.65273358, "learning_rate": 9.5e-07, "token_acc": 0.85009485, "epoch": 0.18948735, "global_step/max_steps": "146/771", "percentage": "18.94%", "elapsed_time": "15m 46s", "remaining_time": "1h 7m 32s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154237}
-{"loss": 0.51860768, "grad_norm": 6.47899424, "learning_rate": 9.5e-07, "token_acc": 0.83333331, "epoch": 0.1907852, "global_step/max_steps": "147/771", "percentage": "19.07%", "elapsed_time": "15m 52s", "remaining_time": "1h 7m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154306}
-{"loss": 0.45830703, "grad_norm": 6.70076333, "learning_rate": 9.5e-07, "token_acc": 0.86082113, "epoch": 0.19208306, "global_step/max_steps": "148/771", "percentage": "19.20%", "elapsed_time": "15m 59s", "remaining_time": "1h 7m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154195}
-{"loss": 0.45990199, "grad_norm": 5.83063003, "learning_rate": 9.5e-07, "token_acc": 0.84559309, "epoch": 0.19338092, "global_step/max_steps": "149/771", "percentage": "19.33%", "elapsed_time": "16m 7s", "remaining_time": "1h 7m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15405}
-{"loss": 0.4581784, "grad_norm": 6.29717941, "learning_rate": 9.4e-07, "token_acc": 0.85037404, "epoch": 0.19467878, "global_step/max_steps": "150/771", "percentage": "19.46%", "elapsed_time": "16m 12s", "remaining_time": "1h 7m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154192}
-{"loss": 0.44019645, "grad_norm": 6.8282897, "learning_rate": 9.4e-07, "token_acc": 0.84764892, "epoch": 0.19597664, "global_step/max_steps": "151/771", "percentage": "19.58%", "elapsed_time": "16m 19s", "remaining_time": "1h 7m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154192}
-{"loss": 0.43015933, "grad_norm": 6.22289912, "learning_rate": 9.4e-07, "token_acc": 0.85464334, "epoch": 0.1972745, "global_step/max_steps": "152/771", "percentage": "19.71%", "elapsed_time": "16m 25s", "remaining_time": "1h 6m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154249}
-{"loss": 0.4858036, "grad_norm": 5.86865663, "learning_rate": 9.4e-07, "token_acc": 0.84494776, "epoch": 0.19857236, "global_step/max_steps": "153/771", "percentage": "19.84%", "elapsed_time": "16m 30s", "remaining_time": "1h 6m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154477}
-{"loss": 0.3972522, "grad_norm": 6.88024336, "learning_rate": 9.4e-07, "token_acc": 0.87220216, "epoch": 0.19987021, "global_step/max_steps": "154/771", "percentage": "19.97%", "elapsed_time": "16m 38s", "remaining_time": "1h 6m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154273}
-{"loss": 0.51024407, "grad_norm": 6.4178182, "learning_rate": 9.4e-07, "token_acc": 0.84332925, "epoch": 0.20116807, "global_step/max_steps": "155/771", "percentage": "20.10%", "elapsed_time": "16m 45s", "remaining_time": "1h 6m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154078}
-{"loss": 0.41164052, "grad_norm": 5.97638076, "learning_rate": 9.4e-07, "token_acc": 0.8612408, "epoch": 0.20246593, "global_step/max_steps": "156/771", "percentage": "20.23%", "elapsed_time": "16m 53s", "remaining_time": "1h 6m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153902}
-{"loss": 0.49119049, "grad_norm": 6.05428272, "learning_rate": 9.4e-07, "token_acc": 0.83810037, "epoch": 0.20376379, "global_step/max_steps": "157/771", "percentage": "20.36%", "elapsed_time": "16m 58s", "remaining_time": "1h 6m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154107}
-{"loss": 0.47303027, "grad_norm": 6.09236645, "learning_rate": 9.4e-07, "token_acc": 0.84656364, "epoch": 0.20506165, "global_step/max_steps": "158/771", "percentage": "20.49%", "elapsed_time": "17m 5s", "remaining_time": "1h 6m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154099}
-{"loss": 0.42276946, "grad_norm": 5.80915456, "learning_rate": 9.4e-07, "token_acc": 0.85626155, "epoch": 0.20635951, "global_step/max_steps": "159/771", "percentage": "20.62%", "elapsed_time": "17m 10s", "remaining_time": "1h 6m 4s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154355}
-{"loss": 0.49550623, "grad_norm": 6.85978004, "learning_rate": 9.3e-07, "token_acc": 0.83988959, "epoch": 0.20765737, "global_step/max_steps": "160/771", "percentage": "20.75%", "elapsed_time": "17m 15s", "remaining_time": "1h 5m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154474}
-{"loss": 0.41580346, "grad_norm": 6.49472624, "learning_rate": 9.3e-07, "token_acc": 0.85501069, "epoch": 0.20895522, "global_step/max_steps": "161/771", "percentage": "20.88%", "elapsed_time": "17m 20s", "remaining_time": "1h 5m 42s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154742}
-{"loss": 0.47671476, "grad_norm": 5.49592294, "learning_rate": 9.3e-07, "token_acc": 0.84523809, "epoch": 0.21025308, "global_step/max_steps": "162/771", "percentage": "21.01%", "elapsed_time": "17m 28s", "remaining_time": "1h 5m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154517}
-{"loss": 0.4968729, "grad_norm": 5.64373605, "learning_rate": 9.3e-07, "token_acc": 0.83995873, "epoch": 0.21155094, "global_step/max_steps": "163/771", "percentage": "21.14%", "elapsed_time": "17m 36s", "remaining_time": "1h 5m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154346}
-{"loss": 0.47081828, "grad_norm": 6.52799044, "learning_rate": 9.3e-07, "token_acc": 0.8447246, "epoch": 0.2128488, "global_step/max_steps": "164/771", "percentage": "21.27%", "elapsed_time": "17m 43s", "remaining_time": "1h 5m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154137}
-{"loss": 0.52746761, "grad_norm": 6.13627008, "learning_rate": 9.3e-07, "token_acc": 0.83578032, "epoch": 0.21414666, "global_step/max_steps": "165/771", "percentage": "21.40%", "elapsed_time": "17m 50s", "remaining_time": "1h 5m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154141}
-{"loss": 0.4192349, "grad_norm": 5.57484162, "learning_rate": 9.3e-07, "token_acc": 0.86658198, "epoch": 0.21544452, "global_step/max_steps": "166/771", "percentage": "21.53%", "elapsed_time": "17m 58s", "remaining_time": "1h 5m 29s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153946}
-{"loss": 0.51935476, "grad_norm": 6.17042169, "learning_rate": 9.3e-07, "token_acc": 0.82492214, "epoch": 0.21674238, "global_step/max_steps": "167/771", "percentage": "21.66%", "elapsed_time": "18m 5s", "remaining_time": "1h 5m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153782}
-{"loss": 0.40892226, "grad_norm": 5.80481503, "learning_rate": 9.3e-07, "token_acc": 0.86602294, "epoch": 0.21804023, "global_step/max_steps": "168/771", "percentage": "21.79%", "elapsed_time": "18m 10s", "remaining_time": "1h 5m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154001}
-{"loss": 0.49444878, "grad_norm": 6.81208854, "learning_rate": 9.2e-07, "token_acc": 0.84584296, "epoch": 0.21933809, "global_step/max_steps": "169/771", "percentage": "21.92%", "elapsed_time": "18m 16s", "remaining_time": "1h 5m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154149}
-{"loss": 0.48441789, "grad_norm": 5.87139426, "learning_rate": 9.2e-07, "token_acc": 0.83963966, "epoch": 0.22063595, "global_step/max_steps": "170/771", "percentage": "22.05%", "elapsed_time": "18m 21s", "remaining_time": "1h 4m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154351}
-{"loss": 0.4037981, "grad_norm": 5.7562516, "learning_rate": 9.2e-07, "token_acc": 0.86571783, "epoch": 0.22193381, "global_step/max_steps": "171/771", "percentage": "22.18%", "elapsed_time": "18m 28s", "remaining_time": "1h 4m 49s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154248}
-{"loss": 0.42632857, "grad_norm": 5.92029233, "learning_rate": 9.2e-07, "token_acc": 0.86297375, "epoch": 0.22323167, "global_step/max_steps": "172/771", "percentage": "22.31%", "elapsed_time": "18m 33s", "remaining_time": "1h 4m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15445}
-{"loss": 0.42647663, "grad_norm": 5.59144213, "learning_rate": 9.2e-07, "token_acc": 0.85302764, "epoch": 0.22452953, "global_step/max_steps": "173/771", "percentage": "22.44%", "elapsed_time": "18m 44s", "remaining_time": "1h 4m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153897}
-{"loss": 0.45956409, "grad_norm": 7.10734656, "learning_rate": 9.2e-07, "token_acc": 0.85411143, "epoch": 0.22582738, "global_step/max_steps": "174/771", "percentage": "22.57%", "elapsed_time": "18m 50s", "remaining_time": "1h 4m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153881}
-{"loss": 0.53756988, "grad_norm": 6.74852354, "learning_rate": 9.2e-07, "token_acc": 0.81904763, "epoch": 0.22712524, "global_step/max_steps": "175/771", "percentage": "22.70%", "elapsed_time": "19m 0s", "remaining_time": "1h 4m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153444}
-{"loss": 0.44293806, "grad_norm": 7.36337195, "learning_rate": 9.2e-07, "token_acc": 0.84862387, "epoch": 0.2284231, "global_step/max_steps": "176/771", "percentage": "22.83%", "elapsed_time": "19m 5s", "remaining_time": "1h 4m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153592}
-{"loss": 0.50973558, "grad_norm": 6.99992675, "learning_rate": 9.1e-07, "token_acc": 0.83995116, "epoch": 0.22972096, "global_step/max_steps": "177/771", "percentage": "22.96%", "elapsed_time": "19m 13s", "remaining_time": "1h 4m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153487}
-{"loss": 0.51871032, "grad_norm": 6.63040004, "learning_rate": 9.1e-07, "token_acc": 0.83229816, "epoch": 0.23101882, "global_step/max_steps": "178/771", "percentage": "23.09%", "elapsed_time": "19m 18s", "remaining_time": "1h 4m 19s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153641}
-{"loss": 0.54550457, "grad_norm": 6.33821194, "learning_rate": 9.1e-07, "token_acc": 0.8407225, "epoch": 0.23231668, "global_step/max_steps": "179/771", "percentage": "23.22%", "elapsed_time": "19m 26s", "remaining_time": "1h 4m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153439}
-{"loss": 0.45491976, "grad_norm": 5.62345022, "learning_rate": 9.1e-07, "token_acc": 0.85252643, "epoch": 0.23361454, "global_step/max_steps": "180/771", "percentage": "23.35%", "elapsed_time": "19m 31s", "remaining_time": "1h 4m 6s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153641}
-{"loss": 0.41996294, "grad_norm": 5.78320267, "learning_rate": 9.1e-07, "token_acc": 0.85913855, "epoch": 0.23491239, "global_step/max_steps": "181/771", "percentage": "23.48%", "elapsed_time": "19m 37s", "remaining_time": "1h 3m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153707}
-{"loss": 0.54166746, "grad_norm": 7.50104151, "learning_rate": 9.1e-07, "token_acc": 0.83383685, "epoch": 0.23621025, "global_step/max_steps": "182/771", "percentage": "23.61%", "elapsed_time": "19m 44s", "remaining_time": "1h 3m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153702}
-{"loss": 0.55416167, "grad_norm": 6.16789726, "learning_rate": 9.1e-07, "token_acc": 0.81353986, "epoch": 0.23750811, "global_step/max_steps": "183/771", "percentage": "23.74%", "elapsed_time": "19m 50s", "remaining_time": "1h 3m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153772}
-{"loss": 0.38144815, "grad_norm": 5.78639133, "learning_rate": 9.1e-07, "token_acc": 0.8733564, "epoch": 0.23880597, "global_step/max_steps": "184/771", "percentage": "23.87%", "elapsed_time": "19m 57s", "remaining_time": "1h 3m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153663}
-{"loss": 0.46618485, "grad_norm": 6.11032506, "learning_rate": 9.1e-07, "token_acc": 0.86563748, "epoch": 0.24010383, "global_step/max_steps": "185/771", "percentage": "23.99%", "elapsed_time": "20m 3s", "remaining_time": "1h 3m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153667}
-{"loss": 0.5814622, "grad_norm": 6.34308095, "learning_rate": 9e-07, "token_acc": 0.81902176, "epoch": 0.24140169, "global_step/max_steps": "186/771", "percentage": "24.12%", "elapsed_time": "20m 9s", "remaining_time": "1h 3m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153823}
-{"loss": 0.53516531, "grad_norm": 5.84399426, "learning_rate": 9e-07, "token_acc": 0.83478737, "epoch": 0.24269955, "global_step/max_steps": "187/771", "percentage": "24.25%", "elapsed_time": "20m 14s", "remaining_time": "1h 3m 14s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153917}
-{"loss": 0.44138208, "grad_norm": 6.15830371, "learning_rate": 9e-07, "token_acc": 0.86179399, "epoch": 0.2439974, "global_step/max_steps": "188/771", "percentage": "24.38%", "elapsed_time": "20m 20s", "remaining_time": "1h 3m 4s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154056}
-{"loss": 0.440714, "grad_norm": 5.28746756, "learning_rate": 9e-07, "token_acc": 0.85640496, "epoch": 0.24529526, "global_step/max_steps": "189/771", "percentage": "24.51%", "elapsed_time": "20m 28s", "remaining_time": "1h 3m 4s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153796}
-{"loss": 0.45155305, "grad_norm": 5.79803082, "learning_rate": 9e-07, "token_acc": 0.84822452, "epoch": 0.24659312, "global_step/max_steps": "190/771", "percentage": "24.64%", "elapsed_time": "20m 35s", "remaining_time": "1h 2m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153772}
-{"loss": 0.42980313, "grad_norm": 5.56318004, "learning_rate": 9e-07, "token_acc": 0.85920578, "epoch": 0.24789098, "global_step/max_steps": "191/771", "percentage": "24.77%", "elapsed_time": "20m 42s", "remaining_time": "1h 2m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153684}
-{"loss": 0.58281338, "grad_norm": 6.46903298, "learning_rate": 9e-07, "token_acc": 0.81474233, "epoch": 0.24918884, "global_step/max_steps": "192/771", "percentage": "24.90%", "elapsed_time": "20m 47s", "remaining_time": "1h 2m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153854}
-{"loss": 0.459553, "grad_norm": 5.54185311, "learning_rate": 8.9e-07, "token_acc": 0.84910041, "epoch": 0.2504867, "global_step/max_steps": "193/771", "percentage": "25.03%", "elapsed_time": "20m 54s", "remaining_time": "1h 2m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153801}
-{"loss": 0.50270134, "grad_norm": 6.16998237, "learning_rate": 8.9e-07, "token_acc": 0.83542633, "epoch": 0.25178456, "global_step/max_steps": "194/771", "percentage": "25.16%", "elapsed_time": "21m 2s", "remaining_time": "1h 2m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153705}
-{"loss": 0.47754586, "grad_norm": 6.94820446, "learning_rate": 8.9e-07, "token_acc": 0.85377359, "epoch": 0.25308241, "global_step/max_steps": "195/771", "percentage": "25.29%", "elapsed_time": "21m 8s", "remaining_time": "1h 2m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153709}
-{"loss": 0.45948333, "grad_norm": 5.92564364, "learning_rate": 8.9e-07, "token_acc": 0.8445251, "epoch": 0.25438027, "global_step/max_steps": "196/771", "percentage": "25.42%", "elapsed_time": "21m 14s", "remaining_time": "1h 2m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153741}
-{"loss": 0.53951168, "grad_norm": 6.3260436, "learning_rate": 8.9e-07, "token_acc": 0.81802118, "epoch": 0.25567813, "global_step/max_steps": "197/771", "percentage": "25.55%", "elapsed_time": "21m 22s", "remaining_time": "1h 2m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153579}
-{"loss": 0.44594529, "grad_norm": 6.09849611, "learning_rate": 8.9e-07, "token_acc": 0.85336858, "epoch": 0.25697599, "global_step/max_steps": "198/771", "percentage": "25.68%", "elapsed_time": "21m 30s", "remaining_time": "1h 2m 14s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153445}
-{"loss": 0.50184292, "grad_norm": 7.14813774, "learning_rate": 8.9e-07, "token_acc": 0.83075845, "epoch": 0.25827385, "global_step/max_steps": "199/771", "percentage": "25.81%", "elapsed_time": "21m 36s", "remaining_time": "1h 2m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153462}
-{"loss": 0.44768044, "grad_norm": 5.77597006, "learning_rate": 8.9e-07, "token_acc": 0.85658264, "epoch": 0.25957171, "global_step/max_steps": "200/771", "percentage": "25.94%", "elapsed_time": "21m 42s", "remaining_time": "1h 1m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153587}
-{"loss": 0.42097253, "grad_norm": 5.92059775, "learning_rate": 8.8e-07, "token_acc": 0.8534323, "epoch": 0.26086957, "global_step/max_steps": "201/771", "percentage": "26.07%", "elapsed_time": "21m 49s", "remaining_time": "1h 1m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153445}
-{"loss": 0.47484708, "grad_norm": 5.88332134, "learning_rate": 8.8e-07, "token_acc": 0.83845723, "epoch": 0.26216742, "global_step/max_steps": "202/771", "percentage": "26.20%", "elapsed_time": "21m 55s", "remaining_time": "1h 1m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153609}
-{"loss": 0.40700155, "grad_norm": 5.81564519, "learning_rate": 8.8e-07, "token_acc": 0.8646518, "epoch": 0.26346528, "global_step/max_steps": "203/771", "percentage": "26.33%", "elapsed_time": "22m 0s", "remaining_time": "1h 1m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153672}
-{"loss": 0.45461288, "grad_norm": 6.05832804, "learning_rate": 8.8e-07, "token_acc": 0.84925556, "epoch": 0.26476314, "global_step/max_steps": "204/771", "percentage": "26.46%", "elapsed_time": "22m 9s", "remaining_time": "1h 1m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153429}
-{"loss": 0.38938272, "grad_norm": 5.42362902, "learning_rate": 8.8e-07, "token_acc": 0.86892051, "epoch": 0.266061, "global_step/max_steps": "205/771", "percentage": "26.59%", "elapsed_time": "22m 14s", "remaining_time": "1h 1m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153643}
-{"loss": 0.377527, "grad_norm": 5.5339567, "learning_rate": 8.8e-07, "token_acc": 0.87470448, "epoch": 0.26735886, "global_step/max_steps": "206/771", "percentage": "26.72%", "elapsed_time": "22m 19s", "remaining_time": "1h 1m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153808}
-{"loss": 0.41268855, "grad_norm": 5.67877172, "learning_rate": 8.8e-07, "token_acc": 0.86522567, "epoch": 0.26865672, "global_step/max_steps": "207/771", "percentage": "26.85%", "elapsed_time": "22m 25s", "remaining_time": "1h 1m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153868}
-{"loss": 0.45527607, "grad_norm": 6.22748326, "learning_rate": 8.7e-07, "token_acc": 0.85658914, "epoch": 0.26995457, "global_step/max_steps": "208/771", "percentage": "26.98%", "elapsed_time": "22m 33s", "remaining_time": "1h 1m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15371}
-{"loss": 0.50093424, "grad_norm": 6.18970162, "learning_rate": 8.7e-07, "token_acc": 0.83492821, "epoch": 0.27125243, "global_step/max_steps": "209/771", "percentage": "27.11%", "elapsed_time": "22m 41s", "remaining_time": "1h 1m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153536}
-{"loss": 0.45117289, "grad_norm": 5.95547214, "learning_rate": 8.7e-07, "token_acc": 0.83975244, "epoch": 0.27255029, "global_step/max_steps": "210/771", "percentage": "27.24%", "elapsed_time": "22m 47s", "remaining_time": "1h 0m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153616}
-{"loss": 0.42658308, "grad_norm": 5.64214709, "learning_rate": 8.7e-07, "token_acc": 0.85223591, "epoch": 0.27384815, "global_step/max_steps": "211/771", "percentage": "27.37%", "elapsed_time": "22m 53s", "remaining_time": "1h 0m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153663}
-{"loss": 0.49757889, "grad_norm": 5.74514437, "learning_rate": 8.7e-07, "token_acc": 0.84520304, "epoch": 0.27514601, "global_step/max_steps": "212/771", "percentage": "27.50%", "elapsed_time": "22m 57s", "remaining_time": "1h 0m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153857}
-{"loss": 0.35868683, "grad_norm": 5.55649922, "learning_rate": 8.7e-07, "token_acc": 0.8718791, "epoch": 0.27644387, "global_step/max_steps": "213/771", "percentage": "27.63%", "elapsed_time": "23m 4s", "remaining_time": "1h 0m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153825}
-{"loss": 0.43941125, "grad_norm": 5.90578361, "learning_rate": 8.7e-07, "token_acc": 0.85310388, "epoch": 0.27774173, "global_step/max_steps": "214/771", "percentage": "27.76%", "elapsed_time": "23m 11s", "remaining_time": "1h 0m 22s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153745}
-{"loss": 0.42870599, "grad_norm": 5.1586366, "learning_rate": 8.6e-07, "token_acc": 0.8621701, "epoch": 0.27903958, "global_step/max_steps": "215/771", "percentage": "27.89%", "elapsed_time": "23m 19s", "remaining_time": "1h 0m 19s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15362}
-{"loss": 0.60025066, "grad_norm": 6.14568244, "learning_rate": 8.6e-07, "token_acc": 0.82861805, "epoch": 0.28033744, "global_step/max_steps": "216/771", "percentage": "28.02%", "elapsed_time": "23m 28s", "remaining_time": "1h 0m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153378}
-{"loss": 0.42615682, "grad_norm": 5.36081568, "learning_rate": 8.6e-07, "token_acc": 0.85806453, "epoch": 0.2816353, "global_step/max_steps": "217/771", "percentage": "28.15%", "elapsed_time": "23m 33s", "remaining_time": "1h 0m 9s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15348}
-{"loss": 0.45978633, "grad_norm": 6.17580524, "learning_rate": 8.6e-07, "token_acc": 0.83921814, "epoch": 0.28293316, "global_step/max_steps": "218/771", "percentage": "28.27%", "elapsed_time": "23m 41s", "remaining_time": "1h 0m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153392}
-{"loss": 0.38778767, "grad_norm": 5.52257, "learning_rate": 8.6e-07, "token_acc": 0.86398584, "epoch": 0.28423102, "global_step/max_steps": "219/771", "percentage": "28.40%", "elapsed_time": "23m 46s", "remaining_time": "59m 56s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153486}
-{"loss": 0.41483316, "grad_norm": 5.3839207, "learning_rate": 8.6e-07, "token_acc": 0.86891592, "epoch": 0.28552888, "global_step/max_steps": "220/771", "percentage": "28.53%", "elapsed_time": "23m 54s", "remaining_time": "59m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153322}
-{"loss": 0.3968749, "grad_norm": 5.11738306, "learning_rate": 8.6e-07, "token_acc": 0.86835033, "epoch": 0.28682674, "global_step/max_steps": "221/771", "percentage": "28.66%", "elapsed_time": "24m 0s", "remaining_time": "59m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153472}
-{"loss": 0.42419133, "grad_norm": 5.84515553, "learning_rate": 8.5e-07, "token_acc": 0.8511166, "epoch": 0.28812459, "global_step/max_steps": "222/771", "percentage": "28.79%", "elapsed_time": "24m 7s", "remaining_time": "59m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153398}
-{"loss": 0.48391059, "grad_norm": 6.32403942, "learning_rate": 8.5e-07, "token_acc": 0.84207314, "epoch": 0.28942245, "global_step/max_steps": "223/771", "percentage": "28.92%", "elapsed_time": "24m 13s", "remaining_time": "59m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153424}
-{"loss": 0.44598192, "grad_norm": 5.43719485, "learning_rate": 8.5e-07, "token_acc": 0.85817176, "epoch": 0.29072031, "global_step/max_steps": "224/771", "percentage": "29.05%", "elapsed_time": "24m 19s", "remaining_time": "59m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153505}
-{"loss": 0.44677097, "grad_norm": 5.97246358, "learning_rate": 8.5e-07, "token_acc": 0.85811228, "epoch": 0.29201817, "global_step/max_steps": "225/771", "percentage": "29.18%", "elapsed_time": "24m 26s", "remaining_time": "59m 19s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153375}
-{"loss": 0.50232518, "grad_norm": 6.57806472, "learning_rate": 8.5e-07, "token_acc": 0.84007353, "epoch": 0.29331603, "global_step/max_steps": "226/771", "percentage": "29.31%", "elapsed_time": "24m 33s", "remaining_time": "59m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153367}
-{"loss": 0.40205434, "grad_norm": 5.5868205, "learning_rate": 8.5e-07, "token_acc": 0.85979629, "epoch": 0.29461389, "global_step/max_steps": "227/771", "percentage": "29.44%", "elapsed_time": "24m 40s", "remaining_time": "59m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153313}
-{"loss": 0.3174367, "grad_norm": 5.44434608, "learning_rate": 8.4e-07, "token_acc": 0.88837516, "epoch": 0.29591175, "global_step/max_steps": "228/771", "percentage": "29.57%", "elapsed_time": "24m 46s", "remaining_time": "58m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153402}
-{"loss": 0.50938797, "grad_norm": 5.81882707, "learning_rate": 8.4e-07, "token_acc": 0.82931137, "epoch": 0.2972096, "global_step/max_steps": "229/771", "percentage": "29.70%", "elapsed_time": "24m 51s", "remaining_time": "58m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153495}
-{"loss": 0.52925289, "grad_norm": 5.5660045, "learning_rate": 8.4e-07, "token_acc": 0.83839482, "epoch": 0.29850746, "global_step/max_steps": "230/771", "percentage": "29.83%", "elapsed_time": "24m 59s", "remaining_time": "58m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153408}
-{"loss": 0.3792364, "grad_norm": 5.7904282, "learning_rate": 8.4e-07, "token_acc": 0.87823993, "epoch": 0.29980532, "global_step/max_steps": "231/771", "percentage": "29.96%", "elapsed_time": "25m 7s", "remaining_time": "58m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153269}
-{"loss": 0.45702016, "grad_norm": 5.71979346, "learning_rate": 8.4e-07, "token_acc": 0.85609311, "epoch": 0.30110318, "global_step/max_steps": "232/771", "percentage": "30.09%", "elapsed_time": "25m 13s", "remaining_time": "58m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153305}
-{"loss": 0.42202413, "grad_norm": 5.39332651, "learning_rate": 8.4e-07, "token_acc": 0.86050326, "epoch": 0.30240104, "global_step/max_steps": "233/771", "percentage": "30.22%", "elapsed_time": "25m 18s", "remaining_time": "58m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153401}
-{"loss": 0.36549184, "grad_norm": 4.93615259, "learning_rate": 8.3e-07, "token_acc": 0.88434505, "epoch": 0.3036989, "global_step/max_steps": "234/771", "percentage": "30.35%", "elapsed_time": "25m 25s", "remaining_time": "58m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153391}
-{"loss": 0.39624184, "grad_norm": 5.65967408, "learning_rate": 8.3e-07, "token_acc": 0.8742671, "epoch": 0.30499676, "global_step/max_steps": "235/771", "percentage": "30.48%", "elapsed_time": "25m 31s", "remaining_time": "58m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15343}
-{"loss": 0.43144858, "grad_norm": 5.58410973, "learning_rate": 8.3e-07, "token_acc": 0.8541162, "epoch": 0.30629461, "global_step/max_steps": "236/771", "percentage": "30.61%", "elapsed_time": "25m 40s", "remaining_time": "58m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153223}
-{"loss": 0.38646626, "grad_norm": 6.21305726, "learning_rate": 8.3e-07, "token_acc": 0.86884195, "epoch": 0.30759247, "global_step/max_steps": "237/771", "percentage": "30.74%", "elapsed_time": "25m 46s", "remaining_time": "58m 4s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153263}
-{"loss": 0.4191494, "grad_norm": 6.27893464, "learning_rate": 8.3e-07, "token_acc": 0.86675376, "epoch": 0.30889033, "global_step/max_steps": "238/771", "percentage": "30.87%", "elapsed_time": "25m 54s", "remaining_time": "58m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153142}
-{"loss": 0.51758307, "grad_norm": 6.14060338, "learning_rate": 8.3e-07, "token_acc": 0.83703232, "epoch": 0.31018819, "global_step/max_steps": "239/771", "percentage": "31.00%", "elapsed_time": "25m 59s", "remaining_time": "57m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153216}
-{"loss": 0.45147276, "grad_norm": 6.21651078, "learning_rate": 8.3e-07, "token_acc": 0.8520565, "epoch": 0.31148605, "global_step/max_steps": "240/771", "percentage": "31.13%", "elapsed_time": "26m 6s", "remaining_time": "57m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153239}
-{"loss": 0.42502558, "grad_norm": 5.96685328, "learning_rate": 8.2e-07, "token_acc": 0.86138612, "epoch": 0.31278391, "global_step/max_steps": "241/771", "percentage": "31.26%", "elapsed_time": "26m 12s", "remaining_time": "57m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153305}
-{"loss": 0.46141186, "grad_norm": 5.67338749, "learning_rate": 8.2e-07, "token_acc": 0.84839296, "epoch": 0.31408177, "global_step/max_steps": "242/771", "percentage": "31.39%", "elapsed_time": "26m 16s", "remaining_time": "57m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153486}
-{"loss": 0.44531226, "grad_norm": 6.00985938, "learning_rate": 8.2e-07, "token_acc": 0.86447638, "epoch": 0.31537962, "global_step/max_steps": "243/771", "percentage": "31.52%", "elapsed_time": "26m 22s", "remaining_time": "57m 19s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153532}
-{"loss": 0.39760131, "grad_norm": 5.14455592, "learning_rate": 8.2e-07, "token_acc": 0.86422414, "epoch": 0.31667748, "global_step/max_steps": "244/771", "percentage": "31.65%", "elapsed_time": "26m 29s", "remaining_time": "57m 12s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153526}
-{"loss": 0.42729574, "grad_norm": 6.13607385, "learning_rate": 8.2e-07, "token_acc": 0.85594738, "epoch": 0.31797534, "global_step/max_steps": "245/771", "percentage": "31.78%", "elapsed_time": "26m 34s", "remaining_time": "57m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153669}
-{"loss": 0.55140543, "grad_norm": 5.50125768, "learning_rate": 8.2e-07, "token_acc": 0.81451613, "epoch": 0.3192732, "global_step/max_steps": "246/771", "percentage": "31.91%", "elapsed_time": "26m 39s", "remaining_time": "56m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153777}
-{"loss": 0.43638271, "grad_norm": 5.76075733, "learning_rate": 8.1e-07, "token_acc": 0.85381114, "epoch": 0.32057106, "global_step/max_steps": "247/771", "percentage": "32.04%", "elapsed_time": "26m 47s", "remaining_time": "56m 49s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153682}
-{"loss": 0.4594233, "grad_norm": 6.29794152, "learning_rate": 8.1e-07, "token_acc": 0.8470363, "epoch": 0.32186892, "global_step/max_steps": "248/771", "percentage": "32.17%", "elapsed_time": "26m 54s", "remaining_time": "56m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153631}
-{"loss": 0.42013612, "grad_norm": 6.18571637, "learning_rate": 8.1e-07, "token_acc": 0.86119872, "epoch": 0.32316677, "global_step/max_steps": "249/771", "percentage": "32.30%", "elapsed_time": "27m 1s", "remaining_time": "56m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153578}
-{"loss": 0.31128967, "grad_norm": 6.0455442, "learning_rate": 8.1e-07, "token_acc": 0.88628471, "epoch": 0.32446463, "global_step/max_steps": "250/771", "percentage": "32.43%", "elapsed_time": "27m 8s", "remaining_time": "56m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153516}
-{"loss": 0.47984415, "grad_norm": 5.79064242, "learning_rate": 8.1e-07, "token_acc": 0.84871948, "epoch": 0.32576249, "global_step/max_steps": "251/771", "percentage": "32.56%", "elapsed_time": "27m 15s", "remaining_time": "56m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153489}
-{"loss": 0.35753128, "grad_norm": 5.27052277, "learning_rate": 8.1e-07, "token_acc": 0.88299155, "epoch": 0.32706035, "global_step/max_steps": "252/771", "percentage": "32.68%", "elapsed_time": "27m 20s", "remaining_time": "56m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153609}
-{"loss": 0.46745753, "grad_norm": 5.74507525, "learning_rate": 8e-07, "token_acc": 0.84405339, "epoch": 0.32835821, "global_step/max_steps": "253/771", "percentage": "32.81%", "elapsed_time": "27m 26s", "remaining_time": "56m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153624}
-{"loss": 0.34642285, "grad_norm": 5.31234545, "learning_rate": 8e-07, "token_acc": 0.8769334, "epoch": 0.32965607, "global_step/max_steps": "254/771", "percentage": "32.94%", "elapsed_time": "27m 34s", "remaining_time": "56m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153486}
-{"loss": 0.41216975, "grad_norm": 5.6446626, "learning_rate": 8e-07, "token_acc": 0.86310226, "epoch": 0.33095393, "global_step/max_steps": "255/771", "percentage": "33.07%", "elapsed_time": "27m 42s", "remaining_time": "56m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153412}
-{"loss": 0.48698583, "grad_norm": 5.93717574, "learning_rate": 8e-07, "token_acc": 0.85072815, "epoch": 0.33225178, "global_step/max_steps": "256/771", "percentage": "33.20%", "elapsed_time": "27m 48s", "remaining_time": "55m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153392}
-{"loss": 0.48042458, "grad_norm": 6.68634271, "learning_rate": 8e-07, "token_acc": 0.84369117, "epoch": 0.33354964, "global_step/max_steps": "257/771", "percentage": "33.33%", "elapsed_time": "27m 54s", "remaining_time": "55m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153489}
-{"loss": 0.47876853, "grad_norm": 5.82954937, "learning_rate": 7.9e-07, "token_acc": 0.84696883, "epoch": 0.3348475, "global_step/max_steps": "258/771", "percentage": "33.46%", "elapsed_time": "28m 0s", "remaining_time": "55m 42s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153491}
-{"loss": 0.41953743, "grad_norm": 5.83371184, "learning_rate": 7.9e-07, "token_acc": 0.86456996, "epoch": 0.33614536, "global_step/max_steps": "259/771", "percentage": "33.59%", "elapsed_time": "28m 6s", "remaining_time": "55m 34s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153528}
-{"loss": 0.42176628, "grad_norm": 5.36815783, "learning_rate": 7.9e-07, "token_acc": 0.85377359, "epoch": 0.33744322, "global_step/max_steps": "260/771", "percentage": "33.72%", "elapsed_time": "28m 12s", "remaining_time": "55m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153591}
-{"loss": 0.47454336, "grad_norm": 6.09373489, "learning_rate": 7.9e-07, "token_acc": 0.84698278, "epoch": 0.33874108, "global_step/max_steps": "261/771", "percentage": "33.85%", "elapsed_time": "28m 20s", "remaining_time": "55m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153445}
-{"loss": 0.49201116, "grad_norm": 6.12808893, "learning_rate": 7.9e-07, "token_acc": 0.83492821, "epoch": 0.34003894, "global_step/max_steps": "262/771", "percentage": "33.98%", "elapsed_time": "28m 27s", "remaining_time": "55m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153443}
-{"loss": 0.51631898, "grad_norm": 5.82841826, "learning_rate": 7.9e-07, "token_acc": 0.83970857, "epoch": 0.34133679, "global_step/max_steps": "263/771", "percentage": "34.11%", "elapsed_time": "28m 33s", "remaining_time": "55m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153471}
-{"loss": 0.36106452, "grad_norm": 5.0738142, "learning_rate": 7.8e-07, "token_acc": 0.87360376, "epoch": 0.34263465, "global_step/max_steps": "264/771", "percentage": "34.24%", "elapsed_time": "28m 40s", "remaining_time": "55m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15347}
-{"loss": 0.52339637, "grad_norm": 6.15714687, "learning_rate": 7.8e-07, "token_acc": 0.83802414, "epoch": 0.34393251, "global_step/max_steps": "265/771", "percentage": "34.37%", "elapsed_time": "28m 46s", "remaining_time": "54m 56s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.1535}
-{"loss": 0.36979598, "grad_norm": 5.3579718, "learning_rate": 7.8e-07, "token_acc": 0.8785845, "epoch": 0.34523037, "global_step/max_steps": "266/771", "percentage": "34.50%", "elapsed_time": "28m 53s", "remaining_time": "54m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15349}
-{"loss": 0.38771266, "grad_norm": 5.88686124, "learning_rate": 7.8e-07, "token_acc": 0.86195511, "epoch": 0.34652823, "global_step/max_steps": "267/771", "percentage": "34.63%", "elapsed_time": "28m 59s", "remaining_time": "54m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153457}
-{"loss": 0.43704903, "grad_norm": 5.39555429, "learning_rate": 7.8e-07, "token_acc": 0.86388886, "epoch": 0.34782609, "global_step/max_steps": "268/771", "percentage": "34.76%", "elapsed_time": "29m 7s", "remaining_time": "54m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153393}
-{"loss": 0.41948807, "grad_norm": 5.80741337, "learning_rate": 7.8e-07, "token_acc": 0.85695362, "epoch": 0.34912395, "global_step/max_steps": "269/771", "percentage": "34.89%", "elapsed_time": "29m 13s", "remaining_time": "54m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153427}
-{"loss": 0.38276002, "grad_norm": 5.70102081, "learning_rate": 7.7e-07, "token_acc": 0.8693217, "epoch": 0.3504218, "global_step/max_steps": "270/771", "percentage": "35.02%", "elapsed_time": "29m 18s", "remaining_time": "54m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153529}
-{"loss": 0.54830736, "grad_norm": 5.84882801, "learning_rate": 7.7e-07, "token_acc": 0.81922853, "epoch": 0.35171966, "global_step/max_steps": "271/771", "percentage": "35.15%", "elapsed_time": "29m 24s", "remaining_time": "54m 16s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15356}
-{"loss": 0.4349418, "grad_norm": 5.3295286, "learning_rate": 7.7e-07, "token_acc": 0.85283017, "epoch": 0.35301752, "global_step/max_steps": "272/771", "percentage": "35.28%", "elapsed_time": "29m 30s", "remaining_time": "54m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153661}
-{"loss": 0.45232564, "grad_norm": 6.27882322, "learning_rate": 7.7e-07, "token_acc": 0.8398487, "epoch": 0.35431538, "global_step/max_steps": "273/771", "percentage": "35.41%", "elapsed_time": "29m 36s", "remaining_time": "54m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153698}
-{"loss": 0.41563678, "grad_norm": 6.23309029, "learning_rate": 7.7e-07, "token_acc": 0.86319447, "epoch": 0.35561324, "global_step/max_steps": "274/771", "percentage": "35.54%", "elapsed_time": "29m 43s", "remaining_time": "53m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153603}
-{"loss": 0.31952763, "grad_norm": 5.68492096, "learning_rate": 7.6e-07, "token_acc": 0.88644183, "epoch": 0.3569111, "global_step/max_steps": "275/771", "percentage": "35.67%", "elapsed_time": "29m 51s", "remaining_time": "53m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153509}
-{"loss": 0.45783889, "grad_norm": 5.50189608, "learning_rate": 7.6e-07, "token_acc": 0.85127097, "epoch": 0.35820896, "global_step/max_steps": "276/771", "percentage": "35.80%", "elapsed_time": "29m 58s", "remaining_time": "53m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153436}
-{"loss": 0.39772311, "grad_norm": 5.36010236, "learning_rate": 7.6e-07, "token_acc": 0.87102807, "epoch": 0.35950681, "global_step/max_steps": "277/771", "percentage": "35.93%", "elapsed_time": "30m 4s", "remaining_time": "53m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153542}
-{"loss": 0.51079547, "grad_norm": 6.08363653, "learning_rate": 7.6e-07, "token_acc": 0.83273166, "epoch": 0.36080467, "global_step/max_steps": "278/771", "percentage": "36.06%", "elapsed_time": "30m 10s", "remaining_time": "53m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153561}
-{"loss": 0.33667433, "grad_norm": 5.9209823, "learning_rate": 7.6e-07, "token_acc": 0.88276947, "epoch": 0.36210253, "global_step/max_steps": "279/771", "percentage": "36.19%", "elapsed_time": "30m 15s", "remaining_time": "53m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153703}
-{"loss": 0.46116051, "grad_norm": 5.61532555, "learning_rate": 7.6e-07, "token_acc": 0.85138816, "epoch": 0.36340039, "global_step/max_steps": "280/771", "percentage": "36.32%", "elapsed_time": "30m 23s", "remaining_time": "53m 16s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153591}
-{"loss": 0.50124937, "grad_norm": 5.40315327, "learning_rate": 7.5e-07, "token_acc": 0.83421892, "epoch": 0.36469825, "global_step/max_steps": "281/771", "percentage": "36.45%", "elapsed_time": "30m 28s", "remaining_time": "53m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153677}
-{"loss": 0.43272245, "grad_norm": 6.24847786, "learning_rate": 7.5e-07, "token_acc": 0.85077649, "epoch": 0.36599611, "global_step/max_steps": "282/771", "percentage": "36.58%", "elapsed_time": "30m 35s", "remaining_time": "53m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153652}
-{"loss": 0.42965502, "grad_norm": 5.60640034, "learning_rate": 7.5e-07, "token_acc": 0.86555183, "epoch": 0.36729396, "global_step/max_steps": "283/771", "percentage": "36.71%", "elapsed_time": "30m 42s", "remaining_time": "52m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15357}
-{"loss": 0.47987765, "grad_norm": 6.35790506, "learning_rate": 7.5e-07, "token_acc": 0.84484851, "epoch": 0.36859182, "global_step/max_steps": "284/771", "percentage": "36.84%", "elapsed_time": "30m 48s", "remaining_time": "52m 49s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15365}
-{"loss": 0.46917617, "grad_norm": 6.14645486, "learning_rate": 7.5e-07, "token_acc": 0.84729064, "epoch": 0.36988968, "global_step/max_steps": "285/771", "percentage": "36.96%", "elapsed_time": "30m 54s", "remaining_time": "52m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153652}
-{"loss": 0.47004965, "grad_norm": 5.83404944, "learning_rate": 7.4e-07, "token_acc": 0.84227747, "epoch": 0.37118754, "global_step/max_steps": "286/771", "percentage": "37.09%", "elapsed_time": "31m 1s", "remaining_time": "52m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153642}
-{"loss": 0.40120333, "grad_norm": 5.42002107, "learning_rate": 7.4e-07, "token_acc": 0.86481482, "epoch": 0.3724854, "global_step/max_steps": "287/771", "percentage": "37.22%", "elapsed_time": "31m 6s", "remaining_time": "52m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153797}
-{"loss": 0.49528748, "grad_norm": 5.73918672, "learning_rate": 7.4e-07, "token_acc": 0.83404255, "epoch": 0.37378326, "global_step/max_steps": "288/771", "percentage": "37.35%", "elapsed_time": "31m 11s", "remaining_time": "52m 19s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153866}
-{"loss": 0.37967706, "grad_norm": 6.54954599, "learning_rate": 7.4e-07, "token_acc": 0.85928851, "epoch": 0.37508112, "global_step/max_steps": "289/771", "percentage": "37.48%", "elapsed_time": "31m 16s", "remaining_time": "52m 9s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154005}
-{"loss": 0.44977772, "grad_norm": 5.96754348, "learning_rate": 7.4e-07, "token_acc": 0.85754585, "epoch": 0.37637897, "global_step/max_steps": "290/771", "percentage": "37.61%", "elapsed_time": "31m 23s", "remaining_time": "52m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153996}
-{"loss": 0.43949035, "grad_norm": 6.10681059, "learning_rate": 7.3e-07, "token_acc": 0.85112357, "epoch": 0.37767683, "global_step/max_steps": "291/771", "percentage": "37.74%", "elapsed_time": "31m 27s", "remaining_time": "51m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154133}
-{"loss": 0.34955159, "grad_norm": 5.14410501, "learning_rate": 7.3e-07, "token_acc": 0.88159436, "epoch": 0.37897469, "global_step/max_steps": "292/771", "percentage": "37.87%", "elapsed_time": "31m 34s", "remaining_time": "51m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15409}
-{"loss": 0.35987186, "grad_norm": 5.14131981, "learning_rate": 7.3e-07, "token_acc": 0.88042206, "epoch": 0.38027255, "global_step/max_steps": "293/771", "percentage": "38.00%", "elapsed_time": "31m 42s", "remaining_time": "51m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153997}
-{"loss": 0.47635177, "grad_norm": 5.99315203, "learning_rate": 7.3e-07, "token_acc": 0.84279191, "epoch": 0.38157041, "global_step/max_steps": "294/771", "percentage": "38.13%", "elapsed_time": "31m 47s", "remaining_time": "51m 34s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154163}
-{"loss": 0.50028455, "grad_norm": 6.86048366, "learning_rate": 7.3e-07, "token_acc": 0.83388704, "epoch": 0.38286827, "global_step/max_steps": "295/771", "percentage": "38.26%", "elapsed_time": "31m 54s", "remaining_time": "51m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154105}
-{"loss": 0.44431886, "grad_norm": 5.30360107, "learning_rate": 7.3e-07, "token_acc": 0.85714287, "epoch": 0.38416613, "global_step/max_steps": "296/771", "percentage": "38.39%", "elapsed_time": "32m 1s", "remaining_time": "51m 22s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154085}
-{"loss": 0.49841893, "grad_norm": 6.21112425, "learning_rate": 7.2e-07, "token_acc": 0.84058857, "epoch": 0.38546398, "global_step/max_steps": "297/771", "percentage": "38.52%", "elapsed_time": "32m 8s", "remaining_time": "51m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154013}
-{"loss": 0.36187831, "grad_norm": 5.49326153, "learning_rate": 7.2e-07, "token_acc": 0.87599266, "epoch": 0.38676184, "global_step/max_steps": "298/771", "percentage": "38.65%", "elapsed_time": "32m 13s", "remaining_time": "51m 9s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154087}
-{"loss": 0.46056348, "grad_norm": 5.19115702, "learning_rate": 7.2e-07, "token_acc": 0.85523385, "epoch": 0.3880597, "global_step/max_steps": "299/771", "percentage": "38.78%", "elapsed_time": "32m 21s", "remaining_time": "51m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153974}
-{"loss": 0.36634696, "grad_norm": 5.4087213, "learning_rate": 7.2e-07, "token_acc": 0.87275147, "epoch": 0.38935756, "global_step/max_steps": "300/771", "percentage": "38.91%", "elapsed_time": "32m 29s", "remaining_time": "51m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153871}
-{"loss": 0.46272379, "grad_norm": 5.71399253, "learning_rate": 7.2e-07, "token_acc": 0.84767443, "epoch": 0.39065542, "global_step/max_steps": "301/771", "percentage": "39.04%", "elapsed_time": "32m 35s", "remaining_time": "50m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153915}
-{"loss": 0.39335898, "grad_norm": 5.81534561, "learning_rate": 7.1e-07, "token_acc": 0.86918604, "epoch": 0.39195328, "global_step/max_steps": "302/771", "percentage": "39.17%", "elapsed_time": "32m 40s", "remaining_time": "50m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154043}
-{"loss": 0.40071076, "grad_norm": 5.29040118, "learning_rate": 7.1e-07, "token_acc": 0.86447763, "epoch": 0.39325114, "global_step/max_steps": "303/771", "percentage": "39.30%", "elapsed_time": "32m 47s", "remaining_time": "50m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15403}
-{"loss": 0.48522565, "grad_norm": 5.9382995, "learning_rate": 7.1e-07, "token_acc": 0.84978801, "epoch": 0.39454899, "global_step/max_steps": "304/771", "percentage": "39.43%", "elapsed_time": "32m 53s", "remaining_time": "50m 32s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154021}
-{"loss": 0.40050578, "grad_norm": 5.68163593, "learning_rate": 7.1e-07, "token_acc": 0.86523557, "epoch": 0.39584685, "global_step/max_steps": "305/771", "percentage": "39.56%", "elapsed_time": "33m 0s", "remaining_time": "50m 25s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154011}
-{"loss": 0.49694312, "grad_norm": 5.43256503, "learning_rate": 7.1e-07, "token_acc": 0.83645833, "epoch": 0.39714471, "global_step/max_steps": "306/771", "percentage": "39.69%", "elapsed_time": "33m 8s", "remaining_time": "50m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153899}
-{"loss": 0.41414776, "grad_norm": 5.50949619, "learning_rate": 7e-07, "token_acc": 0.86261261, "epoch": 0.39844257, "global_step/max_steps": "307/771", "percentage": "39.82%", "elapsed_time": "33m 13s", "remaining_time": "50m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153971}
-{"loss": 0.37109423, "grad_norm": 5.39491412, "learning_rate": 7e-07, "token_acc": 0.87615895, "epoch": 0.39974043, "global_step/max_steps": "308/771", "percentage": "39.95%", "elapsed_time": "33m 20s", "remaining_time": "50m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153927}
-{"loss": 0.4276388, "grad_norm": 5.87986444, "learning_rate": 7e-07, "token_acc": 0.85609758, "epoch": 0.40103829, "global_step/max_steps": "309/771", "percentage": "40.08%", "elapsed_time": "33m 28s", "remaining_time": "50m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153856}
-{"loss": 0.39201242, "grad_norm": 4.87521417, "learning_rate": 7e-07, "token_acc": 0.867266, "epoch": 0.40233615, "global_step/max_steps": "310/771", "percentage": "40.21%", "elapsed_time": "33m 34s", "remaining_time": "49m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153882}
-{"loss": 0.41941619, "grad_norm": 5.49394021, "learning_rate": 7e-07, "token_acc": 0.87054408, "epoch": 0.403634, "global_step/max_steps": "311/771", "percentage": "40.34%", "elapsed_time": "33m 39s", "remaining_time": "49m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154014}
-{"loss": 0.39166594, "grad_norm": 5.9924247, "learning_rate": 6.9e-07, "token_acc": 0.87065005, "epoch": 0.40493186, "global_step/max_steps": "312/771", "percentage": "40.47%", "elapsed_time": "33m 45s", "remaining_time": "49m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154014}
-{"loss": 0.42829013, "grad_norm": 5.59360878, "learning_rate": 6.9e-07, "token_acc": 0.85656214, "epoch": 0.40622972, "global_step/max_steps": "313/771", "percentage": "40.60%", "elapsed_time": "33m 52s", "remaining_time": "49m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154003}
-{"loss": 0.48756254, "grad_norm": 6.20622296, "learning_rate": 6.9e-07, "token_acc": 0.83934027, "epoch": 0.40752758, "global_step/max_steps": "314/771", "percentage": "40.73%", "elapsed_time": "33m 58s", "remaining_time": "49m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154039}
-{"loss": 0.39693075, "grad_norm": 5.42256397, "learning_rate": 6.9e-07, "token_acc": 0.85714287, "epoch": 0.40882544, "global_step/max_steps": "315/771", "percentage": "40.86%", "elapsed_time": "34m 3s", "remaining_time": "49m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154183}
-{"loss": 0.40184814, "grad_norm": 5.96414663, "learning_rate": 6.9e-07, "token_acc": 0.87308675, "epoch": 0.4101233, "global_step/max_steps": "316/771", "percentage": "40.99%", "elapsed_time": "34m 8s", "remaining_time": "49m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154234}
-{"loss": 0.46157059, "grad_norm": 5.22946412, "learning_rate": 6.8e-07, "token_acc": 0.85495782, "epoch": 0.41142116, "global_step/max_steps": "317/771", "percentage": "41.12%", "elapsed_time": "34m 16s", "remaining_time": "49m 4s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154175}
-{"loss": 0.40590376, "grad_norm": 5.57523024, "learning_rate": 6.8e-07, "token_acc": 0.86188811, "epoch": 0.41271901, "global_step/max_steps": "318/771", "percentage": "41.25%", "elapsed_time": "34m 23s", "remaining_time": "48m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154086}
-{"loss": 0.38879934, "grad_norm": 5.52876839, "learning_rate": 6.8e-07, "token_acc": 0.86562502, "epoch": 0.41401687, "global_step/max_steps": "319/771", "percentage": "41.37%", "elapsed_time": "34m 30s", "remaining_time": "48m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154087}
-{"loss": 0.44119167, "grad_norm": 6.16266929, "learning_rate": 6.8e-07, "token_acc": 0.85941827, "epoch": 0.41531473, "global_step/max_steps": "320/771", "percentage": "41.50%", "elapsed_time": "34m 36s", "remaining_time": "48m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154105}
-{"loss": 0.39134154, "grad_norm": 5.94957092, "learning_rate": 6.8e-07, "token_acc": 0.85279888, "epoch": 0.41661259, "global_step/max_steps": "321/771", "percentage": "41.63%", "elapsed_time": "34m 42s", "remaining_time": "48m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154123}
-{"loss": 0.43892229, "grad_norm": 6.03005642, "learning_rate": 6.7e-07, "token_acc": 0.86093146, "epoch": 0.41791045, "global_step/max_steps": "322/771", "percentage": "41.76%", "elapsed_time": "34m 49s", "remaining_time": "48m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154118}
-{"loss": 0.37379244, "grad_norm": 5.4566288, "learning_rate": 6.7e-07, "token_acc": 0.87740386, "epoch": 0.41920831, "global_step/max_steps": "323/771", "percentage": "41.89%", "elapsed_time": "34m 54s", "remaining_time": "48m 25s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154192}
-{"loss": 0.42873299, "grad_norm": 5.76985613, "learning_rate": 6.7e-07, "token_acc": 0.86139894, "epoch": 0.42050616, "global_step/max_steps": "324/771", "percentage": "42.02%", "elapsed_time": "35m 1s", "remaining_time": "48m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154192}
-{"loss": 0.48105073, "grad_norm": 6.02467037, "learning_rate": 6.7e-07, "token_acc": 0.83333331, "epoch": 0.42180402, "global_step/max_steps": "325/771", "percentage": "42.15%", "elapsed_time": "35m 8s", "remaining_time": "48m 12s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154175}
-{"loss": 0.5275805, "grad_norm": 6.07649349, "learning_rate": 6.7e-07, "token_acc": 0.82970792, "epoch": 0.42310188, "global_step/max_steps": "326/771", "percentage": "42.28%", "elapsed_time": "35m 14s", "remaining_time": "48m 6s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15415}
-{"loss": 0.41690248, "grad_norm": 5.45876049, "learning_rate": 6.6e-07, "token_acc": 0.85955393, "epoch": 0.42439974, "global_step/max_steps": "327/771", "percentage": "42.41%", "elapsed_time": "35m 20s", "remaining_time": "47m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154176}
-{"loss": 0.45137495, "grad_norm": 6.15137577, "learning_rate": 6.6e-07, "token_acc": 0.86679536, "epoch": 0.4256976, "global_step/max_steps": "328/771", "percentage": "42.54%", "elapsed_time": "35m 25s", "remaining_time": "47m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154298}
-{"loss": 0.36830869, "grad_norm": 5.07331149, "learning_rate": 6.6e-07, "token_acc": 0.87424493, "epoch": 0.42699546, "global_step/max_steps": "329/771", "percentage": "42.67%", "elapsed_time": "35m 32s", "remaining_time": "47m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154276}
-{"loss": 0.4458077, "grad_norm": 5.70153443, "learning_rate": 6.6e-07, "token_acc": 0.84939027, "epoch": 0.42829332, "global_step/max_steps": "330/771", "percentage": "42.80%", "elapsed_time": "35m 38s", "remaining_time": "47m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154292}
-{"loss": 0.43351758, "grad_norm": 6.20567916, "learning_rate": 6.6e-07, "token_acc": 0.85714287, "epoch": 0.42959117, "global_step/max_steps": "331/771", "percentage": "42.93%", "elapsed_time": "35m 43s", "remaining_time": "47m 29s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15439}
-{"loss": 0.45886001, "grad_norm": 6.03501185, "learning_rate": 6.5e-07, "token_acc": 0.85091144, "epoch": 0.43088903, "global_step/max_steps": "332/771", "percentage": "43.06%", "elapsed_time": "35m 50s", "remaining_time": "47m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154397}
-{"loss": 0.45116138, "grad_norm": 5.26686733, "learning_rate": 6.5e-07, "token_acc": 0.85226077, "epoch": 0.43218689, "global_step/max_steps": "333/771", "percentage": "43.19%", "elapsed_time": "35m 58s", "remaining_time": "47m 19s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154279}
-{"loss": 0.36191133, "grad_norm": 4.775982, "learning_rate": 6.5e-07, "token_acc": 0.87803435, "epoch": 0.43348475, "global_step/max_steps": "334/771", "percentage": "43.32%", "elapsed_time": "36m 5s", "remaining_time": "47m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154212}
-{"loss": 0.39552945, "grad_norm": 5.96001176, "learning_rate": 6.5e-07, "token_acc": 0.85868782, "epoch": 0.43478261, "global_step/max_steps": "335/771", "percentage": "43.45%", "elapsed_time": "36m 10s", "remaining_time": "47m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154329}
-{"loss": 0.37890786, "grad_norm": 5.95759467, "learning_rate": 6.5e-07, "token_acc": 0.87225276, "epoch": 0.43608047, "global_step/max_steps": "336/771", "percentage": "43.58%", "elapsed_time": "36m 16s", "remaining_time": "46m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154359}
-{"loss": 0.43062052, "grad_norm": 5.27054048, "learning_rate": 6.4e-07, "token_acc": 0.85770977, "epoch": 0.43737833, "global_step/max_steps": "337/771", "percentage": "43.71%", "elapsed_time": "36m 22s", "remaining_time": "46m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154408}
-{"loss": 0.37838823, "grad_norm": 5.73265914, "learning_rate": 6.4e-07, "token_acc": 0.87611938, "epoch": 0.43867618, "global_step/max_steps": "338/771", "percentage": "43.84%", "elapsed_time": "36m 29s", "remaining_time": "46m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154359}
-{"loss": 0.58036125, "grad_norm": 6.63906524, "learning_rate": 6.4e-07, "token_acc": 0.82044387, "epoch": 0.43997404, "global_step/max_steps": "339/771", "percentage": "43.97%", "elapsed_time": "36m 34s", "remaining_time": "46m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154447}
-{"loss": 0.44173276, "grad_norm": 6.366733, "learning_rate": 6.4e-07, "token_acc": 0.84496123, "epoch": 0.4412719, "global_step/max_steps": "340/771", "percentage": "44.10%", "elapsed_time": "36m 41s", "remaining_time": "46m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154469}
-{"loss": 0.40033069, "grad_norm": 5.51752183, "learning_rate": 6.4e-07, "token_acc": 0.86722994, "epoch": 0.44256976, "global_step/max_steps": "341/771", "percentage": "44.23%", "elapsed_time": "36m 48s", "remaining_time": "46m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154426}
-{"loss": 0.43982127, "grad_norm": 6.02258633, "learning_rate": 6.3e-07, "token_acc": 0.86197567, "epoch": 0.44386762, "global_step/max_steps": "342/771", "percentage": "44.36%", "elapsed_time": "36m 54s", "remaining_time": "46m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154464}
-{"loss": 0.33616924, "grad_norm": 5.19848451, "learning_rate": 6.3e-07, "token_acc": 0.88631225, "epoch": 0.44516548, "global_step/max_steps": "343/771", "percentage": "44.49%", "elapsed_time": "37m 0s", "remaining_time": "46m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154453}
-{"loss": 0.42235845, "grad_norm": 5.79134861, "learning_rate": 6.3e-07, "token_acc": 0.84899747, "epoch": 0.44646334, "global_step/max_steps": "344/771", "percentage": "44.62%", "elapsed_time": "37m 6s", "remaining_time": "46m 4s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154477}
-{"loss": 0.38387281, "grad_norm": 5.24642079, "learning_rate": 6.3e-07, "token_acc": 0.86898398, "epoch": 0.44776119, "global_step/max_steps": "345/771", "percentage": "44.75%", "elapsed_time": "37m 13s", "remaining_time": "45m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154462}
-{"loss": 0.47465685, "grad_norm": 6.04436594, "learning_rate": 6.3e-07, "token_acc": 0.84536701, "epoch": 0.44905905, "global_step/max_steps": "346/771", "percentage": "44.88%", "elapsed_time": "37m 21s", "remaining_time": "45m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154374}
-{"loss": 0.51456594, "grad_norm": 6.04763272, "learning_rate": 6.2e-07, "token_acc": 0.8513599, "epoch": 0.45035691, "global_step/max_steps": "347/771", "percentage": "45.01%", "elapsed_time": "37m 26s", "remaining_time": "45m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154466}
-{"loss": 0.3773351, "grad_norm": 5.710514, "learning_rate": 6.2e-07, "token_acc": 0.8734777, "epoch": 0.45165477, "global_step/max_steps": "348/771", "percentage": "45.14%", "elapsed_time": "37m 32s", "remaining_time": "45m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154468}
-{"loss": 0.41330904, "grad_norm": 5.4371348, "learning_rate": 6.2e-07, "token_acc": 0.86843657, "epoch": 0.45295263, "global_step/max_steps": "349/771", "percentage": "45.27%", "elapsed_time": "37m 39s", "remaining_time": "45m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154479}
-{"loss": 0.35810757, "grad_norm": 5.30541278, "learning_rate": 6.2e-07, "token_acc": 0.88359791, "epoch": 0.45425049, "global_step/max_steps": "350/771", "percentage": "45.40%", "elapsed_time": "37m 46s", "remaining_time": "45m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15442}
-{"loss": 0.35681352, "grad_norm": 6.05751576, "learning_rate": 6.1e-07, "token_acc": 0.875817, "epoch": 0.45554835, "global_step/max_steps": "351/771", "percentage": "45.53%", "elapsed_time": "37m 53s", "remaining_time": "45m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154354}
-{"loss": 0.50615227, "grad_norm": 5.89769628, "learning_rate": 6.1e-07, "token_acc": 0.83124214, "epoch": 0.4568462, "global_step/max_steps": "352/771", "percentage": "45.65%", "elapsed_time": "37m 59s", "remaining_time": "45m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154399}
-{"loss": 0.52346963, "grad_norm": 5.76440623, "learning_rate": 6.1e-07, "token_acc": 0.83323783, "epoch": 0.45814406, "global_step/max_steps": "353/771", "percentage": "45.78%", "elapsed_time": "38m 6s", "remaining_time": "45m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154377}
-{"loss": 0.36722174, "grad_norm": 5.56216278, "learning_rate": 6.1e-07, "token_acc": 0.87978142, "epoch": 0.45944192, "global_step/max_steps": "354/771", "percentage": "45.91%", "elapsed_time": "38m 11s", "remaining_time": "44m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154507}
-{"loss": 0.49815848, "grad_norm": 6.10016958, "learning_rate": 6.1e-07, "token_acc": 0.82965684, "epoch": 0.46073978, "global_step/max_steps": "355/771", "percentage": "46.04%", "elapsed_time": "38m 17s", "remaining_time": "44m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15452}
-{"loss": 0.43403333, "grad_norm": 5.67868142, "learning_rate": 6e-07, "token_acc": 0.85313314, "epoch": 0.46203764, "global_step/max_steps": "356/771", "percentage": "46.17%", "elapsed_time": "38m 24s", "remaining_time": "44m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154488}
-{"loss": 0.3950536, "grad_norm": 6.03240901, "learning_rate": 6e-07, "token_acc": 0.87092483, "epoch": 0.4633355, "global_step/max_steps": "357/771", "percentage": "46.30%", "elapsed_time": "38m 32s", "remaining_time": "44m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154369}
-{"loss": 0.46435589, "grad_norm": 5.50566281, "learning_rate": 6e-07, "token_acc": 0.84682083, "epoch": 0.46463335, "global_step/max_steps": "358/771", "percentage": "46.43%", "elapsed_time": "38m 40s", "remaining_time": "44m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154285}
-{"loss": 0.42962867, "grad_norm": 5.87143558, "learning_rate": 6e-07, "token_acc": 0.8594771, "epoch": 0.46593121, "global_step/max_steps": "359/771", "percentage": "46.56%", "elapsed_time": "38m 45s", "remaining_time": "44m 29s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154347}
-{"loss": 0.43561774, "grad_norm": 6.03518569, "learning_rate": 6e-07, "token_acc": 0.8611111, "epoch": 0.46722907, "global_step/max_steps": "360/771", "percentage": "46.69%", "elapsed_time": "38m 52s", "remaining_time": "44m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154315}
-{"loss": 0.39814785, "grad_norm": 5.09293472, "learning_rate": 5.9e-07, "token_acc": 0.86682105, "epoch": 0.46852693, "global_step/max_steps": "361/771", "percentage": "46.82%", "elapsed_time": "38m 58s", "remaining_time": "44m 16s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154342}
-{"loss": 0.45276129, "grad_norm": 5.76695602, "learning_rate": 5.9e-07, "token_acc": 0.8447631, "epoch": 0.46982479, "global_step/max_steps": "362/771", "percentage": "46.95%", "elapsed_time": "39m 5s", "remaining_time": "44m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154325}
-{"loss": 0.39368546, "grad_norm": 5.74890727, "learning_rate": 5.9e-07, "token_acc": 0.86783624, "epoch": 0.47112265, "global_step/max_steps": "363/771", "percentage": "47.08%", "elapsed_time": "39m 13s", "remaining_time": "44m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154251}
-{"loss": 0.48546702, "grad_norm": 7.13204151, "learning_rate": 5.9e-07, "token_acc": 0.84124631, "epoch": 0.47242051, "global_step/max_steps": "364/771", "percentage": "47.21%", "elapsed_time": "39m 19s", "remaining_time": "43m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15425}
-{"loss": 0.39672631, "grad_norm": 5.3100807, "learning_rate": 5.9e-07, "token_acc": 0.86363637, "epoch": 0.47371836, "global_step/max_steps": "365/771", "percentage": "47.34%", "elapsed_time": "39m 27s", "remaining_time": "43m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154201}
-{"loss": 0.41280425, "grad_norm": 5.49288629, "learning_rate": 5.8e-07, "token_acc": 0.86010039, "epoch": 0.47501622, "global_step/max_steps": "366/771", "percentage": "47.47%", "elapsed_time": "39m 33s", "remaining_time": "43m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154194}
-{"loss": 0.37823999, "grad_norm": 5.81497195, "learning_rate": 5.8e-07, "token_acc": 0.86571056, "epoch": 0.47631408, "global_step/max_steps": "367/771", "percentage": "47.60%", "elapsed_time": "39m 40s", "remaining_time": "43m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154182}
-{"loss": 0.43075669, "grad_norm": 5.32839411, "learning_rate": 5.8e-07, "token_acc": 0.85764295, "epoch": 0.47761194, "global_step/max_steps": "368/771", "percentage": "47.73%", "elapsed_time": "39m 47s", "remaining_time": "43m 34s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154163}
-{"loss": 0.47598183, "grad_norm": 5.61460064, "learning_rate": 5.8e-07, "token_acc": 0.85603809, "epoch": 0.4789098, "global_step/max_steps": "369/771", "percentage": "47.86%", "elapsed_time": "39m 54s", "remaining_time": "43m 29s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154076}
-{"loss": 0.4409759, "grad_norm": 5.75264689, "learning_rate": 5.7e-07, "token_acc": 0.84866667, "epoch": 0.48020766, "global_step/max_steps": "370/771", "percentage": "47.99%", "elapsed_time": "40m 1s", "remaining_time": "43m 22s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154102}
-{"loss": 0.44811383, "grad_norm": 5.66317625, "learning_rate": 5.7e-07, "token_acc": 0.84868419, "epoch": 0.48150552, "global_step/max_steps": "371/771", "percentage": "48.12%", "elapsed_time": "40m 10s", "remaining_time": "43m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153913}
-{"loss": 0.41901541, "grad_norm": 5.34618475, "learning_rate": 5.7e-07, "token_acc": 0.85925925, "epoch": 0.48280337, "global_step/max_steps": "372/771", "percentage": "48.25%", "elapsed_time": "40m 18s", "remaining_time": "43m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153838}
-{"loss": 0.36175945, "grad_norm": 5.28206742, "learning_rate": 5.7e-07, "token_acc": 0.87785763, "epoch": 0.48410123, "global_step/max_steps": "373/771", "percentage": "48.38%", "elapsed_time": "40m 26s", "remaining_time": "43m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153728}
-{"loss": 0.34101278, "grad_norm": 5.34607916, "learning_rate": 5.7e-07, "token_acc": 0.87839675, "epoch": 0.48539909, "global_step/max_steps": "374/771", "percentage": "48.51%", "elapsed_time": "40m 32s", "remaining_time": "43m 1s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153759}
-{"loss": 0.44622642, "grad_norm": 5.5805733, "learning_rate": 5.6e-07, "token_acc": 0.85714287, "epoch": 0.48669695, "global_step/max_steps": "375/771", "percentage": "48.64%", "elapsed_time": "40m 37s", "remaining_time": "42m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153853}
-{"loss": 0.40857697, "grad_norm": 5.44044526, "learning_rate": 5.6e-07, "token_acc": 0.87358278, "epoch": 0.48799481, "global_step/max_steps": "376/771", "percentage": "48.77%", "elapsed_time": "40m 45s", "remaining_time": "42m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153782}
-{"loss": 0.40589726, "grad_norm": 5.41380366, "learning_rate": 5.6e-07, "token_acc": 0.86615109, "epoch": 0.48929267, "global_step/max_steps": "377/771", "percentage": "48.90%", "elapsed_time": "40m 52s", "remaining_time": "42m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153706}
-{"loss": 0.44480413, "grad_norm": 5.30175048, "learning_rate": 5.6e-07, "token_acc": 0.85073781, "epoch": 0.49059053, "global_step/max_steps": "378/771", "percentage": "49.03%", "elapsed_time": "40m 59s", "remaining_time": "42m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153693}
-{"loss": 0.52701968, "grad_norm": 6.16342232, "learning_rate": 5.6e-07, "token_acc": 0.83731741, "epoch": 0.49188838, "global_step/max_steps": "379/771", "percentage": "49.16%", "elapsed_time": "41m 5s", "remaining_time": "42m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153705}
-{"loss": 0.49537656, "grad_norm": 5.70207677, "learning_rate": 5.5e-07, "token_acc": 0.85246843, "epoch": 0.49318624, "global_step/max_steps": "380/771", "percentage": "49.29%", "elapsed_time": "41m 12s", "remaining_time": "42m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.1537}
-{"loss": 0.42360166, "grad_norm": 5.54575307, "learning_rate": 5.5e-07, "token_acc": 0.86069363, "epoch": 0.4944841, "global_step/max_steps": "381/771", "percentage": "49.42%", "elapsed_time": "41m 17s", "remaining_time": "42m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153787}
-{"loss": 0.39490724, "grad_norm": 5.57187514, "learning_rate": 5.5e-07, "token_acc": 0.87594455, "epoch": 0.49578196, "global_step/max_steps": "382/771", "percentage": "49.55%", "elapsed_time": "41m 25s", "remaining_time": "42m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153712}
-{"loss": 0.46740368, "grad_norm": 6.27958212, "learning_rate": 5.5e-07, "token_acc": 0.84418899, "epoch": 0.49707982, "global_step/max_steps": "383/771", "percentage": "49.68%", "elapsed_time": "41m 30s", "remaining_time": "42m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153791}
-{"loss": 0.48965937, "grad_norm": 6.02171608, "learning_rate": 5.5e-07, "token_acc": 0.84484923, "epoch": 0.49837768, "global_step/max_steps": "384/771", "percentage": "49.81%", "elapsed_time": "41m 38s", "remaining_time": "41m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153708}
-{"loss": 0.4587788, "grad_norm": 7.46796301, "learning_rate": 5.4e-07, "token_acc": 0.86489749, "epoch": 0.49967554, "global_step/max_steps": "385/771", "percentage": "49.94%", "elapsed_time": "41m 43s", "remaining_time": "41m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153766}
-{"loss": 0.37912905, "grad_norm": 4.68312304, "learning_rate": 5.4e-07, "token_acc": 0.87578291, "epoch": 0.50097339, "global_step/max_steps": "386/771", "percentage": "50.06%", "elapsed_time": "41m 50s", "remaining_time": "41m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153734}
-{"loss": 0.38641161, "grad_norm": 5.21316076, "learning_rate": 5.4e-07, "token_acc": 0.875974, "epoch": 0.50227125, "global_step/max_steps": "387/771", "percentage": "50.19%", "elapsed_time": "41m 56s", "remaining_time": "41m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15381}
-{"loss": 0.48645368, "grad_norm": 5.7332846, "learning_rate": 5.4e-07, "token_acc": 0.83687538, "epoch": 0.50356911, "global_step/max_steps": "388/771", "percentage": "50.32%", "elapsed_time": "42m 2s", "remaining_time": "41m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153801}
-{"loss": 0.49845847, "grad_norm": 5.39334418, "learning_rate": 5.3e-07, "token_acc": 0.8383621, "epoch": 0.50486697, "global_step/max_steps": "389/771", "percentage": "50.45%", "elapsed_time": "42m 10s", "remaining_time": "41m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153728}
-{"loss": 0.40392512, "grad_norm": 5.21866998, "learning_rate": 5.3e-07, "token_acc": 0.86260533, "epoch": 0.50616483, "global_step/max_steps": "390/771", "percentage": "50.58%", "elapsed_time": "42m 17s", "remaining_time": "41m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153721}
-{"loss": 0.43251991, "grad_norm": 5.78689794, "learning_rate": 5.3e-07, "token_acc": 0.85608399, "epoch": 0.50746269, "global_step/max_steps": "391/771", "percentage": "50.71%", "elapsed_time": "42m 23s", "remaining_time": "41m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153725}
-{"loss": 0.50066209, "grad_norm": 5.5338937, "learning_rate": 5.3e-07, "token_acc": 0.84836745, "epoch": 0.50876055, "global_step/max_steps": "392/771", "percentage": "50.84%", "elapsed_time": "42m 31s", "remaining_time": "41m 6s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153654}
-{"loss": 0.43313372, "grad_norm": 5.76818071, "learning_rate": 5.3e-07, "token_acc": 0.85436285, "epoch": 0.5100584, "global_step/max_steps": "393/771", "percentage": "50.97%", "elapsed_time": "42m 36s", "remaining_time": "40m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153736}
-{"loss": 0.43125474, "grad_norm": 5.46145013, "learning_rate": 5.2e-07, "token_acc": 0.86401427, "epoch": 0.51135626, "global_step/max_steps": "394/771", "percentage": "51.10%", "elapsed_time": "42m 41s", "remaining_time": "40m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153828}
-{"loss": 0.42771417, "grad_norm": 5.48165572, "learning_rate": 5.2e-07, "token_acc": 0.85464752, "epoch": 0.51265412, "global_step/max_steps": "395/771", "percentage": "51.23%", "elapsed_time": "42m 49s", "remaining_time": "40m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153735}
-{"loss": 0.42881796, "grad_norm": 5.47481391, "learning_rate": 5.2e-07, "token_acc": 0.86817104, "epoch": 0.51395198, "global_step/max_steps": "396/771", "percentage": "51.36%", "elapsed_time": "42m 55s", "remaining_time": "40m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153758}
-{"loss": 0.34266922, "grad_norm": 5.29750311, "learning_rate": 5.2e-07, "token_acc": 0.8793999, "epoch": 0.51524984, "global_step/max_steps": "397/771", "percentage": "51.49%", "elapsed_time": "43m 1s", "remaining_time": "40m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15379}
-{"loss": 0.39407155, "grad_norm": 5.74368478, "learning_rate": 5.2e-07, "token_acc": 0.86651838, "epoch": 0.5165477, "global_step/max_steps": "398/771", "percentage": "51.62%", "elapsed_time": "43m 8s", "remaining_time": "40m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153743}
-{"loss": 0.40124375, "grad_norm": 5.75580681, "learning_rate": 5.1e-07, "token_acc": 0.87634748, "epoch": 0.51784555, "global_step/max_steps": "399/771", "percentage": "51.75%", "elapsed_time": "43m 16s", "remaining_time": "40m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15367}
-{"loss": 0.44244248, "grad_norm": 5.33096642, "learning_rate": 5.1e-07, "token_acc": 0.8576389, "epoch": 0.51914341, "global_step/max_steps": "400/771", "percentage": "51.88%", "elapsed_time": "43m 24s", "remaining_time": "40m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153609}
-{"loss": 0.46866047, "grad_norm": 5.54204826, "learning_rate": 5.1e-07, "token_acc": 0.84919727, "epoch": 0.52044127, "global_step/max_steps": "401/771", "percentage": "52.01%", "elapsed_time": "43m 31s", "remaining_time": "40m 9s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15354}
-{"loss": 0.46412796, "grad_norm": 5.65704165, "learning_rate": 5.1e-07, "token_acc": 0.8473618, "epoch": 0.52173913, "global_step/max_steps": "402/771", "percentage": "52.14%", "elapsed_time": "43m 38s", "remaining_time": "40m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153532}
-{"loss": 0.4060244, "grad_norm": 5.7866449, "learning_rate": 5e-07, "token_acc": 0.86713737, "epoch": 0.52303699, "global_step/max_steps": "403/771", "percentage": "52.27%", "elapsed_time": "43m 45s", "remaining_time": "39m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153481}
-{"loss": 0.34538829, "grad_norm": 5.28626172, "learning_rate": 5e-07, "token_acc": 0.88401049, "epoch": 0.52433485, "global_step/max_steps": "404/771", "percentage": "52.40%", "elapsed_time": "43m 52s", "remaining_time": "39m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153461}
-{"loss": 0.37452954, "grad_norm": 5.33797899, "learning_rate": 5e-07, "token_acc": 0.87430686, "epoch": 0.52563271, "global_step/max_steps": "405/771", "percentage": "52.53%", "elapsed_time": "43m 58s", "remaining_time": "39m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153476}
-{"loss": 0.41257256, "grad_norm": 6.03153796, "learning_rate": 5e-07, "token_acc": 0.86749852, "epoch": 0.52693056, "global_step/max_steps": "406/771", "percentage": "52.66%", "elapsed_time": "44m 6s", "remaining_time": "39m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153422}
-{"loss": 0.43425158, "grad_norm": 5.23702502, "learning_rate": 5e-07, "token_acc": 0.86383682, "epoch": 0.52822842, "global_step/max_steps": "407/771", "percentage": "52.79%", "elapsed_time": "44m 11s", "remaining_time": "39m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153489}
-{"loss": 0.49872547, "grad_norm": 5.58422398, "learning_rate": 4.9e-07, "token_acc": 0.83940774, "epoch": 0.52952628, "global_step/max_steps": "408/771", "percentage": "52.92%", "elapsed_time": "44m 19s", "remaining_time": "39m 25s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153438}
-{"loss": 0.36779624, "grad_norm": 4.83238154, "learning_rate": 4.9e-07, "token_acc": 0.87607759, "epoch": 0.53082414, "global_step/max_steps": "409/771", "percentage": "53.05%", "elapsed_time": "44m 26s", "remaining_time": "39m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153362}
-{"loss": 0.37974757, "grad_norm": 5.45593753, "learning_rate": 4.9e-07, "token_acc": 0.87321061, "epoch": 0.532122, "global_step/max_steps": "410/771", "percentage": "53.18%", "elapsed_time": "44m 32s", "remaining_time": "39m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153398}
-{"loss": 0.42936581, "grad_norm": 5.60980683, "learning_rate": 4.9e-07, "token_acc": 0.85646898, "epoch": 0.53341986, "global_step/max_steps": "411/771", "percentage": "53.31%", "elapsed_time": "44m 41s", "remaining_time": "39m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15326}
-{"loss": 0.45021755, "grad_norm": 5.54863409, "learning_rate": 4.8e-07, "token_acc": 0.85261947, "epoch": 0.53471772, "global_step/max_steps": "412/771", "percentage": "53.44%", "elapsed_time": "44m 48s", "remaining_time": "39m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153251}
-{"loss": 0.40274644, "grad_norm": 5.29606907, "learning_rate": 4.8e-07, "token_acc": 0.86035049, "epoch": 0.53601557, "global_step/max_steps": "413/771", "percentage": "53.57%", "elapsed_time": "44m 55s", "remaining_time": "38m 56s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153239}
-{"loss": 0.34368467, "grad_norm": 4.98863022, "learning_rate": 4.8e-07, "token_acc": 0.88553846, "epoch": 0.53731343, "global_step/max_steps": "414/771", "percentage": "53.70%", "elapsed_time": "45m 3s", "remaining_time": "38m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153139}
-{"loss": 0.37825975, "grad_norm": 5.44789511, "learning_rate": 4.8e-07, "token_acc": 0.87259454, "epoch": 0.53861129, "global_step/max_steps": "415/771", "percentage": "53.83%", "elapsed_time": "45m 8s", "remaining_time": "38m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153203}
-{"loss": 0.49236774, "grad_norm": 5.96604095, "learning_rate": 4.8e-07, "token_acc": 0.83152908, "epoch": 0.53990915, "global_step/max_steps": "416/771", "percentage": "53.96%", "elapsed_time": "45m 14s", "remaining_time": "38m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15323}
-{"loss": 0.45034707, "grad_norm": 6.06464648, "learning_rate": 4.7e-07, "token_acc": 0.85499316, "epoch": 0.54120701, "global_step/max_steps": "417/771", "percentage": "54.09%", "elapsed_time": "45m 21s", "remaining_time": "38m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153241}
-{"loss": 0.36756119, "grad_norm": 5.58285546, "learning_rate": 4.7e-07, "token_acc": 0.87992609, "epoch": 0.54250487, "global_step/max_steps": "418/771", "percentage": "54.22%", "elapsed_time": "45m 27s", "remaining_time": "38m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15326}
-{"loss": 0.36082929, "grad_norm": 5.51244351, "learning_rate": 4.7e-07, "token_acc": 0.87359548, "epoch": 0.54380273, "global_step/max_steps": "419/771", "percentage": "54.35%", "elapsed_time": "45m 33s", "remaining_time": "38m 16s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153297}
-{"loss": 0.47652721, "grad_norm": 5.36917332, "learning_rate": 4.7e-07, "token_acc": 0.83720928, "epoch": 0.54510058, "global_step/max_steps": "420/771", "percentage": "54.47%", "elapsed_time": "45m 38s", "remaining_time": "38m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153388}
-{"loss": 0.39458361, "grad_norm": 6.00592074, "learning_rate": 4.7e-07, "token_acc": 0.86301368, "epoch": 0.54639844, "global_step/max_steps": "421/771", "percentage": "54.60%", "elapsed_time": "45m 44s", "remaining_time": "38m 1s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153379}
-{"loss": 0.42663276, "grad_norm": 5.65645075, "learning_rate": 4.6e-07, "token_acc": 0.86047941, "epoch": 0.5476963, "global_step/max_steps": "422/771", "percentage": "54.73%", "elapsed_time": "45m 50s", "remaining_time": "37m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153399}
-{"loss": 0.42836776, "grad_norm": 5.2540262, "learning_rate": 4.6e-07, "token_acc": 0.85626054, "epoch": 0.54899416, "global_step/max_steps": "423/771", "percentage": "54.86%", "elapsed_time": "45m 57s", "remaining_time": "37m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153383}
-{"loss": 0.33497357, "grad_norm": 4.94939906, "learning_rate": 4.6e-07, "token_acc": 0.88593847, "epoch": 0.55029202, "global_step/max_steps": "424/771", "percentage": "54.99%", "elapsed_time": "46m 4s", "remaining_time": "37m 42s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153383}
-{"loss": 0.37583375, "grad_norm": 5.42729862, "learning_rate": 4.6e-07, "token_acc": 0.87588847, "epoch": 0.55158988, "global_step/max_steps": "425/771", "percentage": "55.12%", "elapsed_time": "46m 12s", "remaining_time": "37m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153293}
-{"loss": 0.48114559, "grad_norm": 5.51379421, "learning_rate": 4.5e-07, "token_acc": 0.85277134, "epoch": 0.55288774, "global_step/max_steps": "426/771", "percentage": "55.25%", "elapsed_time": "46m 18s", "remaining_time": "37m 29s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153345}
-{"loss": 0.39777535, "grad_norm": 5.52655683, "learning_rate": 4.5e-07, "token_acc": 0.86569989, "epoch": 0.55418559, "global_step/max_steps": "427/771", "percentage": "55.38%", "elapsed_time": "46m 24s", "remaining_time": "37m 22s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15337}
-{"loss": 0.50040895, "grad_norm": 5.68380904, "learning_rate": 4.5e-07, "token_acc": 0.83741164, "epoch": 0.55548345, "global_step/max_steps": "428/771", "percentage": "55.51%", "elapsed_time": "46m 29s", "remaining_time": "37m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153419}
-{"loss": 0.4243409, "grad_norm": 5.72831028, "learning_rate": 4.5e-07, "token_acc": 0.86463416, "epoch": 0.55678131, "global_step/max_steps": "429/771", "percentage": "55.64%", "elapsed_time": "46m 35s", "remaining_time": "37m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15348}
-{"loss": 0.40236318, "grad_norm": 5.36791867, "learning_rate": 4.5e-07, "token_acc": 0.85876721, "epoch": 0.55807917, "global_step/max_steps": "430/771", "percentage": "55.77%", "elapsed_time": "46m 40s", "remaining_time": "37m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153536}
-{"loss": 0.3804667, "grad_norm": 5.35418958, "learning_rate": 4.4e-07, "token_acc": 0.86355138, "epoch": 0.55937703, "global_step/max_steps": "431/771", "percentage": "55.90%", "elapsed_time": "46m 45s", "remaining_time": "36m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153602}
-{"loss": 0.44874087, "grad_norm": 5.93829343, "learning_rate": 4.4e-07, "token_acc": 0.86461127, "epoch": 0.56067489, "global_step/max_steps": "432/771", "percentage": "56.03%", "elapsed_time": "46m 51s", "remaining_time": "36m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153667}
-{"loss": 0.45872658, "grad_norm": 6.45779724, "learning_rate": 4.4e-07, "token_acc": 0.84475923, "epoch": 0.56197274, "global_step/max_steps": "433/771", "percentage": "56.16%", "elapsed_time": "46m 58s", "remaining_time": "36m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153603}
-{"loss": 0.40398374, "grad_norm": 5.74452976, "learning_rate": 4.4e-07, "token_acc": 0.86710966, "epoch": 0.5632706, "global_step/max_steps": "434/771", "percentage": "56.29%", "elapsed_time": "47m 5s", "remaining_time": "36m 34s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153593}
-{"loss": 0.52382773, "grad_norm": 6.06829532, "learning_rate": 4.4e-07, "token_acc": 0.83294529, "epoch": 0.56456846, "global_step/max_steps": "435/771", "percentage": "56.42%", "elapsed_time": "47m 12s", "remaining_time": "36m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153561}
-{"loss": 0.4683857, "grad_norm": 6.48533854, "learning_rate": 4.3e-07, "token_acc": 0.85056043, "epoch": 0.56586632, "global_step/max_steps": "436/771", "percentage": "56.55%", "elapsed_time": "47m 19s", "remaining_time": "36m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153535}
-{"loss": 0.41096318, "grad_norm": 6.46188609, "learning_rate": 4.3e-07, "token_acc": 0.86628735, "epoch": 0.56716418, "global_step/max_steps": "437/771", "percentage": "56.68%", "elapsed_time": "47m 26s", "remaining_time": "36m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153538}
-{"loss": 0.417059, "grad_norm": 5.98974093, "learning_rate": 4.3e-07, "token_acc": 0.8506363, "epoch": 0.56846204, "global_step/max_steps": "438/771", "percentage": "56.81%", "elapsed_time": "47m 31s", "remaining_time": "36m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153613}
-{"loss": 0.37209222, "grad_norm": 5.43312863, "learning_rate": 4.3e-07, "token_acc": 0.87374634, "epoch": 0.5697599, "global_step/max_steps": "439/771", "percentage": "56.94%", "elapsed_time": "47m 37s", "remaining_time": "36m 1s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153609}
-{"loss": 0.43122029, "grad_norm": 5.4063544, "learning_rate": 4.3e-07, "token_acc": 0.85597825, "epoch": 0.57105775, "global_step/max_steps": "440/771", "percentage": "57.07%", "elapsed_time": "47m 45s", "remaining_time": "35m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153555}
-{"loss": 0.38187638, "grad_norm": 4.93813733, "learning_rate": 4.2e-07, "token_acc": 0.87646371, "epoch": 0.57235561, "global_step/max_steps": "441/771", "percentage": "57.20%", "elapsed_time": "47m 51s", "remaining_time": "35m 49s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15356}
-{"loss": 0.37903887, "grad_norm": 5.53016078, "learning_rate": 4.2e-07, "token_acc": 0.8674776, "epoch": 0.57365347, "global_step/max_steps": "442/771", "percentage": "57.33%", "elapsed_time": "47m 59s", "remaining_time": "35m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153501}
-{"loss": 0.39355654, "grad_norm": 5.33943236, "learning_rate": 4.2e-07, "token_acc": 0.873577, "epoch": 0.57495133, "global_step/max_steps": "443/771", "percentage": "57.46%", "elapsed_time": "48m 5s", "remaining_time": "35m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153537}
-{"loss": 0.43396103, "grad_norm": 6.29267895, "learning_rate": 4.2e-07, "token_acc": 0.84450549, "epoch": 0.57624919, "global_step/max_steps": "444/771", "percentage": "57.59%", "elapsed_time": "48m 14s", "remaining_time": "35m 32s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153375}
-{"loss": 0.40388906, "grad_norm": 5.87816148, "learning_rate": 4.1e-07, "token_acc": 0.85974753, "epoch": 0.57754705, "global_step/max_steps": "445/771", "percentage": "57.72%", "elapsed_time": "48m 21s", "remaining_time": "35m 25s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153374}
-{"loss": 0.42374328, "grad_norm": 6.24914999, "learning_rate": 4.1e-07, "token_acc": 0.85969555, "epoch": 0.57884491, "global_step/max_steps": "446/771", "percentage": "57.85%", "elapsed_time": "48m 27s", "remaining_time": "35m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153379}
-{"loss": 0.40075296, "grad_norm": 5.93374987, "learning_rate": 4.1e-07, "token_acc": 0.86913419, "epoch": 0.58014276, "global_step/max_steps": "447/771", "percentage": "57.98%", "elapsed_time": "48m 34s", "remaining_time": "35m 12s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153372}
-{"loss": 0.35220593, "grad_norm": 5.33096603, "learning_rate": 4.1e-07, "token_acc": 0.87630206, "epoch": 0.58144062, "global_step/max_steps": "448/771", "percentage": "58.11%", "elapsed_time": "48m 40s", "remaining_time": "35m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153379}
-{"loss": 0.41250658, "grad_norm": 5.2743939, "learning_rate": 4.1e-07, "token_acc": 0.86507934, "epoch": 0.58273848, "global_step/max_steps": "449/771", "percentage": "58.24%", "elapsed_time": "48m 46s", "remaining_time": "34m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153408}
-{"loss": 0.41853511, "grad_norm": 5.05662129, "learning_rate": 4e-07, "token_acc": 0.85902852, "epoch": 0.58403634, "global_step/max_steps": "450/771", "percentage": "58.37%", "elapsed_time": "48m 52s", "remaining_time": "34m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153435}
-{"loss": 0.38448125, "grad_norm": 5.33186373, "learning_rate": 4e-07, "token_acc": 0.86500001, "epoch": 0.5853342, "global_step/max_steps": "451/771", "percentage": "58.50%", "elapsed_time": "48m 58s", "remaining_time": "34m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153471}
-{"loss": 0.47379327, "grad_norm": 5.55714813, "learning_rate": 4e-07, "token_acc": 0.85139859, "epoch": 0.58663206, "global_step/max_steps": "452/771", "percentage": "58.63%", "elapsed_time": "49m 3s", "remaining_time": "34m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153536}
-{"loss": 0.40007472, "grad_norm": 5.56398197, "learning_rate": 4e-07, "token_acc": 0.86510068, "epoch": 0.58792992, "global_step/max_steps": "453/771", "percentage": "58.75%", "elapsed_time": "49m 11s", "remaining_time": "34m 32s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153458}
-{"loss": 0.37242016, "grad_norm": 5.60811459, "learning_rate": 4e-07, "token_acc": 0.87820071, "epoch": 0.58922777, "global_step/max_steps": "454/771", "percentage": "58.88%", "elapsed_time": "49m 17s", "remaining_time": "34m 25s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153507}
-{"loss": 0.46283168, "grad_norm": 5.6687379, "learning_rate": 3.9e-07, "token_acc": 0.851601, "epoch": 0.59052563, "global_step/max_steps": "455/771", "percentage": "59.01%", "elapsed_time": "49m 23s", "remaining_time": "34m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153545}
-{"loss": 0.40314665, "grad_norm": 5.82588501, "learning_rate": 3.9e-07, "token_acc": 0.8693108, "epoch": 0.59182349, "global_step/max_steps": "456/771", "percentage": "59.14%", "elapsed_time": "49m 28s", "remaining_time": "34m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153605}
-{"loss": 0.35378683, "grad_norm": 6.14033578, "learning_rate": 3.9e-07, "token_acc": 0.88176197, "epoch": 0.59312135, "global_step/max_steps": "457/771", "percentage": "59.27%", "elapsed_time": "49m 34s", "remaining_time": "34m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153633}
-{"loss": 0.44362396, "grad_norm": 5.18216548, "learning_rate": 3.9e-07, "token_acc": 0.85806829, "epoch": 0.59441921, "global_step/max_steps": "458/771", "percentage": "59.40%", "elapsed_time": "49m 41s", "remaining_time": "33m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153611}
-{"loss": 0.30071795, "grad_norm": 4.96592523, "learning_rate": 3.9e-07, "token_acc": 0.8925795, "epoch": 0.59571707, "global_step/max_steps": "459/771", "percentage": "59.53%", "elapsed_time": "49m 46s", "remaining_time": "33m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153677}
-{"loss": 0.43508229, "grad_norm": 5.82707424, "learning_rate": 3.8e-07, "token_acc": 0.85182768, "epoch": 0.59701493, "global_step/max_steps": "460/771", "percentage": "59.66%", "elapsed_time": "49m 55s", "remaining_time": "33m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153549}
-{"loss": 0.44888115, "grad_norm": 5.71581763, "learning_rate": 3.8e-07, "token_acc": 0.8485623, "epoch": 0.59831278, "global_step/max_steps": "461/771", "percentage": "59.79%", "elapsed_time": "50m 1s", "remaining_time": "33m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153598}
-{"loss": 0.34136781, "grad_norm": 5.21734667, "learning_rate": 3.8e-07, "token_acc": 0.88132298, "epoch": 0.59961064, "global_step/max_steps": "462/771", "percentage": "59.92%", "elapsed_time": "50m 6s", "remaining_time": "33m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15367}
-{"loss": 0.43322438, "grad_norm": 5.60743682, "learning_rate": 3.8e-07, "token_acc": 0.85515994, "epoch": 0.6009085, "global_step/max_steps": "463/771", "percentage": "60.05%", "elapsed_time": "50m 12s", "remaining_time": "33m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153711}
-{"loss": 0.39435232, "grad_norm": 5.34361677, "learning_rate": 3.7e-07, "token_acc": 0.86315787, "epoch": 0.60220636, "global_step/max_steps": "464/771", "percentage": "60.18%", "elapsed_time": "50m 20s", "remaining_time": "33m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15362}
-{"loss": 0.40278876, "grad_norm": 5.33528014, "learning_rate": 3.7e-07, "token_acc": 0.87034947, "epoch": 0.60350422, "global_step/max_steps": "465/771", "percentage": "60.31%", "elapsed_time": "50m 28s", "remaining_time": "33m 12s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153563}
-{"loss": 0.48472214, "grad_norm": 6.18021401, "learning_rate": 3.7e-07, "token_acc": 0.8340081, "epoch": 0.60480208, "global_step/max_steps": "466/771", "percentage": "60.44%", "elapsed_time": "50m 34s", "remaining_time": "33m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153575}
-{"loss": 0.45174283, "grad_norm": 5.73264702, "learning_rate": 3.7e-07, "token_acc": 0.85636032, "epoch": 0.60609994, "global_step/max_steps": "467/771", "percentage": "60.57%", "elapsed_time": "50m 40s", "remaining_time": "32m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153587}
-{"loss": 0.49142057, "grad_norm": 5.6479706, "learning_rate": 3.7e-07, "token_acc": 0.84663987, "epoch": 0.60739779, "global_step/max_steps": "468/771", "percentage": "60.70%", "elapsed_time": "50m 45s", "remaining_time": "32m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153659}
-{"loss": 0.43576011, "grad_norm": 5.36995682, "learning_rate": 3.6e-07, "token_acc": 0.85989493, "epoch": 0.60869565, "global_step/max_steps": "469/771", "percentage": "60.83%", "elapsed_time": "50m 53s", "remaining_time": "32m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153576}
-{"loss": 0.40091276, "grad_norm": 5.75481699, "learning_rate": 3.6e-07, "token_acc": 0.86432827, "epoch": 0.60999351, "global_step/max_steps": "470/771", "percentage": "60.96%", "elapsed_time": "51m 0s", "remaining_time": "32m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153574}
-{"loss": 0.4985202, "grad_norm": 6.12160992, "learning_rate": 3.6e-07, "token_acc": 0.83300066, "epoch": 0.61129137, "global_step/max_steps": "471/771", "percentage": "61.09%", "elapsed_time": "51m 6s", "remaining_time": "32m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153577}
-{"loss": 0.46513027, "grad_norm": 5.48696696, "learning_rate": 3.6e-07, "token_acc": 0.8449198, "epoch": 0.61258923, "global_step/max_steps": "472/771", "percentage": "61.22%", "elapsed_time": "51m 13s", "remaining_time": "32m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153563}
-{"loss": 0.42577523, "grad_norm": 5.69477966, "learning_rate": 3.6e-07, "token_acc": 0.85667962, "epoch": 0.61388709, "global_step/max_steps": "473/771", "percentage": "61.35%", "elapsed_time": "51m 18s", "remaining_time": "32m 19s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153642}
-{"loss": 0.37459594, "grad_norm": 5.49294362, "learning_rate": 3.5e-07, "token_acc": 0.87047994, "epoch": 0.61518494, "global_step/max_steps": "474/771", "percentage": "61.48%", "elapsed_time": "51m 26s", "remaining_time": "32m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153571}
-{"loss": 0.42164433, "grad_norm": 5.55179728, "learning_rate": 3.5e-07, "token_acc": 0.85113484, "epoch": 0.6164828, "global_step/max_steps": "475/771", "percentage": "61.61%", "elapsed_time": "51m 32s", "remaining_time": "32m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15358}
-{"loss": 0.32013634, "grad_norm": 5.14333111, "learning_rate": 3.5e-07, "token_acc": 0.88266069, "epoch": 0.61778066, "global_step/max_steps": "476/771", "percentage": "61.74%", "elapsed_time": "51m 37s", "remaining_time": "31m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153648}
-{"loss": 0.47686321, "grad_norm": 5.74220335, "learning_rate": 3.5e-07, "token_acc": 0.8369565, "epoch": 0.61907852, "global_step/max_steps": "477/771", "percentage": "61.87%", "elapsed_time": "51m 46s", "remaining_time": "31m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153555}
-{"loss": 0.39822325, "grad_norm": 5.99656197, "learning_rate": 3.5e-07, "token_acc": 0.87129426, "epoch": 0.62037638, "global_step/max_steps": "478/771", "percentage": "62.00%", "elapsed_time": "51m 51s", "remaining_time": "31m 47s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153643}
-{"loss": 0.35157466, "grad_norm": 5.26984962, "learning_rate": 3.4e-07, "token_acc": 0.87451488, "epoch": 0.62167424, "global_step/max_steps": "479/771", "percentage": "62.13%", "elapsed_time": "51m 58s", "remaining_time": "31m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15358}
-{"loss": 0.37832731, "grad_norm": 5.28772458, "learning_rate": 3.4e-07, "token_acc": 0.87128711, "epoch": 0.6229721, "global_step/max_steps": "480/771", "percentage": "62.26%", "elapsed_time": "52m 7s", "remaining_time": "31m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153466}
-{"loss": 0.31958073, "grad_norm": 4.55055506, "learning_rate": 3.4e-07, "token_acc": 0.89392263, "epoch": 0.62426995, "global_step/max_steps": "481/771", "percentage": "62.39%", "elapsed_time": "52m 15s", "remaining_time": "31m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153411}
-{"loss": 0.39045238, "grad_norm": 5.98999364, "learning_rate": 3.4e-07, "token_acc": 0.87323946, "epoch": 0.62556781, "global_step/max_steps": "482/771", "percentage": "62.52%", "elapsed_time": "52m 20s", "remaining_time": "31m 22s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153487}
-{"loss": 0.36514044, "grad_norm": 5.34487892, "learning_rate": 3.4e-07, "token_acc": 0.873317, "epoch": 0.62686567, "global_step/max_steps": "483/771", "percentage": "62.65%", "elapsed_time": "52m 25s", "remaining_time": "31m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15354}
-{"loss": 0.43065551, "grad_norm": 5.38552144, "learning_rate": 3.3e-07, "token_acc": 0.85892349, "epoch": 0.62816353, "global_step/max_steps": "484/771", "percentage": "62.78%", "elapsed_time": "52m 31s", "remaining_time": "31m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153582}
-{"loss": 0.44807842, "grad_norm": 5.66811229, "learning_rate": 3.3e-07, "token_acc": 0.85608858, "epoch": 0.62946139, "global_step/max_steps": "485/771", "percentage": "62.91%", "elapsed_time": "52m 39s", "remaining_time": "31m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153497}
-{"loss": 0.41353688, "grad_norm": 5.83986213, "learning_rate": 3.3e-07, "token_acc": 0.86490065, "epoch": 0.63075925, "global_step/max_steps": "486/771", "percentage": "63.04%", "elapsed_time": "52m 46s", "remaining_time": "30m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153469}
-{"loss": 0.40192187, "grad_norm": 5.23923294, "learning_rate": 3.3e-07, "token_acc": 0.86158192, "epoch": 0.63205711, "global_step/max_steps": "487/771", "percentage": "63.16%", "elapsed_time": "52m 53s", "remaining_time": "30m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153473}
-{"loss": 0.4136658, "grad_norm": 5.3844093, "learning_rate": 3.3e-07, "token_acc": 0.87038088, "epoch": 0.63335496, "global_step/max_steps": "488/771", "percentage": "63.29%", "elapsed_time": "53m 0s", "remaining_time": "30m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153416}
-{"loss": 0.36867872, "grad_norm": 5.58658702, "learning_rate": 3.2e-07, "token_acc": 0.86923075, "epoch": 0.63465282, "global_step/max_steps": "489/771", "percentage": "63.42%", "elapsed_time": "53m 7s", "remaining_time": "30m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153394}
-{"loss": 0.37562108, "grad_norm": 5.30751689, "learning_rate": 3.2e-07, "token_acc": 0.88174808, "epoch": 0.63595068, "global_step/max_steps": "490/771", "percentage": "63.55%", "elapsed_time": "53m 13s", "remaining_time": "30m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153429}
-{"loss": 0.48851666, "grad_norm": 5.45166364, "learning_rate": 3.2e-07, "token_acc": 0.842246, "epoch": 0.63724854, "global_step/max_steps": "491/771", "percentage": "63.68%", "elapsed_time": "53m 18s", "remaining_time": "30m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153501}
-{"loss": 0.46701986, "grad_norm": 5.72716567, "learning_rate": 3.2e-07, "token_acc": 0.85028249, "epoch": 0.6385464, "global_step/max_steps": "492/771", "percentage": "63.81%", "elapsed_time": "53m 25s", "remaining_time": "30m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153494}
-{"loss": 0.42794788, "grad_norm": 5.29611463, "learning_rate": 3.2e-07, "token_acc": 0.85900342, "epoch": 0.63984426, "global_step/max_steps": "493/771", "percentage": "63.94%", "elapsed_time": "53m 31s", "remaining_time": "30m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153498}
-{"loss": 0.34262812, "grad_norm": 5.49318068, "learning_rate": 3.1e-07, "token_acc": 0.8744247, "epoch": 0.64114212, "global_step/max_steps": "494/771", "percentage": "64.07%", "elapsed_time": "53m 36s", "remaining_time": "30m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153577}
-{"loss": 0.44413716, "grad_norm": 5.75672744, "learning_rate": 3.1e-07, "token_acc": 0.851735, "epoch": 0.64243997, "global_step/max_steps": "495/771", "percentage": "64.20%", "elapsed_time": "53m 42s", "remaining_time": "29m 56s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153628}
-{"loss": 0.45089951, "grad_norm": 6.66972203, "learning_rate": 3.1e-07, "token_acc": 0.84835482, "epoch": 0.64373783, "global_step/max_steps": "496/771", "percentage": "64.33%", "elapsed_time": "53m 48s", "remaining_time": "29m 49s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153639}
-{"loss": 0.41639927, "grad_norm": 5.83496327, "learning_rate": 3.1e-07, "token_acc": 0.85758704, "epoch": 0.64503569, "global_step/max_steps": "497/771", "percentage": "64.46%", "elapsed_time": "53m 54s", "remaining_time": "29m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153663}
-{"loss": 0.39561003, "grad_norm": 5.06806186, "learning_rate": 3.1e-07, "token_acc": 0.87084258, "epoch": 0.64633355, "global_step/max_steps": "498/771", "percentage": "64.59%", "elapsed_time": "53m 59s", "remaining_time": "29m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153718}
-{"loss": 0.39297402, "grad_norm": 5.49610043, "learning_rate": 3e-07, "token_acc": 0.86331362, "epoch": 0.64763141, "global_step/max_steps": "499/771", "percentage": "64.72%", "elapsed_time": "54m 6s", "remaining_time": "29m 29s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153683}
-{"loss": 0.50713152, "grad_norm": 5.48717994, "learning_rate": 3e-07, "token_acc": 0.83527625, "epoch": 0.64892927, "global_step/max_steps": "500/771", "percentage": "64.85%", "elapsed_time": "54m 14s", "remaining_time": "29m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153629}
-{"loss": 0.4326666, "grad_norm": 5.57896044, "learning_rate": 3e-07, "token_acc": 0.85660845, "epoch": 0.65022713, "global_step/max_steps": "501/771", "percentage": "64.98%", "elapsed_time": "54m 21s", "remaining_time": "29m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153608}
-{"loss": 0.40673399, "grad_norm": 5.54346438, "learning_rate": 3e-07, "token_acc": 0.85311872, "epoch": 0.65152498, "global_step/max_steps": "502/771", "percentage": "65.11%", "elapsed_time": "54m 26s", "remaining_time": "29m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153679}
-{"loss": 0.46512714, "grad_norm": 5.40602763, "learning_rate": 3e-07, "token_acc": 0.84761906, "epoch": 0.65282284, "global_step/max_steps": "503/771", "percentage": "65.24%", "elapsed_time": "54m 34s", "remaining_time": "29m 4s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153623}
-{"loss": 0.38000107, "grad_norm": 5.23814586, "learning_rate": 2.9e-07, "token_acc": 0.86822158, "epoch": 0.6541207, "global_step/max_steps": "504/771", "percentage": "65.37%", "elapsed_time": "54m 41s", "remaining_time": "28m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153569}
-{"loss": 0.38537568, "grad_norm": 5.7731586, "learning_rate": 2.9e-07, "token_acc": 0.8631857, "epoch": 0.65541856, "global_step/max_steps": "505/771", "percentage": "65.50%", "elapsed_time": "54m 47s", "remaining_time": "28m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153619}
-{"loss": 0.46276146, "grad_norm": 5.30524061, "learning_rate": 2.9e-07, "token_acc": 0.84186316, "epoch": 0.65671642, "global_step/max_steps": "506/771", "percentage": "65.63%", "elapsed_time": "54m 52s", "remaining_time": "28m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153681}
-{"loss": 0.42920244, "grad_norm": 5.59870558, "learning_rate": 2.9e-07, "token_acc": 0.85189795, "epoch": 0.65801428, "global_step/max_steps": "507/771", "percentage": "65.76%", "elapsed_time": "54m 58s", "remaining_time": "28m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153708}
-{"loss": 0.35401845, "grad_norm": 5.07247413, "learning_rate": 2.9e-07, "token_acc": 0.87948877, "epoch": 0.65931213, "global_step/max_steps": "508/771", "percentage": "65.89%", "elapsed_time": "55m 3s", "remaining_time": "28m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153781}
-{"loss": 0.42663509, "grad_norm": 5.74912647, "learning_rate": 2.8e-07, "token_acc": 0.85558254, "epoch": 0.66060999, "global_step/max_steps": "509/771", "percentage": "66.02%", "elapsed_time": "55m 10s", "remaining_time": "28m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153772}
-{"loss": 0.33198124, "grad_norm": 5.18757461, "learning_rate": 2.8e-07, "token_acc": 0.88821548, "epoch": 0.66190785, "global_step/max_steps": "510/771", "percentage": "66.15%", "elapsed_time": "55m 17s", "remaining_time": "28m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153719}
-{"loss": 0.3527011, "grad_norm": 5.56722517, "learning_rate": 2.8e-07, "token_acc": 0.88095236, "epoch": 0.66320571, "global_step/max_steps": "511/771", "percentage": "66.28%", "elapsed_time": "55m 22s", "remaining_time": "28m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153783}
-{"loss": 0.34790382, "grad_norm": 5.26703448, "learning_rate": 2.8e-07, "token_acc": 0.88205773, "epoch": 0.66450357, "global_step/max_steps": "512/771", "percentage": "66.41%", "elapsed_time": "55m 29s", "remaining_time": "28m 4s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153793}
-{"loss": 0.4733054, "grad_norm": 5.90593748, "learning_rate": 2.8e-07, "token_acc": 0.84272301, "epoch": 0.66580143, "global_step/max_steps": "513/771", "percentage": "66.54%", "elapsed_time": "55m 36s", "remaining_time": "27m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153753}
-{"loss": 0.39557812, "grad_norm": 5.317763, "learning_rate": 2.7e-07, "token_acc": 0.86927307, "epoch": 0.66709929, "global_step/max_steps": "514/771", "percentage": "66.67%", "elapsed_time": "55m 43s", "remaining_time": "27m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153742}
-{"loss": 0.46913153, "grad_norm": 5.09476347, "learning_rate": 2.7e-07, "token_acc": 0.84603423, "epoch": 0.66839714, "global_step/max_steps": "515/771", "percentage": "66.80%", "elapsed_time": "55m 51s", "remaining_time": "27m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153667}
-{"loss": 0.42214501, "grad_norm": 5.86943813, "learning_rate": 2.7e-07, "token_acc": 0.86654019, "epoch": 0.669695, "global_step/max_steps": "516/771", "percentage": "66.93%", "elapsed_time": "55m 57s", "remaining_time": "27m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153686}
-{"loss": 0.44172826, "grad_norm": 6.88773958, "learning_rate": 2.7e-07, "token_acc": 0.85677588, "epoch": 0.67099286, "global_step/max_steps": "517/771", "percentage": "67.06%", "elapsed_time": "56m 5s", "remaining_time": "27m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153625}
-{"loss": 0.47986943, "grad_norm": 6.14098978, "learning_rate": 2.7e-07, "token_acc": 0.85299683, "epoch": 0.67229072, "global_step/max_steps": "518/771", "percentage": "67.19%", "elapsed_time": "56m 10s", "remaining_time": "27m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153688}
-{"loss": 0.36660147, "grad_norm": 5.44350032, "learning_rate": 2.7e-07, "token_acc": 0.8736617, "epoch": 0.67358858, "global_step/max_steps": "519/771", "percentage": "67.32%", "elapsed_time": "56m 17s", "remaining_time": "27m 19s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153685}
-{"loss": 0.3727743, "grad_norm": 5.42462873, "learning_rate": 2.6e-07, "token_acc": 0.87492102, "epoch": 0.67488644, "global_step/max_steps": "520/771", "percentage": "67.44%", "elapsed_time": "56m 24s", "remaining_time": "27m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153634}
-{"loss": 0.3585164, "grad_norm": 5.58410297, "learning_rate": 2.6e-07, "token_acc": 0.88366014, "epoch": 0.6761843, "global_step/max_steps": "521/771", "percentage": "67.57%", "elapsed_time": "56m 30s", "remaining_time": "27m 6s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153674}
-{"loss": 0.30290133, "grad_norm": 5.85052603, "learning_rate": 2.6e-07, "token_acc": 0.89141601, "epoch": 0.67748215, "global_step/max_steps": "522/771", "percentage": "67.70%", "elapsed_time": "56m 35s", "remaining_time": "26m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153745}
-{"loss": 0.45059597, "grad_norm": 5.9688555, "learning_rate": 2.6e-07, "token_acc": 0.84281152, "epoch": 0.67878001, "global_step/max_steps": "523/771", "percentage": "67.83%", "elapsed_time": "56m 41s", "remaining_time": "26m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153762}
-{"loss": 0.40693858, "grad_norm": 6.70483847, "learning_rate": 2.6e-07, "token_acc": 0.86781609, "epoch": 0.68007787, "global_step/max_steps": "524/771", "percentage": "67.96%", "elapsed_time": "56m 46s", "remaining_time": "26m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153818}
-{"loss": 0.46168745, "grad_norm": 5.28002341, "learning_rate": 2.5e-07, "token_acc": 0.85526317, "epoch": 0.68137573, "global_step/max_steps": "525/771", "percentage": "68.09%", "elapsed_time": "56m 53s", "remaining_time": "26m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153819}
-{"loss": 0.40373749, "grad_norm": 5.21900336, "learning_rate": 2.5e-07, "token_acc": 0.86852366, "epoch": 0.68267359, "global_step/max_steps": "526/771", "percentage": "68.22%", "elapsed_time": "56m 59s", "remaining_time": "26m 32s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153816}
-{"loss": 0.5217467, "grad_norm": 6.08462047, "learning_rate": 2.5e-07, "token_acc": 0.83736002, "epoch": 0.68397145, "global_step/max_steps": "527/771", "percentage": "68.35%", "elapsed_time": "57m 6s", "remaining_time": "26m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153813}
-{"loss": 0.38461941, "grad_norm": 5.55260746, "learning_rate": 2.5e-07, "token_acc": 0.8734588, "epoch": 0.68526931, "global_step/max_steps": "528/771", "percentage": "68.48%", "elapsed_time": "57m 13s", "remaining_time": "26m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153795}
-{"loss": 0.42030269, "grad_norm": 5.53324738, "learning_rate": 2.5e-07, "token_acc": 0.84688997, "epoch": 0.68656716, "global_step/max_steps": "529/771", "percentage": "68.61%", "elapsed_time": "57m 19s", "remaining_time": "26m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153803}
-{"loss": 0.50731462, "grad_norm": 5.77291544, "learning_rate": 2.4e-07, "token_acc": 0.84288353, "epoch": 0.68786502, "global_step/max_steps": "530/771", "percentage": "68.74%", "elapsed_time": "57m 25s", "remaining_time": "26m 6s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153823}
-{"loss": 0.46679598, "grad_norm": 5.6332024, "learning_rate": 2.4e-07, "token_acc": 0.84926051, "epoch": 0.68916288, "global_step/max_steps": "531/771", "percentage": "68.87%", "elapsed_time": "57m 31s", "remaining_time": "26m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153846}
-{"loss": 0.44154429, "grad_norm": 5.3953069, "learning_rate": 2.4e-07, "token_acc": 0.86027235, "epoch": 0.69046074, "global_step/max_steps": "532/771", "percentage": "69.00%", "elapsed_time": "57m 37s", "remaining_time": "25m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153867}
-{"loss": 0.41486531, "grad_norm": 5.66814364, "learning_rate": 2.4e-07, "token_acc": 0.86521739, "epoch": 0.6917586, "global_step/max_steps": "533/771", "percentage": "69.13%", "elapsed_time": "57m 43s", "remaining_time": "25m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153904}
-{"loss": 0.40691966, "grad_norm": 5.92057704, "learning_rate": 2.4e-07, "token_acc": 0.86119401, "epoch": 0.69305646, "global_step/max_steps": "534/771", "percentage": "69.26%", "elapsed_time": "57m 49s", "remaining_time": "25m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15393}
-{"loss": 0.38091707, "grad_norm": 5.27943006, "learning_rate": 2.4e-07, "token_acc": 0.87986463, "epoch": 0.69435432, "global_step/max_steps": "535/771", "percentage": "69.39%", "elapsed_time": "57m 56s", "remaining_time": "25m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153907}
-{"loss": 0.46103594, "grad_norm": 6.76049084, "learning_rate": 2.3e-07, "token_acc": 0.8502962, "epoch": 0.69565217, "global_step/max_steps": "536/771", "percentage": "69.52%", "elapsed_time": "58m 1s", "remaining_time": "25m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153937}
-{"loss": 0.42655858, "grad_norm": 5.44242042, "learning_rate": 2.3e-07, "token_acc": 0.85953379, "epoch": 0.69695003, "global_step/max_steps": "537/771", "percentage": "69.65%", "elapsed_time": "58m 10s", "remaining_time": "25m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153862}
-{"loss": 0.37581873, "grad_norm": 5.21208926, "learning_rate": 2.3e-07, "token_acc": 0.87923598, "epoch": 0.69824789, "global_step/max_steps": "538/771", "percentage": "69.78%", "elapsed_time": "58m 17s", "remaining_time": "25m 14s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153832}
-{"loss": 0.43702146, "grad_norm": 5.71101719, "learning_rate": 2.3e-07, "token_acc": 0.85878789, "epoch": 0.69954575, "global_step/max_steps": "539/771", "percentage": "69.91%", "elapsed_time": "58m 24s", "remaining_time": "25m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153814}
-{"loss": 0.40353534, "grad_norm": 5.3570341, "learning_rate": 2.3e-07, "token_acc": 0.86936641, "epoch": 0.70084361, "global_step/max_steps": "540/771", "percentage": "70.04%", "elapsed_time": "58m 30s", "remaining_time": "25m 1s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153805}
-{"loss": 0.46271053, "grad_norm": 5.36673826, "learning_rate": 2.2e-07, "token_acc": 0.85447341, "epoch": 0.70214147, "global_step/max_steps": "541/771", "percentage": "70.17%", "elapsed_time": "58m 38s", "remaining_time": "24m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153755}
-{"loss": 0.37144285, "grad_norm": 5.96447903, "learning_rate": 2.2e-07, "token_acc": 0.86975092, "epoch": 0.70343933, "global_step/max_steps": "542/771", "percentage": "70.30%", "elapsed_time": "58m 44s", "remaining_time": "24m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153801}
-{"loss": 0.50812507, "grad_norm": 5.67510422, "learning_rate": 2.2e-07, "token_acc": 0.83479691, "epoch": 0.70473718, "global_step/max_steps": "543/771", "percentage": "70.43%", "elapsed_time": "58m 51s", "remaining_time": "24m 42s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153772}
-{"loss": 0.40557224, "grad_norm": 5.59882464, "learning_rate": 2.2e-07, "token_acc": 0.86587769, "epoch": 0.70603504, "global_step/max_steps": "544/771", "percentage": "70.56%", "elapsed_time": "58m 57s", "remaining_time": "24m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153764}
-{"loss": 0.35020965, "grad_norm": 5.61281976, "learning_rate": 2.2e-07, "token_acc": 0.88018137, "epoch": 0.7073329, "global_step/max_steps": "545/771", "percentage": "70.69%", "elapsed_time": "59m 4s", "remaining_time": "24m 29s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153768}
-{"loss": 0.39193356, "grad_norm": 6.57522869, "learning_rate": 2.2e-07, "token_acc": 0.8740741, "epoch": 0.70863076, "global_step/max_steps": "546/771", "percentage": "70.82%", "elapsed_time": "59m 10s", "remaining_time": "24m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15378}
-{"loss": 0.43753293, "grad_norm": 6.04983002, "learning_rate": 2.1e-07, "token_acc": 0.85378259, "epoch": 0.70992862, "global_step/max_steps": "547/771", "percentage": "70.95%", "elapsed_time": "59m 18s", "remaining_time": "24m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153723}
-{"loss": 0.40755612, "grad_norm": 5.22734306, "learning_rate": 2.1e-07, "token_acc": 0.85746479, "epoch": 0.71122648, "global_step/max_steps": "548/771", "percentage": "71.08%", "elapsed_time": "59m 25s", "remaining_time": "24m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153685}
-{"loss": 0.34025377, "grad_norm": 4.69744533, "learning_rate": 2.1e-07, "token_acc": 0.88436121, "epoch": 0.71252433, "global_step/max_steps": "549/771", "percentage": "71.21%", "elapsed_time": "59m 30s", "remaining_time": "24m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153749}
-{"loss": 0.39878052, "grad_norm": 5.59676267, "learning_rate": 2.1e-07, "token_acc": 0.85377944, "epoch": 0.71382219, "global_step/max_steps": "550/771", "percentage": "71.34%", "elapsed_time": "59m 37s", "remaining_time": "23m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153755}
-{"loss": 0.36506665, "grad_norm": 5.70829311, "learning_rate": 2.1e-07, "token_acc": 0.87891442, "epoch": 0.71512005, "global_step/max_steps": "551/771", "percentage": "71.47%", "elapsed_time": "59m 42s", "remaining_time": "23m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153785}
-{"loss": 0.37994623, "grad_norm": 5.09332612, "learning_rate": 2.1e-07, "token_acc": 0.8774603, "epoch": 0.71641791, "global_step/max_steps": "552/771", "percentage": "71.60%", "elapsed_time": "59m 51s", "remaining_time": "23m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153708}
-{"loss": 0.41659385, "grad_norm": 4.94987246, "learning_rate": 2e-07, "token_acc": 0.8678261, "epoch": 0.71771577, "global_step/max_steps": "553/771", "percentage": "71.73%", "elapsed_time": "59m 57s", "remaining_time": "23m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153697}
-{"loss": 0.37975129, "grad_norm": 5.28754012, "learning_rate": 2e-07, "token_acc": 0.87696517, "epoch": 0.71901363, "global_step/max_steps": "554/771", "percentage": "71.85%", "elapsed_time": "1h 0m 5s", "remaining_time": "23m 32s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153664}
-{"loss": 0.38729128, "grad_norm": 5.60861501, "learning_rate": 2e-07, "token_acc": 0.86871165, "epoch": 0.72031149, "global_step/max_steps": "555/771", "percentage": "71.98%", "elapsed_time": "1h 0m 11s", "remaining_time": "23m 25s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153666}
-{"loss": 0.44766533, "grad_norm": 6.32275328, "learning_rate": 2e-07, "token_acc": 0.83845603, "epoch": 0.72160934, "global_step/max_steps": "556/771", "percentage": "72.11%", "elapsed_time": "1h 0m 16s", "remaining_time": "23m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153746}
-{"loss": 0.44610438, "grad_norm": 5.26598508, "learning_rate": 2e-07, "token_acc": 0.85222459, "epoch": 0.7229072, "global_step/max_steps": "557/771", "percentage": "72.24%", "elapsed_time": "1h 0m 23s", "remaining_time": "23m 12s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153707}
-{"loss": 0.35416788, "grad_norm": 4.80239235, "learning_rate": 1.9e-07, "token_acc": 0.8719101, "epoch": 0.72420506, "global_step/max_steps": "558/771", "percentage": "72.37%", "elapsed_time": "1h 0m 29s", "remaining_time": "23m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153728}
-{"loss": 0.35827878, "grad_norm": 5.74373874, "learning_rate": 1.9e-07, "token_acc": 0.87224984, "epoch": 0.72550292, "global_step/max_steps": "559/771", "percentage": "72.50%", "elapsed_time": "1h 0m 36s", "remaining_time": "22m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15371}
-{"loss": 0.44380403, "grad_norm": 6.47876092, "learning_rate": 1.9e-07, "token_acc": 0.85359299, "epoch": 0.72680078, "global_step/max_steps": "560/771", "percentage": "72.63%", "elapsed_time": "1h 0m 42s", "remaining_time": "22m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15372}
-{"loss": 0.40136689, "grad_norm": 5.490446, "learning_rate": 1.9e-07, "token_acc": 0.86856788, "epoch": 0.72809864, "global_step/max_steps": "561/771", "percentage": "72.76%", "elapsed_time": "1h 0m 47s", "remaining_time": "22m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153784}
-{"loss": 0.40367186, "grad_norm": 5.25790242, "learning_rate": 1.9e-07, "token_acc": 0.87179488, "epoch": 0.7293965, "global_step/max_steps": "562/771", "percentage": "72.89%", "elapsed_time": "1h 0m 54s", "remaining_time": "22m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153801}
-{"loss": 0.36367166, "grad_norm": 5.11774307, "learning_rate": 1.9e-07, "token_acc": 0.88174653, "epoch": 0.73069435, "global_step/max_steps": "563/771", "percentage": "73.02%", "elapsed_time": "1h 1m 1s", "remaining_time": "22m 32s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153768}
-{"loss": 0.41280419, "grad_norm": 5.00290543, "learning_rate": 1.8e-07, "token_acc": 0.85706246, "epoch": 0.73199221, "global_step/max_steps": "564/771", "percentage": "73.15%", "elapsed_time": "1h 1m 7s", "remaining_time": "22m 25s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153802}
-{"loss": 0.37326685, "grad_norm": 5.46801714, "learning_rate": 1.8e-07, "token_acc": 0.86101693, "epoch": 0.73329007, "global_step/max_steps": "565/771", "percentage": "73.28%", "elapsed_time": "1h 1m 12s", "remaining_time": "22m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153863}
-{"loss": 0.43961814, "grad_norm": 6.11457471, "learning_rate": 1.8e-07, "token_acc": 0.85275286, "epoch": 0.73458793, "global_step/max_steps": "566/771", "percentage": "73.41%", "elapsed_time": "1h 1m 17s", "remaining_time": "22m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153924}
-{"loss": 0.49123913, "grad_norm": 5.92676948, "learning_rate": 1.8e-07, "token_acc": 0.84306169, "epoch": 0.73588579, "global_step/max_steps": "567/771", "percentage": "73.54%", "elapsed_time": "1h 1m 23s", "remaining_time": "22m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153922}
-{"loss": 0.41812408, "grad_norm": 5.48149682, "learning_rate": 1.8e-07, "token_acc": 0.85630029, "epoch": 0.73718365, "global_step/max_steps": "568/771", "percentage": "73.67%", "elapsed_time": "1h 1m 30s", "remaining_time": "21m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153914}
-{"loss": 0.37854087, "grad_norm": 5.23308979, "learning_rate": 1.8e-07, "token_acc": 0.8753525, "epoch": 0.73848151, "global_step/max_steps": "569/771", "percentage": "73.80%", "elapsed_time": "1h 1m 38s", "remaining_time": "21m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153839}
-{"loss": 0.45996958, "grad_norm": 5.65077582, "learning_rate": 1.7e-07, "token_acc": 0.84634298, "epoch": 0.73977936, "global_step/max_steps": "570/771", "percentage": "73.93%", "elapsed_time": "1h 1m 43s", "remaining_time": "21m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15389}
-{"loss": 0.45792383, "grad_norm": 6.44792391, "learning_rate": 1.7e-07, "token_acc": 0.8487013, "epoch": 0.74107722, "global_step/max_steps": "571/771", "percentage": "74.06%", "elapsed_time": "1h 1m 50s", "remaining_time": "21m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153887}
-{"loss": 0.41431931, "grad_norm": 5.56169001, "learning_rate": 1.7e-07, "token_acc": 0.86472493, "epoch": 0.74237508, "global_step/max_steps": "572/771", "percentage": "74.19%", "elapsed_time": "1h 1m 59s", "remaining_time": "21m 34s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153776}
-{"loss": 0.38767946, "grad_norm": 6.08027772, "learning_rate": 1.7e-07, "token_acc": 0.87001842, "epoch": 0.74367294, "global_step/max_steps": "573/771", "percentage": "74.32%", "elapsed_time": "1h 2m 5s", "remaining_time": "21m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153796}
-{"loss": 0.39033121, "grad_norm": 5.4685483, "learning_rate": 1.7e-07, "token_acc": 0.8682074, "epoch": 0.7449708, "global_step/max_steps": "574/771", "percentage": "74.45%", "elapsed_time": "1h 2m 12s", "remaining_time": "21m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153789}
-{"loss": 0.37357786, "grad_norm": 4.93711418, "learning_rate": 1.7e-07, "token_acc": 0.86924803, "epoch": 0.74626866, "global_step/max_steps": "575/771", "percentage": "74.58%", "elapsed_time": "1h 2m 16s", "remaining_time": "21m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153876}
-{"loss": 0.38064247, "grad_norm": 5.16108053, "learning_rate": 1.7e-07, "token_acc": 0.87235332, "epoch": 0.74756652, "global_step/max_steps": "576/771", "percentage": "74.71%", "elapsed_time": "1h 2m 21s", "remaining_time": "21m 6s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153947}
-{"loss": 0.40560329, "grad_norm": 5.41707156, "learning_rate": 1.6e-07, "token_acc": 0.85492229, "epoch": 0.74886437, "global_step/max_steps": "577/771", "percentage": "74.84%", "elapsed_time": "1h 2m 26s", "remaining_time": "20m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154007}
-{"loss": 0.41337758, "grad_norm": 5.28504673, "learning_rate": 1.6e-07, "token_acc": 0.87123114, "epoch": 0.75016223, "global_step/max_steps": "578/771", "percentage": "74.97%", "elapsed_time": "1h 2m 32s", "remaining_time": "20m 53s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154013}
-{"loss": 0.473948, "grad_norm": 6.01955212, "learning_rate": 1.6e-07, "token_acc": 0.84402514, "epoch": 0.75146009, "global_step/max_steps": "579/771", "percentage": "75.10%", "elapsed_time": "1h 2m 39s", "remaining_time": "20m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154029}
-{"loss": 0.37376755, "grad_norm": 5.07937638, "learning_rate": 1.6e-07, "token_acc": 0.8734867, "epoch": 0.75275795, "global_step/max_steps": "580/771", "percentage": "75.23%", "elapsed_time": "1h 2m 48s", "remaining_time": "20m 40s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153921}
-{"loss": 0.36022475, "grad_norm": 5.08915596, "learning_rate": 1.6e-07, "token_acc": 0.871966, "epoch": 0.75405581, "global_step/max_steps": "581/771", "percentage": "75.36%", "elapsed_time": "1h 2m 55s", "remaining_time": "20m 34s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153887}
-{"loss": 0.40643638, "grad_norm": 5.68487961, "learning_rate": 1.6e-07, "token_acc": 0.84987116, "epoch": 0.75535367, "global_step/max_steps": "582/771", "percentage": "75.49%", "elapsed_time": "1h 3m 0s", "remaining_time": "20m 27s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15395}
-{"loss": 0.45192471, "grad_norm": 5.92831085, "learning_rate": 1.5e-07, "token_acc": 0.86360699, "epoch": 0.75665152, "global_step/max_steps": "583/771", "percentage": "75.62%", "elapsed_time": "1h 3m 6s", "remaining_time": "20m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153952}
-{"loss": 0.37692741, "grad_norm": 5.37582269, "learning_rate": 1.5e-07, "token_acc": 0.87719297, "epoch": 0.75794938, "global_step/max_steps": "584/771", "percentage": "75.75%", "elapsed_time": "1h 3m 13s", "remaining_time": "20m 14s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153955}
-{"loss": 0.38128287, "grad_norm": 5.36996495, "learning_rate": 1.5e-07, "token_acc": 0.87150836, "epoch": 0.75924724, "global_step/max_steps": "585/771", "percentage": "75.88%", "elapsed_time": "1h 3m 21s", "remaining_time": "20m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153883}
-{"loss": 0.399064, "grad_norm": 5.36657854, "learning_rate": 1.5e-07, "token_acc": 0.87872761, "epoch": 0.7605451, "global_step/max_steps": "586/771", "percentage": "76.01%", "elapsed_time": "1h 3m 25s", "remaining_time": "20m 1s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153974}
-{"loss": 0.54817599, "grad_norm": 5.6159631, "learning_rate": 1.5e-07, "token_acc": 0.82615548, "epoch": 0.76184296, "global_step/max_steps": "587/771", "percentage": "76.13%", "elapsed_time": "1h 3m 30s", "remaining_time": "19m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154034}
-{"loss": 0.37537089, "grad_norm": 5.36576386, "learning_rate": 1.5e-07, "token_acc": 0.87139988, "epoch": 0.76314082, "global_step/max_steps": "588/771", "percentage": "76.26%", "elapsed_time": "1h 3m 38s", "remaining_time": "19m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153983}
-{"loss": 0.37190455, "grad_norm": 5.76546889, "learning_rate": 1.4e-07, "token_acc": 0.87601626, "epoch": 0.76443868, "global_step/max_steps": "589/771", "percentage": "76.39%", "elapsed_time": "1h 3m 43s", "remaining_time": "19m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154034}
-{"loss": 0.36228499, "grad_norm": 5.03469638, "learning_rate": 1.4e-07, "token_acc": 0.88070369, "epoch": 0.76573653, "global_step/max_steps": "590/771", "percentage": "76.52%", "elapsed_time": "1h 3m 49s", "remaining_time": "19m 34s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154063}
-{"loss": 0.4659577, "grad_norm": 6.13019854, "learning_rate": 1.4e-07, "token_acc": 0.84033614, "epoch": 0.76703439, "global_step/max_steps": "591/771", "percentage": "76.65%", "elapsed_time": "1h 3m 56s", "remaining_time": "19m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154065}
-{"loss": 0.44321758, "grad_norm": 5.49684752, "learning_rate": 1.4e-07, "token_acc": 0.86100596, "epoch": 0.76833225, "global_step/max_steps": "592/771", "percentage": "76.78%", "elapsed_time": "1h 4m 1s", "remaining_time": "19m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154099}
-{"loss": 0.46518111, "grad_norm": 5.66650623, "learning_rate": 1.4e-07, "token_acc": 0.84237874, "epoch": 0.76963011, "global_step/max_steps": "593/771", "percentage": "76.91%", "elapsed_time": "1h 4m 9s", "remaining_time": "19m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154057}
-{"loss": 0.40463269, "grad_norm": 5.81845719, "learning_rate": 1.4e-07, "token_acc": 0.87473905, "epoch": 0.77092797, "global_step/max_steps": "594/771", "percentage": "77.04%", "elapsed_time": "1h 4m 13s", "remaining_time": "19m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154145}
-{"loss": 0.41214052, "grad_norm": 5.101934, "learning_rate": 1.4e-07, "token_acc": 0.86875725, "epoch": 0.77222583, "global_step/max_steps": "595/771", "percentage": "77.17%", "elapsed_time": "1h 4m 19s", "remaining_time": "19m 1s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154153}
-{"loss": 0.46830022, "grad_norm": 5.73209405, "learning_rate": 1.3e-07, "token_acc": 0.8449657, "epoch": 0.77352369, "global_step/max_steps": "596/771", "percentage": "77.30%", "elapsed_time": "1h 4m 27s", "remaining_time": "18m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154091}
-{"loss": 0.37035704, "grad_norm": 5.30391754, "learning_rate": 1.3e-07, "token_acc": 0.87224382, "epoch": 0.77482154, "global_step/max_steps": "597/771", "percentage": "77.43%", "elapsed_time": "1h 4m 34s", "remaining_time": "18m 49s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154065}
-{"loss": 0.4694345, "grad_norm": 6.70631126, "learning_rate": 1.3e-07, "token_acc": 0.84590793, "epoch": 0.7761194, "global_step/max_steps": "598/771", "percentage": "77.56%", "elapsed_time": "1h 4m 40s", "remaining_time": "18m 42s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154096}
-{"loss": 0.39465117, "grad_norm": 5.13640208, "learning_rate": 1.3e-07, "token_acc": 0.8694362, "epoch": 0.77741726, "global_step/max_steps": "599/771", "percentage": "77.69%", "elapsed_time": "1h 4m 45s", "remaining_time": "18m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154154}
-{"loss": 0.36193299, "grad_norm": 5.24554027, "learning_rate": 1.3e-07, "token_acc": 0.87507927, "epoch": 0.77871512, "global_step/max_steps": "600/771", "percentage": "77.82%", "elapsed_time": "1h 4m 53s", "remaining_time": "18m 29s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154085}
-{"loss": 0.4384802, "grad_norm": 5.57592019, "learning_rate": 1.3e-07, "token_acc": 0.84991068, "epoch": 0.78001298, "global_step/max_steps": "601/771", "percentage": "77.95%", "elapsed_time": "1h 4m 58s", "remaining_time": "18m 22s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154155}
-{"loss": 0.40990376, "grad_norm": 5.03474452, "learning_rate": 1.3e-07, "token_acc": 0.86346048, "epoch": 0.78131084, "global_step/max_steps": "602/771", "percentage": "78.08%", "elapsed_time": "1h 5m 6s", "remaining_time": "18m 16s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154104}
-{"loss": 0.46948028, "grad_norm": 5.65204316, "learning_rate": 1.2e-07, "token_acc": 0.85285634, "epoch": 0.7826087, "global_step/max_steps": "603/771", "percentage": "78.21%", "elapsed_time": "1h 5m 11s", "remaining_time": "18m 9s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15418}
-{"loss": 0.40053511, "grad_norm": 5.66440915, "learning_rate": 1.2e-07, "token_acc": 0.86264759, "epoch": 0.78390655, "global_step/max_steps": "604/771", "percentage": "78.34%", "elapsed_time": "1h 5m 16s", "remaining_time": "18m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154224}
-{"loss": 0.43864504, "grad_norm": 5.22848139, "learning_rate": 1.2e-07, "token_acc": 0.8559078, "epoch": 0.78520441, "global_step/max_steps": "605/771", "percentage": "78.47%", "elapsed_time": "1h 5m 24s", "remaining_time": "17m 56s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154179}
-{"loss": 0.4334324, "grad_norm": 5.37344196, "learning_rate": 1.2e-07, "token_acc": 0.86120999, "epoch": 0.78650227, "global_step/max_steps": "606/771", "percentage": "78.60%", "elapsed_time": "1h 5m 31s", "remaining_time": "17m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154132}
-{"loss": 0.48171574, "grad_norm": 5.64355666, "learning_rate": 1.2e-07, "token_acc": 0.83900225, "epoch": 0.78780013, "global_step/max_steps": "607/771", "percentage": "78.73%", "elapsed_time": "1h 5m 37s", "remaining_time": "17m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154146}
-{"loss": 0.47768646, "grad_norm": 5.73342666, "learning_rate": 1.2e-07, "token_acc": 0.83979762, "epoch": 0.78909799, "global_step/max_steps": "608/771", "percentage": "78.86%", "elapsed_time": "1h 5m 44s", "remaining_time": "17m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154151}
-{"loss": 0.3747375, "grad_norm": 5.93009479, "learning_rate": 1.2e-07, "token_acc": 0.87569058, "epoch": 0.79039585, "global_step/max_steps": "609/771", "percentage": "78.99%", "elapsed_time": "1h 5m 51s", "remaining_time": "17m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154133}
-{"loss": 0.40547341, "grad_norm": 4.94972759, "learning_rate": 1.1e-07, "token_acc": 0.8677249, "epoch": 0.79169371, "global_step/max_steps": "610/771", "percentage": "79.12%", "elapsed_time": "1h 5m 58s", "remaining_time": "17m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154102}
-{"loss": 0.46075439, "grad_norm": 5.61662602, "learning_rate": 1.1e-07, "token_acc": 0.85083193, "epoch": 0.79299156, "global_step/max_steps": "611/771", "percentage": "79.25%", "elapsed_time": "1h 6m 6s", "remaining_time": "17m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154053}
-{"loss": 0.39903218, "grad_norm": 5.67566532, "learning_rate": 1.1e-07, "token_acc": 0.86653388, "epoch": 0.79428942, "global_step/max_steps": "612/771", "percentage": "79.38%", "elapsed_time": "1h 6m 13s", "remaining_time": "17m 12s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154006}
-{"loss": 0.45842761, "grad_norm": 5.58943526, "learning_rate": 1.1e-07, "token_acc": 0.8545568, "epoch": 0.79558728, "global_step/max_steps": "613/771", "percentage": "79.51%", "elapsed_time": "1h 6m 19s", "remaining_time": "17m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154042}
-{"loss": 0.35987157, "grad_norm": 5.49312487, "learning_rate": 1.1e-07, "token_acc": 0.87517631, "epoch": 0.79688514, "global_step/max_steps": "614/771", "percentage": "79.64%", "elapsed_time": "1h 6m 23s", "remaining_time": "16m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154123}
-{"loss": 0.45709077, "grad_norm": 5.70845827, "learning_rate": 1.1e-07, "token_acc": 0.84916562, "epoch": 0.798183, "global_step/max_steps": "615/771", "percentage": "79.77%", "elapsed_time": "1h 6m 31s", "remaining_time": "16m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154072}
-{"loss": 0.46318775, "grad_norm": 5.8141523, "learning_rate": 1.1e-07, "token_acc": 0.84390545, "epoch": 0.79948086, "global_step/max_steps": "616/771", "percentage": "79.90%", "elapsed_time": "1h 6m 37s", "remaining_time": "16m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154096}
-{"loss": 0.43203434, "grad_norm": 5.46410435, "learning_rate": 1.1e-07, "token_acc": 0.85524863, "epoch": 0.80077872, "global_step/max_steps": "617/771", "percentage": "80.03%", "elapsed_time": "1h 6m 45s", "remaining_time": "16m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154032}
-{"loss": 0.3983337, "grad_norm": 5.1459454, "learning_rate": 1e-07, "token_acc": 0.868801, "epoch": 0.80207657, "global_step/max_steps": "618/771", "percentage": "80.16%", "elapsed_time": "1h 6m 52s", "remaining_time": "16m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154021}
-{"loss": 0.35024634, "grad_norm": 5.1038381, "learning_rate": 1e-07, "token_acc": 0.88060647, "epoch": 0.80337443, "global_step/max_steps": "619/771", "percentage": "80.29%", "elapsed_time": "1h 6m 58s", "remaining_time": "16m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154022}
-{"loss": 0.34177032, "grad_norm": 5.27076364, "learning_rate": 1e-07, "token_acc": 0.88729644, "epoch": 0.80467229, "global_step/max_steps": "620/771", "percentage": "80.42%", "elapsed_time": "1h 7m 6s", "remaining_time": "16m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153975}
-{"loss": 0.43937898, "grad_norm": 5.77766576, "learning_rate": 1e-07, "token_acc": 0.86366516, "epoch": 0.80597015, "global_step/max_steps": "621/771", "percentage": "80.54%", "elapsed_time": "1h 7m 13s", "remaining_time": "16m 14s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153976}
-{"loss": 0.43319482, "grad_norm": 5.8500352, "learning_rate": 1e-07, "token_acc": 0.86630368, "epoch": 0.80726801, "global_step/max_steps": "622/771", "percentage": "80.67%", "elapsed_time": "1h 7m 19s", "remaining_time": "16m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153966}
-{"loss": 0.34517193, "grad_norm": 5.40468271, "learning_rate": 1e-07, "token_acc": 0.88178027, "epoch": 0.80856587, "global_step/max_steps": "623/771", "percentage": "80.80%", "elapsed_time": "1h 7m 27s", "remaining_time": "16m 1s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153909}
-{"loss": 0.53597832, "grad_norm": 5.80468653, "learning_rate": 1e-07, "token_acc": 0.83001924, "epoch": 0.80986372, "global_step/max_steps": "624/771", "percentage": "80.93%", "elapsed_time": "1h 7m 34s", "remaining_time": "15m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153897}
-{"loss": 0.4604283, "grad_norm": 6.37882992, "learning_rate": 9e-08, "token_acc": 0.84395874, "epoch": 0.81116158, "global_step/max_steps": "625/771", "percentage": "81.06%", "elapsed_time": "1h 7m 39s", "remaining_time": "15m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153962}
-{"loss": 0.36253524, "grad_norm": 5.44431852, "learning_rate": 9e-08, "token_acc": 0.87623763, "epoch": 0.81245944, "global_step/max_steps": "626/771", "percentage": "81.19%", "elapsed_time": "1h 7m 45s", "remaining_time": "15m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153973}
-{"loss": 0.43566504, "grad_norm": 6.1119173, "learning_rate": 9e-08, "token_acc": 0.84763807, "epoch": 0.8137573, "global_step/max_steps": "627/771", "percentage": "81.32%", "elapsed_time": "1h 7m 52s", "remaining_time": "15m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153951}
-{"loss": 0.4008615, "grad_norm": 5.54763794, "learning_rate": 9e-08, "token_acc": 0.86744869, "epoch": 0.81505516, "global_step/max_steps": "628/771", "percentage": "81.45%", "elapsed_time": "1h 7m 58s", "remaining_time": "15m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153994}
-{"loss": 0.36432564, "grad_norm": 5.37418314, "learning_rate": 9e-08, "token_acc": 0.87341774, "epoch": 0.81635302, "global_step/max_steps": "629/771", "percentage": "81.58%", "elapsed_time": "1h 8m 5s", "remaining_time": "15m 22s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153968}
-{"loss": 0.36808422, "grad_norm": 5.48773121, "learning_rate": 9e-08, "token_acc": 0.87634712, "epoch": 0.81765088, "global_step/max_steps": "630/771", "percentage": "81.71%", "elapsed_time": "1h 8m 11s", "remaining_time": "15m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153971}
-{"loss": 0.49341854, "grad_norm": 5.70412122, "learning_rate": 9e-08, "token_acc": 0.83823532, "epoch": 0.81894873, "global_step/max_steps": "631/771", "percentage": "81.84%", "elapsed_time": "1h 8m 18s", "remaining_time": "15m 9s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153948}
-{"loss": 0.4298467, "grad_norm": 6.06013078, "learning_rate": 9e-08, "token_acc": 0.85430461, "epoch": 0.82024659, "global_step/max_steps": "632/771", "percentage": "81.97%", "elapsed_time": "1h 8m 25s", "remaining_time": "15m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15393}
-{"loss": 0.38941255, "grad_norm": 5.07971403, "learning_rate": 9e-08, "token_acc": 0.87859827, "epoch": 0.82154445, "global_step/max_steps": "633/771", "percentage": "82.10%", "elapsed_time": "1h 8m 32s", "remaining_time": "14m 56s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153916}
-{"loss": 0.48328167, "grad_norm": 5.81579761, "learning_rate": 8e-08, "token_acc": 0.85146201, "epoch": 0.82284231, "global_step/max_steps": "634/771", "percentage": "82.23%", "elapsed_time": "1h 8m 41s", "remaining_time": "14m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15384}
-{"loss": 0.48917711, "grad_norm": 5.83122265, "learning_rate": 8e-08, "token_acc": 0.82721895, "epoch": 0.82414017, "global_step/max_steps": "635/771", "percentage": "82.36%", "elapsed_time": "1h 8m 46s", "remaining_time": "14m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153891}
-{"loss": 0.39743835, "grad_norm": 6.14824532, "learning_rate": 8e-08, "token_acc": 0.86731845, "epoch": 0.82543803, "global_step/max_steps": "636/771", "percentage": "82.49%", "elapsed_time": "1h 8m 52s", "remaining_time": "14m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153901}
-{"loss": 0.40223417, "grad_norm": 5.53906712, "learning_rate": 8e-08, "token_acc": 0.87318611, "epoch": 0.82673589, "global_step/max_steps": "637/771", "percentage": "82.62%", "elapsed_time": "1h 8m 59s", "remaining_time": "14m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153895}
-{"loss": 0.41642678, "grad_norm": 5.74462567, "learning_rate": 8e-08, "token_acc": 0.85793018, "epoch": 0.82803374, "global_step/max_steps": "638/771", "percentage": "82.75%", "elapsed_time": "1h 9m 5s", "remaining_time": "14m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153889}
-{"loss": 0.4990378, "grad_norm": 5.96026235, "learning_rate": 8e-08, "token_acc": 0.83895606, "epoch": 0.8293316, "global_step/max_steps": "639/771", "percentage": "82.88%", "elapsed_time": "1h 9m 12s", "remaining_time": "14m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15388}
-{"loss": 0.33917886, "grad_norm": 5.26767277, "learning_rate": 8e-08, "token_acc": 0.87785316, "epoch": 0.83062946, "global_step/max_steps": "640/771", "percentage": "83.01%", "elapsed_time": "1h 9m 18s", "remaining_time": "14m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153883}
-{"loss": 0.43230489, "grad_norm": 5.58141974, "learning_rate": 8e-08, "token_acc": 0.8561064, "epoch": 0.83192732, "global_step/max_steps": "641/771", "percentage": "83.14%", "elapsed_time": "1h 9m 26s", "remaining_time": "14m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15383}
-{"loss": 0.37319982, "grad_norm": 4.93023453, "learning_rate": 7e-08, "token_acc": 0.8633846, "epoch": 0.83322518, "global_step/max_steps": "642/771", "percentage": "83.27%", "elapsed_time": "1h 9m 32s", "remaining_time": "13m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153883}
-{"loss": 0.37724501, "grad_norm": 5.24925395, "learning_rate": 7e-08, "token_acc": 0.87468517, "epoch": 0.83452304, "global_step/max_steps": "643/771", "percentage": "83.40%", "elapsed_time": "1h 9m 36s", "remaining_time": "13m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153942}
-{"loss": 0.30148619, "grad_norm": 4.69165609, "learning_rate": 7e-08, "token_acc": 0.89999998, "epoch": 0.8358209, "global_step/max_steps": "644/771", "percentage": "83.53%", "elapsed_time": "1h 9m 44s", "remaining_time": "13m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153895}
-{"loss": 0.41916949, "grad_norm": 5.65860257, "learning_rate": 7e-08, "token_acc": 0.86620688, "epoch": 0.83711875, "global_step/max_steps": "645/771", "percentage": "83.66%", "elapsed_time": "1h 9m 51s", "remaining_time": "13m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153882}
-{"loss": 0.37220576, "grad_norm": 5.26737235, "learning_rate": 7e-08, "token_acc": 0.86305732, "epoch": 0.83841661, "global_step/max_steps": "646/771", "percentage": "83.79%", "elapsed_time": "1h 9m 57s", "remaining_time": "13m 32s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153891}
-{"loss": 0.41113618, "grad_norm": 5.58863459, "learning_rate": 7e-08, "token_acc": 0.86876482, "epoch": 0.83971447, "global_step/max_steps": "647/771", "percentage": "83.92%", "elapsed_time": "1h 10m 3s", "remaining_time": "13m 25s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153923}
-{"loss": 0.39276683, "grad_norm": 5.61335967, "learning_rate": 7e-08, "token_acc": 0.8644802, "epoch": 0.84101233, "global_step/max_steps": "648/771", "percentage": "84.05%", "elapsed_time": "1h 10m 8s", "remaining_time": "13m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153972}
-{"loss": 0.41715589, "grad_norm": 5.46183891, "learning_rate": 7e-08, "token_acc": 0.84563345, "epoch": 0.84231019, "global_step/max_steps": "649/771", "percentage": "84.18%", "elapsed_time": "1h 10m 14s", "remaining_time": "13m 12s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153986}
-{"loss": 0.39676434, "grad_norm": 5.73901007, "learning_rate": 7e-08, "token_acc": 0.85907859, "epoch": 0.84360805, "global_step/max_steps": "650/771", "percentage": "84.31%", "elapsed_time": "1h 10m 19s", "remaining_time": "13m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154045}
-{"loss": 0.49404794, "grad_norm": 5.54797346, "learning_rate": 6e-08, "token_acc": 0.83565462, "epoch": 0.84490591, "global_step/max_steps": "651/771", "percentage": "84.44%", "elapsed_time": "1h 10m 25s", "remaining_time": "12m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154067}
-{"loss": 0.44895035, "grad_norm": 5.49890744, "learning_rate": 6e-08, "token_acc": 0.84891641, "epoch": 0.84620376, "global_step/max_steps": "652/771", "percentage": "84.57%", "elapsed_time": "1h 10m 32s", "remaining_time": "12m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15403}
-{"loss": 0.41101971, "grad_norm": 5.37646432, "learning_rate": 6e-08, "token_acc": 0.8593272, "epoch": 0.84750162, "global_step/max_steps": "653/771", "percentage": "84.70%", "elapsed_time": "1h 10m 40s", "remaining_time": "12m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153979}
-{"loss": 0.39878449, "grad_norm": 5.96676885, "learning_rate": 6e-08, "token_acc": 0.86337209, "epoch": 0.84879948, "global_step/max_steps": "654/771", "percentage": "84.82%", "elapsed_time": "1h 10m 48s", "remaining_time": "12m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153947}
-{"loss": 0.45622808, "grad_norm": 6.26143979, "learning_rate": 6e-08, "token_acc": 0.85753238, "epoch": 0.85009734, "global_step/max_steps": "655/771", "percentage": "84.95%", "elapsed_time": "1h 10m 53s", "remaining_time": "12m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153998}
-{"loss": 0.51359415, "grad_norm": 5.77240495, "learning_rate": 6e-08, "token_acc": 0.83571875, "epoch": 0.8513952, "global_step/max_steps": "656/771", "percentage": "85.08%", "elapsed_time": "1h 10m 59s", "remaining_time": "12m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153998}
-{"loss": 0.36459094, "grad_norm": 5.01141332, "learning_rate": 6e-08, "token_acc": 0.87468356, "epoch": 0.85269306, "global_step/max_steps": "657/771", "percentage": "85.21%", "elapsed_time": "1h 11m 8s", "remaining_time": "12m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153934}
-{"loss": 0.39886189, "grad_norm": 4.95504027, "learning_rate": 6e-08, "token_acc": 0.86239552, "epoch": 0.85399091, "global_step/max_steps": "658/771", "percentage": "85.34%", "elapsed_time": "1h 11m 15s", "remaining_time": "12m 14s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153887}
-{"loss": 0.39256847, "grad_norm": 5.32815907, "learning_rate": 6e-08, "token_acc": 0.87476158, "epoch": 0.85528877, "global_step/max_steps": "659/771", "percentage": "85.47%", "elapsed_time": "1h 11m 22s", "remaining_time": "12m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153885}
-{"loss": 0.39366511, "grad_norm": 5.08199434, "learning_rate": 6e-08, "token_acc": 0.87119859, "epoch": 0.85658663, "global_step/max_steps": "660/771", "percentage": "85.60%", "elapsed_time": "1h 11m 30s", "remaining_time": "12m 1s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153843}
-{"loss": 0.48111361, "grad_norm": 6.73454857, "learning_rate": 5e-08, "token_acc": 0.83711046, "epoch": 0.85788449, "global_step/max_steps": "661/771", "percentage": "85.73%", "elapsed_time": "1h 11m 36s", "remaining_time": "11m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153841}
-{"loss": 0.43101811, "grad_norm": 5.4263914, "learning_rate": 5e-08, "token_acc": 0.85395408, "epoch": 0.85918235, "global_step/max_steps": "662/771", "percentage": "85.86%", "elapsed_time": "1h 11m 42s", "remaining_time": "11m 48s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153852}
-{"loss": 0.31058407, "grad_norm": 4.88148965, "learning_rate": 5e-08, "token_acc": 0.90124261, "epoch": 0.86048021, "global_step/max_steps": "663/771", "percentage": "85.99%", "elapsed_time": "1h 11m 48s", "remaining_time": "11m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153864}
-{"loss": 0.4147017, "grad_norm": 5.44158771, "learning_rate": 5e-08, "token_acc": 0.86546808, "epoch": 0.86177807, "global_step/max_steps": "664/771", "percentage": "86.12%", "elapsed_time": "1h 11m 54s", "remaining_time": "11m 35s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153899}
-{"loss": 0.38787362, "grad_norm": 5.56954844, "learning_rate": 5e-08, "token_acc": 0.86593264, "epoch": 0.86307592, "global_step/max_steps": "665/771", "percentage": "86.25%", "elapsed_time": "1h 11m 59s", "remaining_time": "11m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153968}
-{"loss": 0.38306084, "grad_norm": 5.19598465, "learning_rate": 5e-08, "token_acc": 0.86490154, "epoch": 0.86437378, "global_step/max_steps": "666/771", "percentage": "86.38%", "elapsed_time": "1h 12m 5s", "remaining_time": "11m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153968}
-{"loss": 0.4510738, "grad_norm": 5.39251536, "learning_rate": 5e-08, "token_acc": 0.84881705, "epoch": 0.86567164, "global_step/max_steps": "667/771", "percentage": "86.51%", "elapsed_time": "1h 12m 12s", "remaining_time": "11m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15396}
-{"loss": 0.42157108, "grad_norm": 5.23216706, "learning_rate": 5e-08, "token_acc": 0.86803871, "epoch": 0.8669695, "global_step/max_steps": "668/771", "percentage": "86.64%", "elapsed_time": "1h 12m 18s", "remaining_time": "11m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153966}
-{"loss": 0.44857198, "grad_norm": 5.6254549, "learning_rate": 5e-08, "token_acc": 0.85420448, "epoch": 0.86826736, "global_step/max_steps": "669/771", "percentage": "86.77%", "elapsed_time": "1h 12m 24s", "remaining_time": "11m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153973}
-{"loss": 0.42503911, "grad_norm": 5.86606198, "learning_rate": 5e-08, "token_acc": 0.86491442, "epoch": 0.86956522, "global_step/max_steps": "670/771", "percentage": "86.90%", "elapsed_time": "1h 12m 31s", "remaining_time": "10m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153967}
-{"loss": 0.45083332, "grad_norm": 5.4335449, "learning_rate": 5e-08, "token_acc": 0.84924924, "epoch": 0.87086308, "global_step/max_steps": "671/771", "percentage": "87.03%", "elapsed_time": "1h 12m 36s", "remaining_time": "10m 49s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154016}
-{"loss": 0.38214326, "grad_norm": 5.37250616, "learning_rate": 4e-08, "token_acc": 0.86610377, "epoch": 0.87216093, "global_step/max_steps": "672/771", "percentage": "87.16%", "elapsed_time": "1h 12m 43s", "remaining_time": "10m 42s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15401}
-{"loss": 0.42585722, "grad_norm": 5.62032567, "learning_rate": 4e-08, "token_acc": 0.85919899, "epoch": 0.87345879, "global_step/max_steps": "673/771", "percentage": "87.29%", "elapsed_time": "1h 12m 50s", "remaining_time": "10m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154001}
-{"loss": 0.48437065, "grad_norm": 5.95200721, "learning_rate": 4e-08, "token_acc": 0.85320514, "epoch": 0.87475665, "global_step/max_steps": "674/771", "percentage": "87.42%", "elapsed_time": "1h 12m 57s", "remaining_time": "10m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15396}
-{"loss": 0.3975268, "grad_norm": 4.93178802, "learning_rate": 4e-08, "token_acc": 0.87204611, "epoch": 0.87605451, "global_step/max_steps": "675/771", "percentage": "87.55%", "elapsed_time": "1h 13m 4s", "remaining_time": "10m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153956}
-{"loss": 0.42998603, "grad_norm": 5.35135098, "learning_rate": 4e-08, "token_acc": 0.86010998, "epoch": 0.87735237, "global_step/max_steps": "676/771", "percentage": "87.68%", "elapsed_time": "1h 13m 11s", "remaining_time": "10m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153948}
-{"loss": 0.42311019, "grad_norm": 5.77666991, "learning_rate": 4e-08, "token_acc": 0.85447758, "epoch": 0.87865023, "global_step/max_steps": "677/771", "percentage": "87.81%", "elapsed_time": "1h 13m 16s", "remaining_time": "10m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154002}
-{"loss": 0.43823537, "grad_norm": 5.8948083, "learning_rate": 4e-08, "token_acc": 0.85523117, "epoch": 0.87994809, "global_step/max_steps": "678/771", "percentage": "87.94%", "elapsed_time": "1h 13m 23s", "remaining_time": "10m 4s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15396}
-{"loss": 0.40396684, "grad_norm": 5.03814902, "learning_rate": 4e-08, "token_acc": 0.86206895, "epoch": 0.88124594, "global_step/max_steps": "679/771", "percentage": "88.07%", "elapsed_time": "1h 13m 29s", "remaining_time": "9m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153978}
-{"loss": 0.39506856, "grad_norm": 5.21592717, "learning_rate": 4e-08, "token_acc": 0.86507422, "epoch": 0.8825438, "global_step/max_steps": "680/771", "percentage": "88.20%", "elapsed_time": "1h 13m 36s", "remaining_time": "9m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153982}
-{"loss": 0.36099166, "grad_norm": 4.84577617, "learning_rate": 4e-08, "token_acc": 0.88023955, "epoch": 0.88384166, "global_step/max_steps": "681/771", "percentage": "88.33%", "elapsed_time": "1h 13m 41s", "remaining_time": "9m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154009}
-{"loss": 0.43505985, "grad_norm": 6.39894201, "learning_rate": 4e-08, "token_acc": 0.85407168, "epoch": 0.88513952, "global_step/max_steps": "682/771", "percentage": "88.46%", "elapsed_time": "1h 13m 47s", "remaining_time": "9m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154021}
-{"loss": 0.42058024, "grad_norm": 5.02292726, "learning_rate": 4e-08, "token_acc": 0.85101312, "epoch": 0.88643738, "global_step/max_steps": "683/771", "percentage": "88.59%", "elapsed_time": "1h 13m 53s", "remaining_time": "9m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15404}
-{"loss": 0.37851137, "grad_norm": 5.16661705, "learning_rate": 3e-08, "token_acc": 0.87213117, "epoch": 0.88773524, "global_step/max_steps": "684/771", "percentage": "88.72%", "elapsed_time": "1h 14m 1s", "remaining_time": "9m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154}
-{"loss": 0.3027612, "grad_norm": 4.49163621, "learning_rate": 3e-08, "token_acc": 0.89492118, "epoch": 0.8890331, "global_step/max_steps": "685/771", "percentage": "88.85%", "elapsed_time": "1h 14m 6s", "remaining_time": "9m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154043}
-{"loss": 0.44735396, "grad_norm": 5.57492258, "learning_rate": 3e-08, "token_acc": 0.84296483, "epoch": 0.89033095, "global_step/max_steps": "686/771", "percentage": "88.98%", "elapsed_time": "1h 14m 14s", "remaining_time": "9m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154008}
-{"loss": 0.41385001, "grad_norm": 5.72274328, "learning_rate": 3e-08, "token_acc": 0.86864686, "epoch": 0.89162881, "global_step/max_steps": "687/771", "percentage": "89.11%", "elapsed_time": "1h 14m 19s", "remaining_time": "9m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15406}
-{"loss": 0.41229066, "grad_norm": 4.94477237, "learning_rate": 3e-08, "token_acc": 0.8554942, "epoch": 0.89292667, "global_step/max_steps": "688/771", "percentage": "89.23%", "elapsed_time": "1h 14m 24s", "remaining_time": "8m 58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154095}
-{"loss": 0.34502214, "grad_norm": 5.23376797, "learning_rate": 3e-08, "token_acc": 0.871207, "epoch": 0.89422453, "global_step/max_steps": "689/771", "percentage": "89.36%", "elapsed_time": "1h 14m 30s", "remaining_time": "8m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154108}
-{"loss": 0.37654477, "grad_norm": 5.90103713, "learning_rate": 3e-08, "token_acc": 0.87863135, "epoch": 0.89552239, "global_step/max_steps": "690/771", "percentage": "89.49%", "elapsed_time": "1h 14m 38s", "remaining_time": "8m 45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.154057}
-{"loss": 0.38206816, "grad_norm": 5.52199119, "learning_rate": 3e-08, "token_acc": 0.86721426, "epoch": 0.89682025, "global_step/max_steps": "691/771", "percentage": "89.62%", "elapsed_time": "1h 14m 47s", "remaining_time": "8m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153987}
-{"loss": 0.39855772, "grad_norm": 5.05590049, "learning_rate": 3e-08, "token_acc": 0.87806302, "epoch": 0.89811811, "global_step/max_steps": "692/771", "percentage": "89.75%", "elapsed_time": "1h 14m 53s", "remaining_time": "8m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153992}
-{"loss": 0.3334294, "grad_norm": 4.87161586, "learning_rate": 3e-08, "token_acc": 0.88404977, "epoch": 0.89941596, "global_step/max_steps": "693/771", "percentage": "89.88%", "elapsed_time": "1h 15m 0s", "remaining_time": "8m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153977}
-{"loss": 0.4654094, "grad_norm": 5.11063913, "learning_rate": 3e-08, "token_acc": 0.84739387, "epoch": 0.90071382, "global_step/max_steps": "694/771", "percentage": "90.01%", "elapsed_time": "1h 15m 7s", "remaining_time": "8m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153972}
-{"loss": 0.33131549, "grad_norm": 5.30175419, "learning_rate": 3e-08, "token_acc": 0.88222545, "epoch": 0.90201168, "global_step/max_steps": "695/771", "percentage": "90.14%", "elapsed_time": "1h 15m 14s", "remaining_time": "8m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153942}
-{"loss": 0.43573016, "grad_norm": 5.11184261, "learning_rate": 3e-08, "token_acc": 0.84572071, "epoch": 0.90330954, "global_step/max_steps": "696/771", "percentage": "90.27%", "elapsed_time": "1h 15m 22s", "remaining_time": "8m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153912}
-{"loss": 0.50267208, "grad_norm": 5.5794214, "learning_rate": 3e-08, "token_acc": 0.84189945, "epoch": 0.9046074, "global_step/max_steps": "697/771", "percentage": "90.40%", "elapsed_time": "1h 15m 29s", "remaining_time": "8m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153896}
-{"loss": 0.29681715, "grad_norm": 4.51310073, "learning_rate": 2e-08, "token_acc": 0.89521641, "epoch": 0.90590526, "global_step/max_steps": "698/771", "percentage": "90.53%", "elapsed_time": "1h 15m 35s", "remaining_time": "7m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153912}
-{"loss": 0.49770856, "grad_norm": 5.99563217, "learning_rate": 2e-08, "token_acc": 0.84463108, "epoch": 0.90720311, "global_step/max_steps": "699/771", "percentage": "90.66%", "elapsed_time": "1h 15m 41s", "remaining_time": "7m 47s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153911}
-{"loss": 0.32491136, "grad_norm": 5.02033585, "learning_rate": 2e-08, "token_acc": 0.88599753, "epoch": 0.90850097, "global_step/max_steps": "700/771", "percentage": "90.79%", "elapsed_time": "1h 15m 46s", "remaining_time": "7m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153954}
-{"loss": 0.42195523, "grad_norm": 4.9787914, "learning_rate": 2e-08, "token_acc": 0.85903811, "epoch": 0.90979883, "global_step/max_steps": "701/771", "percentage": "90.92%", "elapsed_time": "1h 15m 52s", "remaining_time": "7m 34s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153989}
-{"loss": 0.35186961, "grad_norm": 5.5040786, "learning_rate": 2e-08, "token_acc": 0.87955731, "epoch": 0.91109669, "global_step/max_steps": "702/771", "percentage": "91.05%", "elapsed_time": "1h 16m 1s", "remaining_time": "7m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153906}
-{"loss": 0.42965144, "grad_norm": 5.65129746, "learning_rate": 2e-08, "token_acc": 0.861058, "epoch": 0.91239455, "global_step/max_steps": "703/771", "percentage": "91.18%", "elapsed_time": "1h 16m 6s", "remaining_time": "7m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153943}
-{"loss": 0.33769673, "grad_norm": 5.02202217, "learning_rate": 2e-08, "token_acc": 0.88764828, "epoch": 0.91369241, "global_step/max_steps": "704/771", "percentage": "91.31%", "elapsed_time": "1h 16m 12s", "remaining_time": "7m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153951}
-{"loss": 0.39993632, "grad_norm": 5.46659247, "learning_rate": 2e-08, "token_acc": 0.86452043, "epoch": 0.91499027, "global_step/max_steps": "705/771", "percentage": "91.44%", "elapsed_time": "1h 16m 19s", "remaining_time": "7m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153938}
-{"loss": 0.40287948, "grad_norm": 5.303252, "learning_rate": 2e-08, "token_acc": 0.86790198, "epoch": 0.91628812, "global_step/max_steps": "706/771", "percentage": "91.57%", "elapsed_time": "1h 16m 26s", "remaining_time": "7m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153919}
-{"loss": 0.44543454, "grad_norm": 5.87520609, "learning_rate": 2e-08, "token_acc": 0.85225111, "epoch": 0.91758598, "global_step/max_steps": "707/771", "percentage": "91.70%", "elapsed_time": "1h 16m 34s", "remaining_time": "6m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15388}
-{"loss": 0.53200054, "grad_norm": 5.69921789, "learning_rate": 2e-08, "token_acc": 0.82008594, "epoch": 0.91888384, "global_step/max_steps": "708/771", "percentage": "91.83%", "elapsed_time": "1h 16m 44s", "remaining_time": "6m 49s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15375}
-{"loss": 0.46359596, "grad_norm": 5.94250228, "learning_rate": 2e-08, "token_acc": 0.84765387, "epoch": 0.9201817, "global_step/max_steps": "709/771", "percentage": "91.96%", "elapsed_time": "1h 16m 51s", "remaining_time": "6m 43s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153734}
-{"loss": 0.4235096, "grad_norm": 5.15555702, "learning_rate": 2e-08, "token_acc": 0.8491652, "epoch": 0.92147956, "global_step/max_steps": "710/771", "percentage": "92.09%", "elapsed_time": "1h 16m 58s", "remaining_time": "6m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153723}
-{"loss": 0.44238028, "grad_norm": 5.19507034, "learning_rate": 2e-08, "token_acc": 0.85511649, "epoch": 0.92277742, "global_step/max_steps": "711/771", "percentage": "92.22%", "elapsed_time": "1h 17m 5s", "remaining_time": "6m 30s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153713}
-{"loss": 0.39249611, "grad_norm": 5.48871616, "learning_rate": 2e-08, "token_acc": 0.8658765, "epoch": 0.92407528, "global_step/max_steps": "712/771", "percentage": "92.35%", "elapsed_time": "1h 17m 13s", "remaining_time": "6m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153662}
-{"loss": 0.43156016, "grad_norm": 5.55110938, "learning_rate": 2e-08, "token_acc": 0.85850745, "epoch": 0.92537313, "global_step/max_steps": "713/771", "percentage": "92.48%", "elapsed_time": "1h 17m 20s", "remaining_time": "6m 17s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153649}
-{"loss": 0.50298429, "grad_norm": 5.6044173, "learning_rate": 1e-08, "token_acc": 0.83812952, "epoch": 0.92667099, "global_step/max_steps": "714/771", "percentage": "92.61%", "elapsed_time": "1h 17m 26s", "remaining_time": "6m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153675}
-{"loss": 0.38009062, "grad_norm": 5.28109499, "learning_rate": 1e-08, "token_acc": 0.87294835, "epoch": 0.92796885, "global_step/max_steps": "715/771", "percentage": "92.74%", "elapsed_time": "1h 17m 33s", "remaining_time": "6m 4s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153659}
-{"loss": 0.28654939, "grad_norm": 5.18283152, "learning_rate": 1e-08, "token_acc": 0.89999998, "epoch": 0.92926671, "global_step/max_steps": "716/771", "percentage": "92.87%", "elapsed_time": "1h 17m 38s", "remaining_time": "5m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153683}
-{"loss": 0.45530158, "grad_norm": 5.27339631, "learning_rate": 1e-08, "token_acc": 0.8463735, "epoch": 0.93056457, "global_step/max_steps": "717/771", "percentage": "93.00%", "elapsed_time": "1h 17m 47s", "remaining_time": "5m 51s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153628}
-{"loss": 0.39863926, "grad_norm": 5.40828071, "learning_rate": 1e-08, "token_acc": 0.86603773, "epoch": 0.93186243, "global_step/max_steps": "718/771", "percentage": "93.13%", "elapsed_time": "1h 17m 53s", "remaining_time": "5m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153647}
-{"loss": 0.39458311, "grad_norm": 5.16360327, "learning_rate": 1e-08, "token_acc": 0.87539935, "epoch": 0.93316029, "global_step/max_steps": "719/771", "percentage": "93.26%", "elapsed_time": "1h 17m 59s", "remaining_time": "5m 38s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153642}
-{"loss": 0.41542965, "grad_norm": 5.49851089, "learning_rate": 1e-08, "token_acc": 0.84877771, "epoch": 0.93445814, "global_step/max_steps": "720/771", "percentage": "93.39%", "elapsed_time": "1h 18m 7s", "remaining_time": "5m 32s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153607}
-{"loss": 0.33557755, "grad_norm": 4.59215112, "learning_rate": 1e-08, "token_acc": 0.88377196, "epoch": 0.935756, "global_step/max_steps": "721/771", "percentage": "93.51%", "elapsed_time": "1h 18m 13s", "remaining_time": "5m 25s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153618}
-{"loss": 0.43994433, "grad_norm": 5.7763779, "learning_rate": 1e-08, "token_acc": 0.84496605, "epoch": 0.93705386, "global_step/max_steps": "722/771", "percentage": "93.64%", "elapsed_time": "1h 18m 18s", "remaining_time": "5m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153651}
-{"loss": 0.36166382, "grad_norm": 6.01396601, "learning_rate": 1e-08, "token_acc": 0.86827588, "epoch": 0.93835172, "global_step/max_steps": "723/771", "percentage": "93.77%", "elapsed_time": "1h 18m 24s", "remaining_time": "5m 12s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153683}
-{"loss": 0.41984865, "grad_norm": 5.83719716, "learning_rate": 1e-08, "token_acc": 0.85361218, "epoch": 0.93964958, "global_step/max_steps": "724/771", "percentage": "93.90%", "elapsed_time": "1h 18m 31s", "remaining_time": "5m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153683}
-{"loss": 0.38921589, "grad_norm": 5.31929672, "learning_rate": 1e-08, "token_acc": 0.87271494, "epoch": 0.94094744, "global_step/max_steps": "725/771", "percentage": "94.03%", "elapsed_time": "1h 18m 36s", "remaining_time": "4m 59s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153727}
-{"loss": 0.34356782, "grad_norm": 5.00724428, "learning_rate": 1e-08, "token_acc": 0.8795023, "epoch": 0.9422453, "global_step/max_steps": "726/771", "percentage": "94.16%", "elapsed_time": "1h 18m 42s", "remaining_time": "4m 52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153725}
-{"loss": 0.48143113, "grad_norm": 5.98488021, "learning_rate": 1e-08, "token_acc": 0.84605175, "epoch": 0.94354315, "global_step/max_steps": "727/771", "percentage": "94.29%", "elapsed_time": "1h 18m 50s", "remaining_time": "4m 46s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153678}
-{"loss": 0.39779216, "grad_norm": 5.13744034, "learning_rate": 1e-08, "token_acc": 0.86686748, "epoch": 0.94484101, "global_step/max_steps": "728/771", "percentage": "94.42%", "elapsed_time": "1h 18m 58s", "remaining_time": "4m 39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153625}
-{"loss": 0.37225139, "grad_norm": 5.19142114, "learning_rate": 1e-08, "token_acc": 0.87290764, "epoch": 0.94613887, "global_step/max_steps": "729/771", "percentage": "94.55%", "elapsed_time": "1h 19m 4s", "remaining_time": "4m 33s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153663}
-{"loss": 0.37582052, "grad_norm": 5.5855548, "learning_rate": 1e-08, "token_acc": 0.88034809, "epoch": 0.94743673, "global_step/max_steps": "730/771", "percentage": "94.68%", "elapsed_time": "1h 19m 10s", "remaining_time": "4m 26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153661}
-{"loss": 0.35820341, "grad_norm": 5.58532462, "learning_rate": 1e-08, "token_acc": 0.87613714, "epoch": 0.94873459, "global_step/max_steps": "731/771", "percentage": "94.81%", "elapsed_time": "1h 19m 17s", "remaining_time": "4m 20s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15366}
-{"loss": 0.43215588, "grad_norm": 5.40005489, "learning_rate": 1e-08, "token_acc": 0.86394143, "epoch": 0.95003245, "global_step/max_steps": "732/771", "percentage": "94.94%", "elapsed_time": "1h 19m 23s", "remaining_time": "4m 13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153659}
-{"loss": 0.33942097, "grad_norm": 5.60682158, "learning_rate": 1e-08, "token_acc": 0.87747878, "epoch": 0.9513303, "global_step/max_steps": "733/771", "percentage": "95.07%", "elapsed_time": "1h 19m 29s", "remaining_time": "4m 7s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153688}
-{"loss": 0.40134636, "grad_norm": 5.22915245, "learning_rate": 1e-08, "token_acc": 0.86247665, "epoch": 0.95262816, "global_step/max_steps": "734/771", "percentage": "95.20%", "elapsed_time": "1h 19m 35s", "remaining_time": "4m 0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153717}
-{"loss": 0.37317061, "grad_norm": 5.21775145, "learning_rate": 1e-08, "token_acc": 0.87384617, "epoch": 0.95392602, "global_step/max_steps": "735/771", "percentage": "95.33%", "elapsed_time": "1h 19m 40s", "remaining_time": "3m 54s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153757}
-{"loss": 0.39507496, "grad_norm": 4.76530567, "learning_rate": 1e-08, "token_acc": 0.86930585, "epoch": 0.95522388, "global_step/max_steps": "736/771", "percentage": "95.46%", "elapsed_time": "1h 19m 46s", "remaining_time": "3m 47s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153769}
-{"loss": 0.40867198, "grad_norm": 5.00458315, "learning_rate": 1e-08, "token_acc": 0.86768019, "epoch": 0.95652174, "global_step/max_steps": "737/771", "percentage": "95.59%", "elapsed_time": "1h 19m 51s", "remaining_time": "3m 41s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153826}
-{"loss": 0.42150944, "grad_norm": 6.09063024, "learning_rate": 1e-08, "token_acc": 0.85955054, "epoch": 0.9578196, "global_step/max_steps": "738/771", "percentage": "95.72%", "elapsed_time": "1h 19m 58s", "remaining_time": "3m 34s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153792}
-{"loss": 0.41822201, "grad_norm": 6.18647013, "learning_rate": 0.0, "token_acc": 0.85594857, "epoch": 0.95911746, "global_step/max_steps": "739/771", "percentage": "95.85%", "elapsed_time": "1h 20m 5s", "remaining_time": "3m 28s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153783}
-{"loss": 0.41409862, "grad_norm": 6.00875348, "learning_rate": 0.0, "token_acc": 0.8679868, "epoch": 0.96041531, "global_step/max_steps": "740/771", "percentage": "95.98%", "elapsed_time": "1h 20m 12s", "remaining_time": "3m 21s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153767}
-{"loss": 0.36483344, "grad_norm": 4.95016078, "learning_rate": 0.0, "token_acc": 0.87743902, "epoch": 0.96171317, "global_step/max_steps": "741/771", "percentage": "96.11%", "elapsed_time": "1h 20m 18s", "remaining_time": "3m 15s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153787}
-{"loss": 0.47282746, "grad_norm": 5.57227711, "learning_rate": 0.0, "token_acc": 0.8429938, "epoch": 0.96301103, "global_step/max_steps": "742/771", "percentage": "96.24%", "elapsed_time": "1h 20m 24s", "remaining_time": "3m 8s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153788}
-{"loss": 0.39931613, "grad_norm": 5.02284864, "learning_rate": 0.0, "token_acc": 0.87599599, "epoch": 0.96430889, "global_step/max_steps": "743/771", "percentage": "96.37%", "elapsed_time": "1h 20m 30s", "remaining_time": "3m 2s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153813}
-{"loss": 0.45486939, "grad_norm": 5.4263201, "learning_rate": 0.0, "token_acc": 0.84690928, "epoch": 0.96560675, "global_step/max_steps": "744/771", "percentage": "96.50%", "elapsed_time": "1h 20m 36s", "remaining_time": "2m 55s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153822}
-{"loss": 0.52049232, "grad_norm": 5.77792672, "learning_rate": 0.0, "token_acc": 0.84064174, "epoch": 0.96690461, "global_step/max_steps": "745/771", "percentage": "96.63%", "elapsed_time": "1h 20m 43s", "remaining_time": "2m 49s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153802}
-{"loss": 0.44396812, "grad_norm": 5.63532116, "learning_rate": 0.0, "token_acc": 0.85667324, "epoch": 0.96820247, "global_step/max_steps": "746/771", "percentage": "96.76%", "elapsed_time": "1h 20m 48s", "remaining_time": "2m 42s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153853}
-{"loss": 0.42132062, "grad_norm": 5.86806939, "learning_rate": 0.0, "token_acc": 0.86725664, "epoch": 0.96950032, "global_step/max_steps": "747/771", "percentage": "96.89%", "elapsed_time": "1h 20m 55s", "remaining_time": "2m 36s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153834}
-{"loss": 0.36481649, "grad_norm": 5.24646361, "learning_rate": 0.0, "token_acc": 0.8821696, "epoch": 0.97079818, "global_step/max_steps": "748/771", "percentage": "97.02%", "elapsed_time": "1h 21m 2s", "remaining_time": "2m 29s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153829}
-{"loss": 0.42530459, "grad_norm": 5.6994077, "learning_rate": 0.0, "token_acc": 0.84934086, "epoch": 0.97209604, "global_step/max_steps": "749/771", "percentage": "97.15%", "elapsed_time": "1h 21m 10s", "remaining_time": "2m 23s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153778}
-{"loss": 0.39417523, "grad_norm": 5.42959167, "learning_rate": 0.0, "token_acc": 0.86166775, "epoch": 0.9733939, "global_step/max_steps": "750/771", "percentage": "97.28%", "elapsed_time": "1h 21m 15s", "remaining_time": "2m 16s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153821}
-{"loss": 0.47477221, "grad_norm": 5.46679599, "learning_rate": 0.0, "token_acc": 0.84512132, "epoch": 0.97469176, "global_step/max_steps": "751/771", "percentage": "97.41%", "elapsed_time": "1h 21m 24s", "remaining_time": "2m 10s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153762}
-{"loss": 0.3837015, "grad_norm": 5.47570164, "learning_rate": 0.0, "token_acc": 0.86535859, "epoch": 0.97598962, "global_step/max_steps": "752/771", "percentage": "97.54%", "elapsed_time": "1h 21m 30s", "remaining_time": "2m 3s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153783}
-{"loss": 0.39389563, "grad_norm": 4.96444393, "learning_rate": 0.0, "token_acc": 0.87555557, "epoch": 0.97728748, "global_step/max_steps": "753/771", "percentage": "97.67%", "elapsed_time": "1h 21m 36s", "remaining_time": "1m 57s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153776}
-{"loss": 0.41059345, "grad_norm": 5.01771499, "learning_rate": 0.0, "token_acc": 0.86204922, "epoch": 0.97858533, "global_step/max_steps": "754/771", "percentage": "97.80%", "elapsed_time": "1h 21m 43s", "remaining_time": "1m 50s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153766}
-{"loss": 0.45046622, "grad_norm": 5.45139094, "learning_rate": 0.0, "token_acc": 0.84888381, "epoch": 0.97988319, "global_step/max_steps": "755/771", "percentage": "97.92%", "elapsed_time": "1h 21m 51s", "remaining_time": "1m 44s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153723}
-{"loss": 0.36918288, "grad_norm": 5.41221544, "learning_rate": 0.0, "token_acc": 0.88227683, "epoch": 0.98118105, "global_step/max_steps": "756/771", "percentage": "98.05%", "elapsed_time": "1h 21m 58s", "remaining_time": "1m 37s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153714}
-{"loss": 0.40588376, "grad_norm": 5.4166745, "learning_rate": 0.0, "token_acc": 0.86369592, "epoch": 0.98247891, "global_step/max_steps": "757/771", "percentage": "98.18%", "elapsed_time": "1h 22m 5s", "remaining_time": "1m 31s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153678}
-{"loss": 0.35306412, "grad_norm": 4.99717566, "learning_rate": 0.0, "token_acc": 0.87990046, "epoch": 0.98377677, "global_step/max_steps": "758/771", "percentage": "98.31%", "elapsed_time": "1h 22m 13s", "remaining_time": "1m 24s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153654}
-{"loss": 0.43261099, "grad_norm": 5.07920255, "learning_rate": 0.0, "token_acc": 0.85554934, "epoch": 0.98507463, "global_step/max_steps": "759/771", "percentage": "98.44%", "elapsed_time": "1h 22m 20s", "remaining_time": "1m 18s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153618}
-{"loss": 0.32768464, "grad_norm": 5.05916639, "learning_rate": 0.0, "token_acc": 0.88508892, "epoch": 0.98637249, "global_step/max_steps": "760/771", "percentage": "98.57%", "elapsed_time": "1h 22m 26s", "remaining_time": "1m 11s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153629}
-{"loss": 0.39870238, "grad_norm": 5.68426815, "learning_rate": 0.0, "token_acc": 0.85899097, "epoch": 0.98767034, "global_step/max_steps": "761/771", "percentage": "98.70%", "elapsed_time": "1h 22m 33s", "remaining_time": "1m 5s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153619}
-{"loss": 0.43389344, "grad_norm": 5.33081196, "learning_rate": 0.0, "token_acc": 0.8611111, "epoch": 0.9889682, "global_step/max_steps": "762/771", "percentage": "98.83%", "elapsed_time": "1h 22m 42s", "remaining_time": "58s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153538}
-{"loss": 0.38503233, "grad_norm": 5.41317931, "learning_rate": 0.0, "token_acc": 0.8629508, "epoch": 0.99026606, "global_step/max_steps": "763/771", "percentage": "98.96%", "elapsed_time": "1h 22m 48s", "remaining_time": "52s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153567}
-{"loss": 0.4131062, "grad_norm": 4.92832171, "learning_rate": 0.0, "token_acc": 0.86566418, "epoch": 0.99156392, "global_step/max_steps": "764/771", "percentage": "99.09%", "elapsed_time": "1h 22m 56s", "remaining_time": "45s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15353}
-{"loss": 0.35276672, "grad_norm": 5.01732617, "learning_rate": 0.0, "token_acc": 0.88176727, "epoch": 0.99286178, "global_step/max_steps": "765/771", "percentage": "99.22%", "elapsed_time": "1h 23m 2s", "remaining_time": "39s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153523}
-{"loss": 0.48030004, "grad_norm": 5.83862527, "learning_rate": 0.0, "token_acc": 0.83312577, "epoch": 0.99415964, "global_step/max_steps": "766/771", "percentage": "99.35%", "elapsed_time": "1h 23m 8s", "remaining_time": "32s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153564}
-{"loss": 0.37795341, "grad_norm": 6.23095424, "learning_rate": 0.0, "token_acc": 0.875296, "epoch": 0.9954575, "global_step/max_steps": "767/771", "percentage": "99.48%", "elapsed_time": "1h 23m 14s", "remaining_time": "26s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153567}
-{"loss": 0.42475373, "grad_norm": 5.88536631, "learning_rate": 0.0, "token_acc": 0.85551077, "epoch": 0.99675535, "global_step/max_steps": "768/771", "percentage": "99.61%", "elapsed_time": "1h 23m 19s", "remaining_time": "19s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153628}
-{"loss": 0.42934844, "grad_norm": 5.9261649, "learning_rate": 0.0, "token_acc": 0.8687259, "epoch": 0.99805321, "global_step/max_steps": "769/771", "percentage": "99.74%", "elapsed_time": "1h 23m 26s", "remaining_time": "13s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153594}
-{"loss": 0.42079648, "grad_norm": 5.62414904, "learning_rate": 0.0, "token_acc": 0.85892856, "epoch": 0.99935107, "global_step/max_steps": "770/771", "percentage": "99.87%", "elapsed_time": "1h 23m 33s", "remaining_time": "6s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153579}
-{"loss": 0.4523626, "grad_norm": 7.85611685, "learning_rate": 0.0, "token_acc": 0.86000001, "epoch": 1.0, "global_step/max_steps": "771/771", "percentage": "100.00%", "elapsed_time": "1h 23m 36s", "remaining_time": "0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.153699}
-{"eval_loss": 0.40978318, "eval_runtime": 4.4429, "eval_samples_per_second": 2.701, "eval_steps_per_second": 0.45, "eval_token_acc": 0.86865878, "epoch": 1.0, "global_step/max_steps": "771/771", "percentage": "100.00%", "elapsed_time": "1h 23m 40s", "remaining_time": "0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.15356}
-{"eval_loss": 0.40978318, "eval_runtime": 3.7698, "eval_samples_per_second": 3.183, "eval_steps_per_second": 0.531, "eval_token_acc": 0.86865878, "epoch": 1.0, "global_step/max_steps": "771/771", "percentage": "100.00%", "elapsed_time": "1h 27m 16s", "remaining_time": "0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.147224}
-{"train_runtime": 5463.5789, "train_samples_per_second": 2.257, "train_steps_per_second": 0.141, "total_flos": 67367954276352.0, "train_loss": 0.46494156, "epoch": 1.0, "global_step/max_steps": "771/771", "percentage": "100.00%", "elapsed_time": "1h 31m 3s", "remaining_time": "0s", "memory(GiB)": 24.16, "train_speed(iter/s)": 0.141118}
-{"train_dataset": "2734.178870±829.415066, min=980.000000, max=7751.000000, size=12333", "val_dataset": "2211.750000±637.322671, min=1409.000000, max=3469.000000, size=12", "model_parameter_info": "Qwen2ForCausalLM: 7615.6165M Params (7615.6165M Trainable [100.0000%]), 0.0001M Buffers.", "last_model_checkpoint": "/group/40143/hongzhuyi/ms-swift/output/v3-20250817-210120/checkpoint-771", "best_model_checkpoint": "/group/40143/hongzhuyi/ms-swift/output/v3-20250817-210120/checkpoint-771", "best_metric": 0.40978318, "global_step": 771, "log_history": [{"loss": 1.2073957920074463, "grad_norm": 30.919563976341703, "learning_rate": 2.564102564102564e-08, "token_acc": 0.7284113168716431, "epoch": 0.0012978585334198572, "step": 1}, {"loss": 1.0541620254516602, "grad_norm": 29.4553877777314, "learning_rate": 5.128205128205128e-08, "token_acc": 0.7553571462631226, "epoch": 0.0025957170668397143, "step": 2}, {"loss": 1.1734485626220703, "grad_norm": 30.429896152342828, "learning_rate": 7.692307692307692e-08, "token_acc": 0.7379612326622009, "epoch": 0.003893575600259572, "step": 3}, {"loss": 1.1455117464065552, "grad_norm": 32.06780099246571, "learning_rate": 1.0256410256410256e-07, "token_acc": 0.744990885257721, "epoch": 0.005191434133679429, "step": 4}, {"loss": 1.188188910484314, "grad_norm": 32.05685502737924, "learning_rate": 1.2820512820512818e-07, "token_acc": 0.7533156275749207, "epoch": 0.006489292667099286, "step": 5}, {"loss": 1.1837899684906006, "grad_norm": 29.300647834869917, "learning_rate": 1.5384615384615385e-07, "token_acc": 0.752212405204773, "epoch": 0.007787151200519144, "step": 6}, {"loss": 1.206855297088623, "grad_norm": 33.459636861937675, "learning_rate": 1.7948717948717948e-07, "token_acc": 0.7354430556297302, "epoch": 0.009085009733939001, "step": 7}, {"loss": 1.213451862335205, "grad_norm": 31.775991386276456, "learning_rate": 2.0512820512820512e-07, "token_acc": 0.7286606431007385, "epoch": 0.010382868267358857, "step": 8}, {"loss": 1.240691900253296, "grad_norm": 31.172617942941123, "learning_rate": 2.3076923076923078e-07, "token_acc": 0.7342615127563477, "epoch": 0.011680726800778715, "step": 9}, {"loss": 1.2104555368423462, "grad_norm": 29.876577387089032, "learning_rate": 2.5641025641025636e-07, "token_acc": 0.7450628280639648, "epoch": 0.012978585334198572, "step": 10}, {"loss": 1.088868260383606, "grad_norm": 28.52313429120963, "learning_rate": 2.8205128205128203e-07, "token_acc": 0.765239953994751, "epoch": 0.01427644386761843, "step": 11}, {"loss": 1.1037535667419434, "grad_norm": 26.519945105060764, "learning_rate": 3.076923076923077e-07, "token_acc": 0.7514285445213318, "epoch": 0.015574302401038288, "step": 12}, {"loss": 1.2534079551696777, "grad_norm": 29.65570190920769, "learning_rate": 3.333333333333333e-07, "token_acc": 0.7111984491348267, "epoch": 0.016872160934458143, "step": 13}, {"loss": 1.0669257640838623, "grad_norm": 28.368443602940054, "learning_rate": 3.5897435897435896e-07, "token_acc": 0.7394685745239258, "epoch": 0.018170019467878003, "step": 14}, {"loss": 1.2145264148712158, "grad_norm": 26.95997143734018, "learning_rate": 3.8461538461538463e-07, "token_acc": 0.7246913313865662, "epoch": 0.01946787800129786, "step": 15}, {"loss": 0.9607883095741272, "grad_norm": 24.755623987739213, "learning_rate": 4.1025641025641024e-07, "token_acc": 0.7707622051239014, "epoch": 0.020765736534717714, "step": 16}, {"loss": 0.9967614412307739, "grad_norm": 25.008802287060636, "learning_rate": 4.358974358974359e-07, "token_acc": 0.7385976910591125, "epoch": 0.022063595068137574, "step": 17}, {"loss": 1.1137745380401611, "grad_norm": 24.016779075814654, "learning_rate": 4.6153846153846156e-07, "token_acc": 0.7369289994239807, "epoch": 0.02336145360155743, "step": 18}, {"loss": 1.0227105617523193, "grad_norm": 23.51495048435148, "learning_rate": 4.871794871794871e-07, "token_acc": 0.7549487948417664, "epoch": 0.02465931213497729, "step": 19}, {"loss": 0.8696514964103699, "grad_norm": 17.380557604560114, "learning_rate": 5.128205128205127e-07, "token_acc": 0.7709198594093323, "epoch": 0.025957170668397145, "step": 20}, {"loss": 0.9409217834472656, "grad_norm": 17.728783905322473, "learning_rate": 5.384615384615384e-07, "token_acc": 0.7537878751754761, "epoch": 0.027255029201817, "step": 21}, {"loss": 0.8506258130073547, "grad_norm": 15.601689334222584, "learning_rate": 5.641025641025641e-07, "token_acc": 0.7641304135322571, "epoch": 0.02855288773523686, "step": 22}, {"loss": 0.8144149780273438, "grad_norm": 17.07744317522643, "learning_rate": 5.897435897435898e-07, "token_acc": 0.7845744490623474, "epoch": 0.029850746268656716, "step": 23}, {"loss": 0.8471887707710266, "grad_norm": 14.490727552869945, "learning_rate": 6.153846153846154e-07, "token_acc": 0.7736486196517944, "epoch": 0.031148604802076575, "step": 24}, {"loss": 0.7746421098709106, "grad_norm": 15.134064608213837, "learning_rate": 6.410256410256411e-07, "token_acc": 0.7909859418869019, "epoch": 0.03244646333549643, "step": 25}, {"loss": 0.705138087272644, "grad_norm": 11.3930129097124, "learning_rate": 6.666666666666666e-07, "token_acc": 0.7954545617103577, "epoch": 0.03374432186891629, "step": 26}, {"loss": 0.7476588487625122, "grad_norm": 13.507010803848585, "learning_rate": 6.923076923076922e-07, "token_acc": 0.7762284278869629, "epoch": 0.03504218040233614, "step": 27}, {"loss": 0.876696765422821, "grad_norm": 12.406186918205325, "learning_rate": 7.179487179487179e-07, "token_acc": 0.7497013211250305, "epoch": 0.036340038935756006, "step": 28}, {"loss": 0.7878865003585815, "grad_norm": 11.569227593285898, "learning_rate": 7.435897435897435e-07, "token_acc": 0.7679521441459656, "epoch": 0.03763789746917586, "step": 29}, {"loss": 0.7378405332565308, "grad_norm": 9.951983713961258, "learning_rate": 7.692307692307693e-07, "token_acc": 0.7742355465888977, "epoch": 0.03893575600259572, "step": 30}, {"loss": 0.7792090177536011, "grad_norm": 11.942348147910385, "learning_rate": 7.948717948717948e-07, "token_acc": 0.780283510684967, "epoch": 0.04023361453601557, "step": 31}, {"loss": 0.7271275520324707, "grad_norm": 10.380433585165367, "learning_rate": 8.205128205128205e-07, "token_acc": 0.7876221537590027, "epoch": 0.04153147306943543, "step": 32}, {"loss": 0.7299270629882812, "grad_norm": 10.125606545451124, "learning_rate": 8.461538461538461e-07, "token_acc": 0.7992021441459656, "epoch": 0.04282933160285529, "step": 33}, {"loss": 0.7314634323120117, "grad_norm": 11.060303072556312, "learning_rate": 8.717948717948718e-07, "token_acc": 0.7895095348358154, "epoch": 0.04412719013627515, "step": 34}, {"loss": 0.6755257844924927, "grad_norm": 9.035657951858456, "learning_rate": 8.974358974358974e-07, "token_acc": 0.800000011920929, "epoch": 0.045425048669695, "step": 35}, {"loss": 0.7538129687309265, "grad_norm": 10.417444791314718, "learning_rate": 9.230769230769231e-07, "token_acc": 0.7668463587760925, "epoch": 0.04672290720311486, "step": 36}, {"loss": 0.579813539981842, "grad_norm": 8.72844922445674, "learning_rate": 9.487179487179486e-07, "token_acc": 0.8306784629821777, "epoch": 0.048020765736534715, "step": 37}, {"loss": 0.7169801592826843, "grad_norm": 10.205904569536893, "learning_rate": 9.743589743589742e-07, "token_acc": 0.7897763848304749, "epoch": 0.04931862426995458, "step": 38}, {"loss": 0.7268091440200806, "grad_norm": 9.922715714789875, "learning_rate": 1e-06, "token_acc": 0.7863247990608215, "epoch": 0.050616482803374434, "step": 39}, {"loss": 0.7167118191719055, "grad_norm": 9.50620206049049, "learning_rate": 9.999953951347588e-07, "token_acc": 0.78724604845047, "epoch": 0.05191434133679429, "step": 40}, {"loss": 0.6227507591247559, "grad_norm": 9.729380258710586, "learning_rate": 9.99981580623855e-07, "token_acc": 0.8148396015167236, "epoch": 0.053212199870214145, "step": 41}, {"loss": 0.6772440671920776, "grad_norm": 8.731224958570053, "learning_rate": 9.999585567217438e-07, "token_acc": 0.7937853336334229, "epoch": 0.054510058403634, "step": 42}, {"loss": 0.6384307146072388, "grad_norm": 8.14765762495734, "learning_rate": 9.999263238525135e-07, "token_acc": 0.8031495809555054, "epoch": 0.055807916937053864, "step": 43}, {"loss": 0.6757386326789856, "grad_norm": 8.569676042124787, "learning_rate": 9.998848826098757e-07, "token_acc": 0.8014934659004211, "epoch": 0.05710577547047372, "step": 44}, {"loss": 0.6165952682495117, "grad_norm": 8.54347956651918, "learning_rate": 9.998342337571565e-07, "token_acc": 0.8128617405891418, "epoch": 0.058403634003893576, "step": 45}, {"loss": 0.6217988729476929, "grad_norm": 8.347161991552696, "learning_rate": 9.997743782272799e-07, "token_acc": 0.812167763710022, "epoch": 0.05970149253731343, "step": 46}, {"loss": 0.6249406337738037, "grad_norm": 8.083004527118586, "learning_rate": 9.997053171227525e-07, "token_acc": 0.8195439577102661, "epoch": 0.06099935107073329, "step": 47}, {"loss": 0.6467970609664917, "grad_norm": 7.716296233792572, "learning_rate": 9.99627051715643e-07, "token_acc": 0.806641697883606, "epoch": 0.06229720960415315, "step": 48}, {"loss": 0.6372373104095459, "grad_norm": 7.692916489485926, "learning_rate": 9.995395834475576e-07, "token_acc": 0.7998829483985901, "epoch": 0.063595068137573, "step": 49}, {"loss": 0.6116613149642944, "grad_norm": 7.116904918318367, "learning_rate": 9.994429139296149e-07, "token_acc": 0.8199413418769836, "epoch": 0.06489292667099286, "step": 50}, {"loss": 0.542988121509552, "grad_norm": 7.052180270715033, "learning_rate": 9.993370449424152e-07, "token_acc": 0.8332422375679016, "epoch": 0.06619078520441272, "step": 51}, {"loss": 0.6131799817085266, "grad_norm": 7.704666204473081, "learning_rate": 9.99221978436008e-07, "token_acc": 0.8250289559364319, "epoch": 0.06748864373783257, "step": 52}, {"loss": 0.6436275243759155, "grad_norm": 8.1604541036591, "learning_rate": 9.990977165298569e-07, "token_acc": 0.8038163185119629, "epoch": 0.06878650227125244, "step": 53}, {"loss": 0.5770130157470703, "grad_norm": 7.312359705372607, "learning_rate": 9.989642615127988e-07, "token_acc": 0.8215526938438416, "epoch": 0.07008436080467229, "step": 54}, {"loss": 0.5776693224906921, "grad_norm": 9.402704755900535, "learning_rate": 9.988216158430032e-07, "token_acc": 0.8289473652839661, "epoch": 0.07138221933809215, "step": 55}, {"loss": 0.5161153078079224, "grad_norm": 7.684324217062886, "learning_rate": 9.986697821479264e-07, "token_acc": 0.8442211151123047, "epoch": 0.07268007787151201, "step": 56}, {"loss": 0.6426922678947449, "grad_norm": 8.085422124790577, "learning_rate": 9.985087632242632e-07, "token_acc": 0.8007922768592834, "epoch": 0.07397793640493186, "step": 57}, {"loss": 0.4726627469062805, "grad_norm": 7.1956823544772694, "learning_rate": 9.983385620378958e-07, "token_acc": 0.8499073386192322, "epoch": 0.07527579493835172, "step": 58}, {"loss": 0.5293642282485962, "grad_norm": 7.102261859293327, "learning_rate": 9.981591817238378e-07, "token_acc": 0.8348680138587952, "epoch": 0.07657365347177157, "step": 59}, {"loss": 0.6170727014541626, "grad_norm": 8.300028532324488, "learning_rate": 9.97970625586178e-07, "token_acc": 0.8204804062843323, "epoch": 0.07787151200519143, "step": 60}, {"loss": 0.5797489881515503, "grad_norm": 8.32193269760583, "learning_rate": 9.977728970980191e-07, "token_acc": 0.8182359933853149, "epoch": 0.0791693705386113, "step": 61}, {"loss": 0.45333659648895264, "grad_norm": 7.286256113665872, "learning_rate": 9.975659999014129e-07, "token_acc": 0.8571428656578064, "epoch": 0.08046722907203115, "step": 62}, {"loss": 0.584449291229248, "grad_norm": 7.291128665279543, "learning_rate": 9.973499378072946e-07, "token_acc": 0.8212951421737671, "epoch": 0.08176508760545101, "step": 63}, {"loss": 0.5545591711997986, "grad_norm": 7.271445982929042, "learning_rate": 9.97124714795411e-07, "token_acc": 0.8304130434989929, "epoch": 0.08306294613887086, "step": 64}, {"loss": 0.5223845839500427, "grad_norm": 7.039161838908619, "learning_rate": 9.968903350142493e-07, "token_acc": 0.8305898308753967, "epoch": 0.08436080467229072, "step": 65}, {"loss": 0.5445581674575806, "grad_norm": 8.340797075601065, "learning_rate": 9.96646802780958e-07, "token_acc": 0.8313329219818115, "epoch": 0.08565866320571058, "step": 66}, {"loss": 0.5529566407203674, "grad_norm": 8.569850559854885, "learning_rate": 9.9639412258127e-07, "token_acc": 0.8277050256729126, "epoch": 0.08695652173913043, "step": 67}, {"loss": 0.5676229000091553, "grad_norm": 6.990415811055554, "learning_rate": 9.961322990694184e-07, "token_acc": 0.8238993883132935, "epoch": 0.0882543802725503, "step": 68}, {"loss": 0.5514928102493286, "grad_norm": 7.148494817642264, "learning_rate": 9.958613370680507e-07, "token_acc": 0.8217224478721619, "epoch": 0.08955223880597014, "step": 69}, {"loss": 0.49733680486679077, "grad_norm": 6.710093734847739, "learning_rate": 9.955812415681413e-07, "token_acc": 0.8449848294258118, "epoch": 0.09085009733939, "step": 70}, {"loss": 0.4500690698623657, "grad_norm": 6.669095794878708, "learning_rate": 9.952920177288985e-07, "token_acc": 0.8530276417732239, "epoch": 0.09214795587280987, "step": 71}, {"loss": 0.5479635000228882, "grad_norm": 6.937840366557044, "learning_rate": 9.94993670877669e-07, "token_acc": 0.8283631801605225, "epoch": 0.09344581440622972, "step": 72}, {"loss": 0.5342953205108643, "grad_norm": 7.187437262780465, "learning_rate": 9.946862065098413e-07, "token_acc": 0.8340908885002136, "epoch": 0.09474367293964958, "step": 73}, {"loss": 0.5211719274520874, "grad_norm": 7.730622116577001, "learning_rate": 9.943696302887435e-07, "token_acc": 0.8329764604568481, "epoch": 0.09604153147306943, "step": 74}, {"loss": 0.565887987613678, "grad_norm": 8.922463115062083, "learning_rate": 9.940439480455385e-07, "token_acc": 0.8203631639480591, "epoch": 0.0973393900064893, "step": 75}, {"loss": 0.49659204483032227, "grad_norm": 6.752770568079428, "learning_rate": 9.937091657791179e-07, "token_acc": 0.8397436141967773, "epoch": 0.09863724853990916, "step": 76}, {"loss": 0.5170562863349915, "grad_norm": 7.784583149833177, "learning_rate": 9.933652896559907e-07, "token_acc": 0.8296530246734619, "epoch": 0.099935107073329, "step": 77}, {"loss": 0.5670064091682434, "grad_norm": 7.318874964884326, "learning_rate": 9.930123260101696e-07, "token_acc": 0.8285163640975952, "epoch": 0.10123296560674887, "step": 78}, {"loss": 0.43067240715026855, "grad_norm": 6.466601476587888, "learning_rate": 9.926502813430545e-07, "token_acc": 0.8617143034934998, "epoch": 0.10253082414016872, "step": 79}, {"loss": 0.5660209655761719, "grad_norm": 7.244489289809093, "learning_rate": 9.922791623233131e-07, "token_acc": 0.8169170618057251, "epoch": 0.10382868267358858, "step": 80}, {"loss": 0.5967773199081421, "grad_norm": 7.216548982287426, "learning_rate": 9.918989757867583e-07, "token_acc": 0.8196721076965332, "epoch": 0.10512654120700844, "step": 81}, {"loss": 0.46779581904411316, "grad_norm": 7.440589409112711, "learning_rate": 9.915097287362202e-07, "token_acc": 0.8574029207229614, "epoch": 0.10642439974042829, "step": 82}, {"loss": 0.5549216270446777, "grad_norm": 7.524401616628881, "learning_rate": 9.911114283414204e-07, "token_acc": 0.8293241858482361, "epoch": 0.10772225827384815, "step": 83}, {"loss": 0.5450838804244995, "grad_norm": 8.036125907133918, "learning_rate": 9.907040819388371e-07, "token_acc": 0.8270308375358582, "epoch": 0.109020116807268, "step": 84}, {"loss": 0.4851304292678833, "grad_norm": 7.764202642464177, "learning_rate": 9.902876970315715e-07, "token_acc": 0.8424696922302246, "epoch": 0.11031797534068787, "step": 85}, {"loss": 0.4764317572116852, "grad_norm": 7.048644956941173, "learning_rate": 9.898622812892091e-07, "token_acc": 0.8554140329360962, "epoch": 0.11161583387410773, "step": 86}, {"loss": 0.4595072865486145, "grad_norm": 6.247412306694184, "learning_rate": 9.894278425476788e-07, "token_acc": 0.8469945192337036, "epoch": 0.11291369240752758, "step": 87}, {"loss": 0.6054021716117859, "grad_norm": 6.977813332840897, "learning_rate": 9.88984388809108e-07, "token_acc": 0.821052610874176, "epoch": 0.11421155094094744, "step": 88}, {"loss": 0.48031315207481384, "grad_norm": 7.123675917336406, "learning_rate": 9.885319282416754e-07, "token_acc": 0.8404040336608887, "epoch": 0.11550940947436729, "step": 89}, {"loss": 0.5327516794204712, "grad_norm": 6.91062515558268, "learning_rate": 9.880704691794607e-07, "token_acc": 0.8222841024398804, "epoch": 0.11680726800778715, "step": 90}, {"loss": 0.5744554996490479, "grad_norm": 8.04635131087033, "learning_rate": 9.876000201222912e-07, "token_acc": 0.8177631497383118, "epoch": 0.11810512654120701, "step": 91}, {"loss": 0.4581294059753418, "grad_norm": 6.166758706493124, "learning_rate": 9.871205897355849e-07, "token_acc": 0.8516483306884766, "epoch": 0.11940298507462686, "step": 92}, {"loss": 0.45353567600250244, "grad_norm": 5.931306041008108, "learning_rate": 9.866321868501912e-07, "token_acc": 0.8482252359390259, "epoch": 0.12070084360804673, "step": 93}, {"loss": 0.49574512243270874, "grad_norm": 7.280350541790318, "learning_rate": 9.861348204622279e-07, "token_acc": 0.8390949368476868, "epoch": 0.12199870214146658, "step": 94}, {"loss": 0.4942413568496704, "grad_norm": 6.20537518435188, "learning_rate": 9.856284997329157e-07, "token_acc": 0.8394688963890076, "epoch": 0.12329656067488644, "step": 95}, {"loss": 0.5417047739028931, "grad_norm": 7.25285627330495, "learning_rate": 9.851132339884095e-07, "token_acc": 0.8327376842498779, "epoch": 0.1245944192083063, "step": 96}, {"loss": 0.4666021466255188, "grad_norm": 7.40468971327502, "learning_rate": 9.845890327196266e-07, "token_acc": 0.8490098714828491, "epoch": 0.12589227774172615, "step": 97}, {"loss": 0.6403089761734009, "grad_norm": 7.854819034231503, "learning_rate": 9.84055905582072e-07, "token_acc": 0.8067025542259216, "epoch": 0.127190136275146, "step": 98}, {"loss": 0.5978323221206665, "grad_norm": 6.832860189597155, "learning_rate": 9.835138623956602e-07, "token_acc": 0.8158996105194092, "epoch": 0.12848799480856588, "step": 99}, {"loss": 0.4787721037864685, "grad_norm": 6.56744045957945, "learning_rate": 9.82962913144534e-07, "token_acc": 0.8594035506248474, "epoch": 0.12978585334198572, "step": 100}, {"loss": 0.47874563932418823, "grad_norm": 7.344105888023059, "learning_rate": 9.824030679768822e-07, "token_acc": 0.8424983024597168, "epoch": 0.13108371187540557, "step": 101}, {"loss": 0.46582871675491333, "grad_norm": 6.178605362303447, "learning_rate": 9.818343372047507e-07, "token_acc": 0.8462353944778442, "epoch": 0.13238157040882545, "step": 102}, {"loss": 0.4934588074684143, "grad_norm": 6.474537816143208, "learning_rate": 9.81256731303854e-07, "token_acc": 0.8462867140769958, "epoch": 0.1336794289422453, "step": 103}, {"loss": 0.5657716989517212, "grad_norm": 6.426821130042664, "learning_rate": 9.806702609133811e-07, "token_acc": 0.8232618570327759, "epoch": 0.13497728747566515, "step": 104}, {"loss": 0.45083731412887573, "grad_norm": 6.678602819422242, "learning_rate": 9.800749368358007e-07, "token_acc": 0.8539553880691528, "epoch": 0.136275146009085, "step": 105}, {"loss": 0.505651593208313, "grad_norm": 6.56708987819375, "learning_rate": 9.794707700366617e-07, "token_acc": 0.8325608372688293, "epoch": 0.13757300454250487, "step": 106}, {"loss": 0.5850040912628174, "grad_norm": 6.6877351471467055, "learning_rate": 9.788577716443901e-07, "token_acc": 0.8122676610946655, "epoch": 0.13887086307592472, "step": 107}, {"loss": 0.4262653589248657, "grad_norm": 6.005765679069631, "learning_rate": 9.782359529500866e-07, "token_acc": 0.8710888624191284, "epoch": 0.14016872160934457, "step": 108}, {"loss": 0.4163731634616852, "grad_norm": 6.3456367251598715, "learning_rate": 9.776053254073158e-07, "token_acc": 0.8661971688270569, "epoch": 0.14146658014276445, "step": 109}, {"loss": 0.4961038827896118, "grad_norm": 6.190233889255689, "learning_rate": 9.769659006318975e-07, "token_acc": 0.8401083946228027, "epoch": 0.1427644386761843, "step": 110}, {"loss": 0.5107208490371704, "grad_norm": 6.656119118924284, "learning_rate": 9.763176904016913e-07, "token_acc": 0.8394160866737366, "epoch": 0.14406229720960415, "step": 111}, {"loss": 0.5837826728820801, "grad_norm": 8.091698257269336, "learning_rate": 9.7566070665638e-07, "token_acc": 0.8214285969734192, "epoch": 0.14536015574302402, "step": 112}, {"loss": 0.47541216015815735, "grad_norm": 6.4210445381730725, "learning_rate": 9.749949614972505e-07, "token_acc": 0.846441924571991, "epoch": 0.14665801427644387, "step": 113}, {"loss": 0.533719539642334, "grad_norm": 6.843032617989963, "learning_rate": 9.743204671869693e-07, "token_acc": 0.8258839249610901, "epoch": 0.14795587280986372, "step": 114}, {"loss": 0.5885111093521118, "grad_norm": 6.225297097197523, "learning_rate": 9.736372361493582e-07, "token_acc": 0.8155146837234497, "epoch": 0.14925373134328357, "step": 115}, {"loss": 0.4229719042778015, "grad_norm": 5.828090506683334, "learning_rate": 9.72945280969165e-07, "token_acc": 0.8632258176803589, "epoch": 0.15055158987670345, "step": 116}, {"loss": 0.4321477711200714, "grad_norm": 5.856300870762244, "learning_rate": 9.722446143918305e-07, "token_acc": 0.8621281385421753, "epoch": 0.1518494484101233, "step": 117}, {"loss": 0.46930426359176636, "grad_norm": 6.329242709827265, "learning_rate": 9.715352493232557e-07, "token_acc": 0.8574097156524658, "epoch": 0.15314730694354314, "step": 118}, {"loss": 0.4934834837913513, "grad_norm": 6.6068238236187655, "learning_rate": 9.70817198829563e-07, "token_acc": 0.8491864800453186, "epoch": 0.15444516547696302, "step": 119}, {"loss": 0.4968918561935425, "grad_norm": 6.3082150893496, "learning_rate": 9.70090476136855e-07, "token_acc": 0.8394753336906433, "epoch": 0.15574302401038287, "step": 120}, {"loss": 0.46527567505836487, "grad_norm": 5.995615663747215, "learning_rate": 9.693550946309721e-07, "token_acc": 0.8515942096710205, "epoch": 0.15704088254380272, "step": 121}, {"loss": 0.49576956033706665, "grad_norm": 6.648860553781382, "learning_rate": 9.686110678572454e-07, "token_acc": 0.8335434794425964, "epoch": 0.1583387410772226, "step": 122}, {"loss": 0.4702960252761841, "grad_norm": 6.7938946718616195, "learning_rate": 9.678584095202469e-07, "token_acc": 0.8496824502944946, "epoch": 0.15963659961064244, "step": 123}, {"loss": 0.5581609010696411, "grad_norm": 6.921483256989755, "learning_rate": 9.670971334835373e-07, "token_acc": 0.830900251865387, "epoch": 0.1609344581440623, "step": 124}, {"loss": 0.3804805278778076, "grad_norm": 6.225341432597994, "learning_rate": 9.66327253769411e-07, "token_acc": 0.86993008852005, "epoch": 0.16223231667748214, "step": 125}, {"loss": 0.3716540038585663, "grad_norm": 5.703286712849288, "learning_rate": 9.655487845586375e-07, "token_acc": 0.8730587363243103, "epoch": 0.16353017521090202, "step": 126}, {"loss": 0.43919363617897034, "grad_norm": 6.052491090433265, "learning_rate": 9.647617401902002e-07, "token_acc": 0.8487499952316284, "epoch": 0.16482803374432187, "step": 127}, {"loss": 0.4714812934398651, "grad_norm": 6.401060596371769, "learning_rate": 9.639661351610314e-07, "token_acc": 0.8415841460227966, "epoch": 0.16612589227774172, "step": 128}, {"loss": 0.5463918447494507, "grad_norm": 6.823027161064388, "learning_rate": 9.631619841257474e-07, "token_acc": 0.829431414604187, "epoch": 0.1674237508111616, "step": 129}, {"loss": 0.45923417806625366, "grad_norm": 5.799762614418878, "learning_rate": 9.623493018963767e-07, "token_acc": 0.8482088446617126, "epoch": 0.16872160934458144, "step": 130}, {"loss": 0.5359205007553101, "grad_norm": 6.527337185254068, "learning_rate": 9.61528103442088e-07, "token_acc": 0.8375540375709534, "epoch": 0.1700194678780013, "step": 131}, {"loss": 0.5053199529647827, "grad_norm": 6.774234715643562, "learning_rate": 9.60698403888914e-07, "token_acc": 0.8444722294807434, "epoch": 0.17131732641142117, "step": 132}, {"loss": 0.5295901298522949, "grad_norm": 5.621919914130846, "learning_rate": 9.598602185194733e-07, "token_acc": 0.8349705338478088, "epoch": 0.17261518494484102, "step": 133}, {"loss": 0.48809027671813965, "grad_norm": 6.852541025754287, "learning_rate": 9.590135627726886e-07, "token_acc": 0.8429697751998901, "epoch": 0.17391304347826086, "step": 134}, {"loss": 0.40907081961631775, "grad_norm": 7.564785290981224, "learning_rate": 9.581584522435023e-07, "token_acc": 0.8682634830474854, "epoch": 0.1752109020116807, "step": 135}, {"loss": 0.4874414801597595, "grad_norm": 6.177988078962284, "learning_rate": 9.572949026825896e-07, "token_acc": 0.8464996814727783, "epoch": 0.1765087605451006, "step": 136}, {"loss": 0.5382141470909119, "grad_norm": 6.251927564149854, "learning_rate": 9.564229299960677e-07, "token_acc": 0.8230683207511902, "epoch": 0.17780661907852044, "step": 137}, {"loss": 0.4843384921550751, "grad_norm": 5.383748710721499, "learning_rate": 9.555425502452037e-07, "token_acc": 0.8454059362411499, "epoch": 0.1791044776119403, "step": 138}, {"loss": 0.5420985817909241, "grad_norm": 7.480609904422329, "learning_rate": 9.546537796461179e-07, "token_acc": 0.8309944868087769, "epoch": 0.18040233614536016, "step": 139}, {"loss": 0.5412498712539673, "grad_norm": 6.907661159836815, "learning_rate": 9.537566345694856e-07, "token_acc": 0.8220820426940918, "epoch": 0.18170019467878, "step": 140}, {"loss": 0.480823814868927, "grad_norm": 6.79293144595527, "learning_rate": 9.528511315402357e-07, "token_acc": 0.8514030575752258, "epoch": 0.18299805321219986, "step": 141}, {"loss": 0.5245472192764282, "grad_norm": 6.9664425946995365, "learning_rate": 9.519372872372458e-07, "token_acc": 0.8447880744934082, "epoch": 0.18429591174561974, "step": 142}, {"loss": 0.49625080823898315, "grad_norm": 7.035044353550302, "learning_rate": 9.510151184930353e-07, "token_acc": 0.8496188521385193, "epoch": 0.1855937702790396, "step": 143}, {"loss": 0.49816709756851196, "grad_norm": 6.2088124431050895, "learning_rate": 9.500846422934555e-07, "token_acc": 0.8391386866569519, "epoch": 0.18689162881245944, "step": 144}, {"loss": 0.46635526418685913, "grad_norm": 6.138790467694577, "learning_rate": 9.491458757773765e-07, "token_acc": 0.8461538553237915, "epoch": 0.18818948734587929, "step": 145}, {"loss": 0.5226001739501953, "grad_norm": 6.652733578694763, "learning_rate": 9.481988362363712e-07, "token_acc": 0.8500948548316956, "epoch": 0.18948734587929916, "step": 146}, {"loss": 0.5186076760292053, "grad_norm": 6.478994243120857, "learning_rate": 9.472435411143977e-07, "token_acc": 0.8333333134651184, "epoch": 0.190785204412719, "step": 147}, {"loss": 0.45830702781677246, "grad_norm": 6.700763328594452, "learning_rate": 9.462800080074773e-07, "token_acc": 0.8608211278915405, "epoch": 0.19208306294613886, "step": 148}, {"loss": 0.45990198850631714, "grad_norm": 5.83063002711775, "learning_rate": 9.453082546633702e-07, "token_acc": 0.8455930948257446, "epoch": 0.19338092147955874, "step": 149}, {"loss": 0.45817840099334717, "grad_norm": 6.297179411585732, "learning_rate": 9.443282989812493e-07, "token_acc": 0.8503740429878235, "epoch": 0.1946787800129786, "step": 150}, {"loss": 0.4401964545249939, "grad_norm": 6.828289704139491, "learning_rate": 9.4334015901137e-07, "token_acc": 0.8476489186286926, "epoch": 0.19597663854639844, "step": 151}, {"loss": 0.430159330368042, "grad_norm": 6.222899122757359, "learning_rate": 9.42343852954738e-07, "token_acc": 0.8546433448791504, "epoch": 0.1972744970798183, "step": 152}, {"loss": 0.48580360412597656, "grad_norm": 5.868656634331848, "learning_rate": 9.413393991627736e-07, "token_acc": 0.8449477553367615, "epoch": 0.19857235561323816, "step": 153}, {"loss": 0.3972522020339966, "grad_norm": 6.880243358104766, "learning_rate": 9.403268161369745e-07, "token_acc": 0.8722021579742432, "epoch": 0.199870214146658, "step": 154}, {"loss": 0.5102440714836121, "grad_norm": 6.417818204145145, "learning_rate": 9.393061225285741e-07, "token_acc": 0.8433292508125305, "epoch": 0.20116807268007786, "step": 155}, {"loss": 0.4116405248641968, "grad_norm": 5.976380756077708, "learning_rate": 9.382773371381984e-07, "token_acc": 0.861240804195404, "epoch": 0.20246593121349774, "step": 156}, {"loss": 0.49119049310684204, "grad_norm": 6.05428272140073, "learning_rate": 9.372404789155197e-07, "token_acc": 0.8381003737449646, "epoch": 0.20376378974691758, "step": 157}, {"loss": 0.4730302691459656, "grad_norm": 6.092366453086265, "learning_rate": 9.361955669589079e-07, "token_acc": 0.8465636372566223, "epoch": 0.20506164828033743, "step": 158}, {"loss": 0.4227694571018219, "grad_norm": 5.809154562373014, "learning_rate": 9.351426205150776e-07, "token_acc": 0.8562615513801575, "epoch": 0.2063595068137573, "step": 159}, {"loss": 0.495506227016449, "grad_norm": 6.859780039861377, "learning_rate": 9.340816589787349e-07, "token_acc": 0.8398895859718323, "epoch": 0.20765736534717716, "step": 160}, {"loss": 0.415803462266922, "grad_norm": 6.494726236401241, "learning_rate": 9.330127018922193e-07, "token_acc": 0.8550106883049011, "epoch": 0.208955223880597, "step": 161}, {"loss": 0.47671476006507874, "grad_norm": 5.495922936555436, "learning_rate": 9.319357689451442e-07, "token_acc": 0.8452380895614624, "epoch": 0.21025308241401688, "step": 162}, {"loss": 0.4968729019165039, "grad_norm": 5.643736045265148, "learning_rate": 9.30850879974034e-07, "token_acc": 0.8399587273597717, "epoch": 0.21155094094743673, "step": 163}, {"loss": 0.47081828117370605, "grad_norm": 6.527990441420062, "learning_rate": 9.297580549619588e-07, "token_acc": 0.8447245955467224, "epoch": 0.21284879948085658, "step": 164}, {"loss": 0.5274676084518433, "grad_norm": 6.136270078969896, "learning_rate": 9.286573140381662e-07, "token_acc": 0.8357803225517273, "epoch": 0.21414665801427643, "step": 165}, {"loss": 0.41923490166664124, "grad_norm": 5.574841618634602, "learning_rate": 9.275486774777105e-07, "token_acc": 0.8665819764137268, "epoch": 0.2154445165476963, "step": 166}, {"loss": 0.5193547606468201, "grad_norm": 6.170421692574177, "learning_rate": 9.264321657010799e-07, "token_acc": 0.8249221444129944, "epoch": 0.21674237508111616, "step": 167}, {"loss": 0.4089222550392151, "grad_norm": 5.804815025586866, "learning_rate": 9.253077992738192e-07, "token_acc": 0.8660229444503784, "epoch": 0.218040233614536, "step": 168}, {"loss": 0.49444878101348877, "grad_norm": 6.81208853910784, "learning_rate": 9.241755989061519e-07, "token_acc": 0.8458429574966431, "epoch": 0.21933809214795588, "step": 169}, {"loss": 0.4844178855419159, "grad_norm": 5.871394263780418, "learning_rate": 9.230355854525986e-07, "token_acc": 0.8396396636962891, "epoch": 0.22063595068137573, "step": 170}, {"loss": 0.40379810333251953, "grad_norm": 5.756251600513318, "learning_rate": 9.218877799115927e-07, "token_acc": 0.8657178282737732, "epoch": 0.22193380921479558, "step": 171}, {"loss": 0.42632856965065, "grad_norm": 5.920292331139452, "learning_rate": 9.207322034250935e-07, "token_acc": 0.8629737496376038, "epoch": 0.22323166774821546, "step": 172}, {"loss": 0.4264766275882721, "grad_norm": 5.5914421260769185, "learning_rate": 9.195688772781969e-07, "token_acc": 0.8530276417732239, "epoch": 0.2245295262816353, "step": 173}, {"loss": 0.45956408977508545, "grad_norm": 7.107346558364437, "learning_rate": 9.183978228987435e-07, "token_acc": 0.8541114330291748, "epoch": 0.22582738481505515, "step": 174}, {"loss": 0.5375698804855347, "grad_norm": 6.748523543071442, "learning_rate": 9.172190618569235e-07, "token_acc": 0.8190476298332214, "epoch": 0.227125243348475, "step": 175}, {"loss": 0.44293805956840515, "grad_norm": 7.363371946552328, "learning_rate": 9.160326158648804e-07, "token_acc": 0.8486238718032837, "epoch": 0.22842310188189488, "step": 176}, {"loss": 0.5097355842590332, "grad_norm": 6.999926750674782, "learning_rate": 9.148385067763093e-07, "token_acc": 0.8399511575698853, "epoch": 0.22972096041531473, "step": 177}, {"loss": 0.5187103152275085, "grad_norm": 6.630400043580558, "learning_rate": 9.136367565860564e-07, "token_acc": 0.8322981595993042, "epoch": 0.23101881894873458, "step": 178}, {"loss": 0.5455045700073242, "grad_norm": 6.338211940078254, "learning_rate": 9.124273874297122e-07, "token_acc": 0.8407225012779236, "epoch": 0.23231667748215445, "step": 179}, {"loss": 0.4549197554588318, "grad_norm": 5.623450217526916, "learning_rate": 9.112104215832046e-07, "token_acc": 0.8525264263153076, "epoch": 0.2336145360155743, "step": 180}, {"loss": 0.41996294260025024, "grad_norm": 5.783202669818858, "learning_rate": 9.099858814623885e-07, "token_acc": 0.859138548374176, "epoch": 0.23491239454899415, "step": 181}, {"loss": 0.5416674613952637, "grad_norm": 7.50104150822751, "learning_rate": 9.08753789622633e-07, "token_acc": 0.8338368535041809, "epoch": 0.23621025308241403, "step": 182}, {"loss": 0.5541616678237915, "grad_norm": 6.167897259581203, "learning_rate": 9.075141687584056e-07, "token_acc": 0.8135398626327515, "epoch": 0.23750811161583388, "step": 183}, {"loss": 0.3814481496810913, "grad_norm": 5.786391332452617, "learning_rate": 9.062670417028544e-07, "token_acc": 0.8733564019203186, "epoch": 0.23880597014925373, "step": 184}, {"loss": 0.4661848545074463, "grad_norm": 6.1103250631259245, "learning_rate": 9.050124314273875e-07, "token_acc": 0.865637481212616, "epoch": 0.24010382868267358, "step": 185}, {"loss": 0.5814622044563293, "grad_norm": 6.343080951506286, "learning_rate": 9.0375036104125e-07, "token_acc": 0.8190217614173889, "epoch": 0.24140168721609345, "step": 186}, {"loss": 0.5351653099060059, "grad_norm": 5.843994260768734, "learning_rate": 9.02480853791098e-07, "token_acc": 0.8347873687744141, "epoch": 0.2426995457495133, "step": 187}, {"loss": 0.4413820803165436, "grad_norm": 6.158303711703785, "learning_rate": 9.012039330605706e-07, "token_acc": 0.8617939949035645, "epoch": 0.24399740428293315, "step": 188}, {"loss": 0.4407140016555786, "grad_norm": 5.2874675622895015, "learning_rate": 8.999196223698598e-07, "token_acc": 0.8564049601554871, "epoch": 0.24529526281635303, "step": 189}, {"loss": 0.4515530467033386, "grad_norm": 5.798030818056388, "learning_rate": 8.986279453752756e-07, "token_acc": 0.8482245206832886, "epoch": 0.24659312134977288, "step": 190}, {"loss": 0.42980313301086426, "grad_norm": 5.563180043392023, "learning_rate": 8.973289258688125e-07, "token_acc": 0.8592057824134827, "epoch": 0.24789097988319272, "step": 191}, {"loss": 0.5828133821487427, "grad_norm": 6.469032978590468, "learning_rate": 8.960225877777094e-07, "token_acc": 0.8147423267364502, "epoch": 0.2491888384166126, "step": 192}, {"loss": 0.4595530033111572, "grad_norm": 5.541853109704705, "learning_rate": 8.947089551640099e-07, "token_acc": 0.8491004109382629, "epoch": 0.25048669695003245, "step": 193}, {"loss": 0.5027013421058655, "grad_norm": 6.169982370184539, "learning_rate": 8.933880522241184e-07, "token_acc": 0.8354263305664062, "epoch": 0.2517845554834523, "step": 194}, {"loss": 0.4775458574295044, "grad_norm": 6.948204458594487, "learning_rate": 8.920599032883552e-07, "token_acc": 0.8537735939025879, "epoch": 0.25308241401687215, "step": 195}, {"loss": 0.4594833254814148, "grad_norm": 5.925643643496647, "learning_rate": 8.907245328205077e-07, "token_acc": 0.8445250988006592, "epoch": 0.254380272550292, "step": 196}, {"loss": 0.5395116806030273, "grad_norm": 6.326043596422666, "learning_rate": 8.893819654173803e-07, "token_acc": 0.8180211782455444, "epoch": 0.2556781310837119, "step": 197}, {"loss": 0.44594529271125793, "grad_norm": 6.098496109454905, "learning_rate": 8.880322258083407e-07, "token_acc": 0.8533685803413391, "epoch": 0.25697598961713175, "step": 198}, {"loss": 0.5018429160118103, "grad_norm": 7.148137742066721, "learning_rate": 8.866753388548649e-07, "token_acc": 0.8307584524154663, "epoch": 0.2582738481505516, "step": 199}, {"loss": 0.44768044352531433, "grad_norm": 5.775970061554063, "learning_rate": 8.853113295500793e-07, "token_acc": 0.8565826416015625, "epoch": 0.25957170668397145, "step": 200}, {"loss": 0.4209725260734558, "grad_norm": 5.920597745978643, "learning_rate": 8.839402230183e-07, "token_acc": 0.853432297706604, "epoch": 0.2608695652173913, "step": 201}, {"loss": 0.47484707832336426, "grad_norm": 5.8833213383360565, "learning_rate": 8.825620445145703e-07, "token_acc": 0.8384572267532349, "epoch": 0.26216742375081115, "step": 202}, {"loss": 0.4070015549659729, "grad_norm": 5.815645188602593, "learning_rate": 8.811768194241951e-07, "token_acc": 0.8646517992019653, "epoch": 0.263465282284231, "step": 203}, {"loss": 0.4546128809452057, "grad_norm": 6.058328035155336, "learning_rate": 8.797845732622742e-07, "token_acc": 0.8492555618286133, "epoch": 0.2647631408176509, "step": 204}, {"loss": 0.3893827199935913, "grad_norm": 5.42362902146651, "learning_rate": 8.783853316732313e-07, "token_acc": 0.8689205050468445, "epoch": 0.26606099935107075, "step": 205}, {"loss": 0.37752699851989746, "grad_norm": 5.533956702064758, "learning_rate": 8.769791204303421e-07, "token_acc": 0.8747044801712036, "epoch": 0.2673588578844906, "step": 206}, {"loss": 0.41268855333328247, "grad_norm": 5.678771723804134, "learning_rate": 8.755659654352599e-07, "token_acc": 0.8652256727218628, "epoch": 0.26865671641791045, "step": 207}, {"loss": 0.4552760720252991, "grad_norm": 6.227483264862007, "learning_rate": 8.741458927175379e-07, "token_acc": 0.856589138507843, "epoch": 0.2699545749513303, "step": 208}, {"loss": 0.5009342432022095, "grad_norm": 6.189701618360318, "learning_rate": 8.727189284341501e-07, "token_acc": 0.8349282145500183, "epoch": 0.27125243348475014, "step": 209}, {"loss": 0.4511728882789612, "grad_norm": 5.955472141030599, "learning_rate": 8.712850988690093e-07, "token_acc": 0.8397524356842041, "epoch": 0.27255029201817, "step": 210}, {"loss": 0.42658308148384094, "grad_norm": 5.642147088441908, "learning_rate": 8.698444304324834e-07, "token_acc": 0.8522359132766724, "epoch": 0.2738481505515899, "step": 211}, {"loss": 0.497578889131546, "grad_norm": 5.745144371876184, "learning_rate": 8.683969496609082e-07, "token_acc": 0.8452030420303345, "epoch": 0.27514600908500975, "step": 212}, {"loss": 0.3586868345737457, "grad_norm": 5.5564992179831005, "learning_rate": 8.669426832160995e-07, "token_acc": 0.8718791007995605, "epoch": 0.2764438676184296, "step": 213}, {"loss": 0.4394112527370453, "grad_norm": 5.90578361496727, "learning_rate": 8.654816578848612e-07, "token_acc": 0.8531038761138916, "epoch": 0.27774172615184944, "step": 214}, {"loss": 0.42870599031448364, "grad_norm": 5.158636601765984, "learning_rate": 8.640139005784923e-07, "token_acc": 0.8621701002120972, "epoch": 0.2790395846852693, "step": 215}, {"loss": 0.6002506613731384, "grad_norm": 6.145682442769526, "learning_rate": 8.625394383322914e-07, "token_acc": 0.828618049621582, "epoch": 0.28033744321868914, "step": 216}, {"loss": 0.42615681886672974, "grad_norm": 5.360815677251471, "learning_rate": 8.610582983050581e-07, "token_acc": 0.8580645322799683, "epoch": 0.28163530175210905, "step": 217}, {"loss": 0.4597863256931305, "grad_norm": 6.175805244229631, "learning_rate": 8.595705077785933e-07, "token_acc": 0.8392181396484375, "epoch": 0.2829331602855289, "step": 218}, {"loss": 0.38778766989707947, "grad_norm": 5.52257000165329, "learning_rate": 8.580760941571966e-07, "token_acc": 0.8639858365058899, "epoch": 0.28423101881894874, "step": 219}, {"loss": 0.4148331582546234, "grad_norm": 5.383920703843108, "learning_rate": 8.565750849671615e-07, "token_acc": 0.8689159154891968, "epoch": 0.2855288773523686, "step": 220}, {"loss": 0.39687490463256836, "grad_norm": 5.1173830645889575, "learning_rate": 8.550675078562679e-07, "token_acc": 0.8683503270149231, "epoch": 0.28682673588578844, "step": 221}, {"loss": 0.42419132590293884, "grad_norm": 5.845155526572662, "learning_rate": 8.535533905932737e-07, "token_acc": 0.8511165976524353, "epoch": 0.2881245944192083, "step": 222}, {"loss": 0.48391059041023254, "grad_norm": 6.324039419224925, "learning_rate": 8.520327610674027e-07, "token_acc": 0.8420731425285339, "epoch": 0.28942245295262814, "step": 223}, {"loss": 0.4459819197654724, "grad_norm": 5.4371948528621274, "learning_rate": 8.505056472878311e-07, "token_acc": 0.8581717610359192, "epoch": 0.29072031148604804, "step": 224}, {"loss": 0.44677096605300903, "grad_norm": 5.972463578976785, "learning_rate": 8.489720773831716e-07, "token_acc": 0.8581122756004333, "epoch": 0.2920181700194679, "step": 225}, {"loss": 0.502325177192688, "grad_norm": 6.578064718591685, "learning_rate": 8.474320796009553e-07, "token_acc": 0.8400735259056091, "epoch": 0.29331602855288774, "step": 226}, {"loss": 0.4020543396472931, "grad_norm": 5.586820504900187, "learning_rate": 8.45885682307111e-07, "token_acc": 0.8597962856292725, "epoch": 0.2946138870863076, "step": 227}, {"loss": 0.31743669509887695, "grad_norm": 5.444346075443556, "learning_rate": 8.443329139854433e-07, "token_acc": 0.8883751630783081, "epoch": 0.29591174561972744, "step": 228}, {"loss": 0.5093879699707031, "grad_norm": 5.818827069351403, "learning_rate": 8.427738032371077e-07, "token_acc": 0.8293113708496094, "epoch": 0.2972096041531473, "step": 229}, {"loss": 0.5292528867721558, "grad_norm": 5.566004501008278, "learning_rate": 8.412083787800839e-07, "token_acc": 0.838394820690155, "epoch": 0.29850746268656714, "step": 230}, {"loss": 0.3792364001274109, "grad_norm": 5.7904282002015535, "learning_rate": 8.396366694486466e-07, "token_acc": 0.8782399296760559, "epoch": 0.29980532121998704, "step": 231}, {"loss": 0.4570201635360718, "grad_norm": 5.71979345908991, "learning_rate": 8.380587041928342e-07, "token_acc": 0.8560931086540222, "epoch": 0.3011031797534069, "step": 232}, {"loss": 0.422024130821228, "grad_norm": 5.393326513627956, "learning_rate": 8.364745120779164e-07, "token_acc": 0.8605032563209534, "epoch": 0.30240103828682674, "step": 233}, {"loss": 0.3654918372631073, "grad_norm": 4.936152592788285, "learning_rate": 8.348841222838578e-07, "token_acc": 0.8843450546264648, "epoch": 0.3036988968202466, "step": 234}, {"loss": 0.39624184370040894, "grad_norm": 5.659674078886101, "learning_rate": 8.332875641047816e-07, "token_acc": 0.8742671012878418, "epoch": 0.30499675535366644, "step": 235}, {"loss": 0.4314485788345337, "grad_norm": 5.584109727515234, "learning_rate": 8.316848669484283e-07, "token_acc": 0.8541162014007568, "epoch": 0.3062946138870863, "step": 236}, {"loss": 0.38646626472473145, "grad_norm": 6.213057260273333, "learning_rate": 8.300760603356158e-07, "token_acc": 0.8688419461250305, "epoch": 0.3075924724205062, "step": 237}, {"loss": 0.41914939880371094, "grad_norm": 6.278934636601425, "learning_rate": 8.284611738996949e-07, "token_acc": 0.8667537569999695, "epoch": 0.30889033095392604, "step": 238}, {"loss": 0.5175830721855164, "grad_norm": 6.140603379518029, "learning_rate": 8.26840237386003e-07, "token_acc": 0.8370323181152344, "epoch": 0.3101881894873459, "step": 239}, {"loss": 0.45147275924682617, "grad_norm": 6.2165107773424335, "learning_rate": 8.25213280651317e-07, "token_acc": 0.8520565032958984, "epoch": 0.31148604802076574, "step": 240}, {"loss": 0.4250255823135376, "grad_norm": 5.966853279445928, "learning_rate": 8.235803336633032e-07, "token_acc": 0.8613861203193665, "epoch": 0.3127839065541856, "step": 241}, {"loss": 0.46141186356544495, "grad_norm": 5.673387492473051, "learning_rate": 8.219414264999644e-07, "token_acc": 0.8483929634094238, "epoch": 0.31408176508760544, "step": 242}, {"loss": 0.4453122615814209, "grad_norm": 6.00985938441492, "learning_rate": 8.202965893490876e-07, "token_acc": 0.8644763827323914, "epoch": 0.3153796236210253, "step": 243}, {"loss": 0.39760130643844604, "grad_norm": 5.144555922922132, "learning_rate": 8.186458525076862e-07, "token_acc": 0.8642241358757019, "epoch": 0.3166774821544452, "step": 244}, {"loss": 0.4272957444190979, "grad_norm": 6.1360738502588665, "learning_rate": 8.169892463814433e-07, "token_acc": 0.8559473752975464, "epoch": 0.31797534068786504, "step": 245}, {"loss": 0.5514054298400879, "grad_norm": 5.501257684013086, "learning_rate": 8.153268014841506e-07, "token_acc": 0.8145161271095276, "epoch": 0.3192731992212849, "step": 246}, {"loss": 0.4363827109336853, "grad_norm": 5.7607573257509666, "learning_rate": 8.13658548437147e-07, "token_acc": 0.8538111448287964, "epoch": 0.32057105775470474, "step": 247}, {"loss": 0.459423303604126, "grad_norm": 6.297941519687111, "learning_rate": 8.119845179687542e-07, "token_acc": 0.8470363020896912, "epoch": 0.3218689162881246, "step": 248}, {"loss": 0.42013612389564514, "grad_norm": 6.185716372480229, "learning_rate": 8.103047409137114e-07, "token_acc": 0.8611987233161926, "epoch": 0.32316677482154443, "step": 249}, {"loss": 0.3112896680831909, "grad_norm": 6.045544195139291, "learning_rate": 8.086192482126062e-07, "token_acc": 0.8862847089767456, "epoch": 0.3244646333549643, "step": 250}, {"loss": 0.4798441529273987, "grad_norm": 5.790642419617113, "learning_rate": 8.069280709113059e-07, "token_acc": 0.8487194776535034, "epoch": 0.3257624918883842, "step": 251}, {"loss": 0.35753127932548523, "grad_norm": 5.270522767903543, "learning_rate": 8.052312401603847e-07, "token_acc": 0.8829915523529053, "epoch": 0.32706035042180404, "step": 252}, {"loss": 0.46745753288269043, "grad_norm": 5.745075248662822, "learning_rate": 8.035287872145502e-07, "token_acc": 0.8440533876419067, "epoch": 0.3283582089552239, "step": 253}, {"loss": 0.34642285108566284, "grad_norm": 5.312345452686009, "learning_rate": 8.018207434320681e-07, "token_acc": 0.8769333958625793, "epoch": 0.32965606748864373, "step": 254}, {"loss": 0.41216975450515747, "grad_norm": 5.644662596633685, "learning_rate": 8.001071402741842e-07, "token_acc": 0.8631022572517395, "epoch": 0.3309539260220636, "step": 255}, {"loss": 0.48698583245277405, "grad_norm": 5.937175740022454, "learning_rate": 7.983880093045447e-07, "token_acc": 0.8507281541824341, "epoch": 0.33225178455548343, "step": 256}, {"loss": 0.48042458295822144, "grad_norm": 6.686342709657423, "learning_rate": 7.96663382188616e-07, "token_acc": 0.8436911702156067, "epoch": 0.33354964308890334, "step": 257}, {"loss": 0.478768527507782, "grad_norm": 5.829549370194839, "learning_rate": 7.949332906930994e-07, "token_acc": 0.8469688296318054, "epoch": 0.3348475016223232, "step": 258}, {"loss": 0.41953742504119873, "grad_norm": 5.833711836518908, "learning_rate": 7.931977666853477e-07, "token_acc": 0.8645699620246887, "epoch": 0.33614536015574303, "step": 259}, {"loss": 0.4217662811279297, "grad_norm": 5.368157834507118, "learning_rate": 7.914568421327781e-07, "token_acc": 0.8537735939025879, "epoch": 0.3374432186891629, "step": 260}, {"loss": 0.47454336285591125, "grad_norm": 6.093734885705118, "learning_rate": 7.897105491022817e-07, "token_acc": 0.8469827771186829, "epoch": 0.33874107722258273, "step": 261}, {"loss": 0.492011159658432, "grad_norm": 6.12808893135142, "learning_rate": 7.879589197596354e-07, "token_acc": 0.8349282145500183, "epoch": 0.3400389357560026, "step": 262}, {"loss": 0.5163189768791199, "grad_norm": 5.828418258444319, "learning_rate": 7.862019863689073e-07, "token_acc": 0.8397085666656494, "epoch": 0.34133679428942243, "step": 263}, {"loss": 0.36106452345848083, "grad_norm": 5.073814203875517, "learning_rate": 7.844397812918635e-07, "token_acc": 0.8736037611961365, "epoch": 0.34263465282284233, "step": 264}, {"loss": 0.523396372795105, "grad_norm": 6.157146870856216, "learning_rate": 7.826723369873713e-07, "token_acc": 0.8380241394042969, "epoch": 0.3439325113562622, "step": 265}, {"loss": 0.3697959780693054, "grad_norm": 5.3579717983934305, "learning_rate": 7.808996860108026e-07, "token_acc": 0.8785845041275024, "epoch": 0.34523036988968203, "step": 266}, {"loss": 0.38771265745162964, "grad_norm": 5.886861239849998, "learning_rate": 7.791218610134322e-07, "token_acc": 0.8619551062583923, "epoch": 0.3465282284231019, "step": 267}, {"loss": 0.4370490312576294, "grad_norm": 5.3955542880230185, "learning_rate": 7.773388947418389e-07, "token_acc": 0.8638888597488403, "epoch": 0.34782608695652173, "step": 268}, {"loss": 0.4194880723953247, "grad_norm": 5.807413368825297, "learning_rate": 7.755508200373e-07, "token_acc": 0.8569536209106445, "epoch": 0.3491239454899416, "step": 269}, {"loss": 0.38276001811027527, "grad_norm": 5.701020806987356, "learning_rate": 7.737576698351878e-07, "token_acc": 0.8693217039108276, "epoch": 0.3504218040233614, "step": 270}, {"loss": 0.5483073592185974, "grad_norm": 5.84882801214536, "learning_rate": 7.719594771643622e-07, "token_acc": 0.8192285299301147, "epoch": 0.35171966255678133, "step": 271}, {"loss": 0.4349417984485626, "grad_norm": 5.329528600863748, "learning_rate": 7.701562751465633e-07, "token_acc": 0.852830171585083, "epoch": 0.3530175210902012, "step": 272}, {"loss": 0.45232564210891724, "grad_norm": 6.278823221542978, "learning_rate": 7.683480969958003e-07, "token_acc": 0.8398486971855164, "epoch": 0.35431537962362103, "step": 273}, {"loss": 0.4156367778778076, "grad_norm": 6.233090289284856, "learning_rate": 7.665349760177395e-07, "token_acc": 0.863194465637207, "epoch": 0.3556132381570409, "step": 274}, {"loss": 0.31952762603759766, "grad_norm": 5.6849209586088865, "learning_rate": 7.647169456090925e-07, "token_acc": 0.8864418268203735, "epoch": 0.3569110966904607, "step": 275}, {"loss": 0.45783889293670654, "grad_norm": 5.501896082695207, "learning_rate": 7.628940392569993e-07, "token_acc": 0.8512709736824036, "epoch": 0.3582089552238806, "step": 276}, {"loss": 0.39772310853004456, "grad_norm": 5.360102362780018, "learning_rate": 7.610662905384124e-07, "token_acc": 0.8710280656814575, "epoch": 0.3595068137573005, "step": 277}, {"loss": 0.5107954740524292, "grad_norm": 6.083636529051442, "learning_rate": 7.592337331194779e-07, "token_acc": 0.8327316641807556, "epoch": 0.36080467229072033, "step": 278}, {"loss": 0.3366743326187134, "grad_norm": 5.920982296420397, "learning_rate": 7.573964007549154e-07, "token_acc": 0.8827694654464722, "epoch": 0.3621025308241402, "step": 279}, {"loss": 0.4611605107784271, "grad_norm": 5.615325547983134, "learning_rate": 7.555543272873968e-07, "token_acc": 0.851388156414032, "epoch": 0.36340038935756, "step": 280}, {"loss": 0.501249372959137, "grad_norm": 5.403153267504769, "learning_rate": 7.537075466469227e-07, "token_acc": 0.8342189192771912, "epoch": 0.3646982478909799, "step": 281}, {"loss": 0.43272244930267334, "grad_norm": 6.248477864020806, "learning_rate": 7.518560928501968e-07, "token_acc": 0.8507764935493469, "epoch": 0.3659961064243997, "step": 282}, {"loss": 0.4296550154685974, "grad_norm": 5.606400344542988, "learning_rate": 7.5e-07, "token_acc": 0.8655518293380737, "epoch": 0.3672939649578196, "step": 283}, {"loss": 0.47987765073776245, "grad_norm": 6.357905061876526, "learning_rate": 7.481393022845621e-07, "token_acc": 0.8448485136032104, "epoch": 0.3685918234912395, "step": 284}, {"loss": 0.46917617321014404, "grad_norm": 6.14645485681325, "learning_rate": 7.462740339769322e-07, "token_acc": 0.8472906351089478, "epoch": 0.3698896820246593, "step": 285}, {"loss": 0.470049649477005, "grad_norm": 5.834049438249327, "learning_rate": 7.444042294343469e-07, "token_acc": 0.842277467250824, "epoch": 0.3711875405580792, "step": 286}, {"loss": 0.40120333433151245, "grad_norm": 5.420021068130152, "learning_rate": 7.425299230975981e-07, "token_acc": 0.864814817905426, "epoch": 0.372485399091499, "step": 287}, {"loss": 0.4952874779701233, "grad_norm": 5.739186723982466, "learning_rate": 7.406511494903981e-07, "token_acc": 0.8340425491333008, "epoch": 0.3737832576249189, "step": 288}, {"loss": 0.37967705726623535, "grad_norm": 6.549545988091009, "learning_rate": 7.387679432187441e-07, "token_acc": 0.8592885136604309, "epoch": 0.3750811161583387, "step": 289}, {"loss": 0.4497777223587036, "grad_norm": 5.967543478107402, "learning_rate": 7.368803389702805e-07, "token_acc": 0.8575458526611328, "epoch": 0.37637897469175857, "step": 290}, {"loss": 0.43949034810066223, "grad_norm": 6.1068105873359535, "learning_rate": 7.3498837151366e-07, "token_acc": 0.851123571395874, "epoch": 0.3776768332251785, "step": 291}, {"loss": 0.34955158829689026, "grad_norm": 5.14410500994703, "learning_rate": 7.330920756979034e-07, "token_acc": 0.8815943598747253, "epoch": 0.3789746917585983, "step": 292}, {"loss": 0.35987186431884766, "grad_norm": 5.141319814229648, "learning_rate": 7.311914864517574e-07, "token_acc": 0.880422055721283, "epoch": 0.3802725502920182, "step": 293}, {"loss": 0.4763517677783966, "grad_norm": 5.993152033748973, "learning_rate": 7.292866387830514e-07, "token_acc": 0.8427919149398804, "epoch": 0.381570408825438, "step": 294}, {"loss": 0.5002845525741577, "grad_norm": 6.860483656751378, "learning_rate": 7.27377567778053e-07, "token_acc": 0.8338870406150818, "epoch": 0.38286826735885787, "step": 295}, {"loss": 0.44431886076927185, "grad_norm": 5.303601066331777, "learning_rate": 7.254643086008205e-07, "token_acc": 0.8571428656578064, "epoch": 0.3841661258922777, "step": 296}, {"loss": 0.498418927192688, "grad_norm": 6.21112425179766, "learning_rate": 7.23546896492557e-07, "token_acc": 0.8405885696411133, "epoch": 0.3854639844256976, "step": 297}, {"loss": 0.36187830567359924, "grad_norm": 5.493261526074729, "learning_rate": 7.216253667709599e-07, "token_acc": 0.8759926557540894, "epoch": 0.3867618429591175, "step": 298}, {"loss": 0.4605634808540344, "grad_norm": 5.191157024775618, "learning_rate": 7.196997548295706e-07, "token_acc": 0.8552338480949402, "epoch": 0.3880597014925373, "step": 299}, {"loss": 0.36634695529937744, "grad_norm": 5.408721301689397, "learning_rate": 7.177700961371238e-07, "token_acc": 0.8727514743804932, "epoch": 0.3893575600259572, "step": 300}, {"loss": 0.4627237915992737, "grad_norm": 5.713992534772686, "learning_rate": 7.158364262368919e-07, "token_acc": 0.8476744294166565, "epoch": 0.390655418559377, "step": 301}, {"loss": 0.39335897564888, "grad_norm": 5.815345608597814, "learning_rate": 7.138987807460322e-07, "token_acc": 0.8691860437393188, "epoch": 0.39195327709279687, "step": 302}, {"loss": 0.4007107615470886, "grad_norm": 5.290401182854928, "learning_rate": 7.119571953549304e-07, "token_acc": 0.8644776344299316, "epoch": 0.3932511356262167, "step": 303}, {"loss": 0.485225647687912, "grad_norm": 5.938299497666944, "learning_rate": 7.100117058265426e-07, "token_acc": 0.8497880101203918, "epoch": 0.3945489941596366, "step": 304}, {"loss": 0.40050578117370605, "grad_norm": 5.681635931844067, "learning_rate": 7.080623479957371e-07, "token_acc": 0.8652355670928955, "epoch": 0.3958468526930565, "step": 305}, {"loss": 0.4969431161880493, "grad_norm": 5.432565026127515, "learning_rate": 7.061091577686349e-07, "token_acc": 0.8364583253860474, "epoch": 0.3971447112264763, "step": 306}, {"loss": 0.4141477644443512, "grad_norm": 5.509496185307543, "learning_rate": 7.041521711219467e-07, "token_acc": 0.8626126050949097, "epoch": 0.39844256975989617, "step": 307}, {"loss": 0.3710942268371582, "grad_norm": 5.394914115053714, "learning_rate": 7.021914241023117e-07, "token_acc": 0.8761589527130127, "epoch": 0.399740428293316, "step": 308}, {"loss": 0.42763879895210266, "grad_norm": 5.879864441779462, "learning_rate": 7.002269528256332e-07, "token_acc": 0.8560975790023804, "epoch": 0.40103828682673587, "step": 309}, {"loss": 0.39201241731643677, "grad_norm": 4.87521417367246, "learning_rate": 6.982587934764132e-07, "token_acc": 0.8672659993171692, "epoch": 0.4023361453601557, "step": 310}, {"loss": 0.4194161891937256, "grad_norm": 5.49394021479082, "learning_rate": 6.96286982307086e-07, "token_acc": 0.8705440759658813, "epoch": 0.4036340038935756, "step": 311}, {"loss": 0.3916659355163574, "grad_norm": 5.992424698067623, "learning_rate": 6.943115556373502e-07, "token_acc": 0.870650053024292, "epoch": 0.40493186242699547, "step": 312}, {"loss": 0.42829012870788574, "grad_norm": 5.593608777117918, "learning_rate": 6.923325498535005e-07, "token_acc": 0.8565621376037598, "epoch": 0.4062297209604153, "step": 313}, {"loss": 0.48756253719329834, "grad_norm": 6.206222964921485, "learning_rate": 6.903500014077569e-07, "token_acc": 0.8393402695655823, "epoch": 0.40752757949383517, "step": 314}, {"loss": 0.3969307541847229, "grad_norm": 5.422563974078999, "learning_rate": 6.883639468175925e-07, "token_acc": 0.8571428656578064, "epoch": 0.408825438027255, "step": 315}, {"loss": 0.4018481373786926, "grad_norm": 5.964146626119969, "learning_rate": 6.863744226650627e-07, "token_acc": 0.8730867505073547, "epoch": 0.41012329656067487, "step": 316}, {"loss": 0.4615705907344818, "grad_norm": 5.229464118701808, "learning_rate": 6.843814655961301e-07, "token_acc": 0.8549578189849854, "epoch": 0.41142115509409477, "step": 317}, {"loss": 0.40590375661849976, "grad_norm": 5.5752302384307075, "learning_rate": 6.823851123199893e-07, "token_acc": 0.8618881106376648, "epoch": 0.4127190136275146, "step": 318}, {"loss": 0.3887993395328522, "grad_norm": 5.5287683891422805, "learning_rate": 6.803853996083917e-07, "token_acc": 0.8656250238418579, "epoch": 0.41401687216093447, "step": 319}, {"loss": 0.4411916732788086, "grad_norm": 6.162669294802991, "learning_rate": 6.783823642949675e-07, "token_acc": 0.8594182729721069, "epoch": 0.4153147306943543, "step": 320}, {"loss": 0.39134153723716736, "grad_norm": 5.949570918322323, "learning_rate": 6.763760432745474e-07, "token_acc": 0.8527988791465759, "epoch": 0.41661258922777417, "step": 321}, {"loss": 0.43892228603363037, "grad_norm": 6.030056418846618, "learning_rate": 6.743664735024833e-07, "token_acc": 0.8609314560890198, "epoch": 0.417910447761194, "step": 322}, {"loss": 0.373792439699173, "grad_norm": 5.45662879902136, "learning_rate": 6.723536919939669e-07, "token_acc": 0.8774038553237915, "epoch": 0.41920830629461386, "step": 323}, {"loss": 0.4287329912185669, "grad_norm": 5.769856128748653, "learning_rate": 6.703377358233489e-07, "token_acc": 0.8613989353179932, "epoch": 0.42050616482803377, "step": 324}, {"loss": 0.4810507297515869, "grad_norm": 6.024670368769123, "learning_rate": 6.683186421234551e-07, "token_acc": 0.8333333134651184, "epoch": 0.4218040233614536, "step": 325}, {"loss": 0.5275804996490479, "grad_norm": 6.076493486429735, "learning_rate": 6.662964480849033e-07, "token_acc": 0.8297079205513, "epoch": 0.42310188189487347, "step": 326}, {"loss": 0.41690248250961304, "grad_norm": 5.45876048744434, "learning_rate": 6.642711909554174e-07, "token_acc": 0.8595539331436157, "epoch": 0.4243997404282933, "step": 327}, {"loss": 0.45137494802474976, "grad_norm": 6.1513757659277974, "learning_rate": 6.622429080391421e-07, "token_acc": 0.8667953610420227, "epoch": 0.42569759896171316, "step": 328}, {"loss": 0.3683086931705475, "grad_norm": 5.073311486113003, "learning_rate": 6.602116366959556e-07, "token_acc": 0.8742449283599854, "epoch": 0.426995457495133, "step": 329}, {"loss": 0.44580769538879395, "grad_norm": 5.701534428047868, "learning_rate": 6.581774143407809e-07, "token_acc": 0.8493902683258057, "epoch": 0.42829331602855286, "step": 330}, {"loss": 0.43351757526397705, "grad_norm": 6.205679155758943, "learning_rate": 6.561402784428973e-07, "token_acc": 0.8571428656578064, "epoch": 0.42959117456197277, "step": 331}, {"loss": 0.45886000990867615, "grad_norm": 6.035011853656454, "learning_rate": 6.5410026652525e-07, "token_acc": 0.8509114384651184, "epoch": 0.4308890330953926, "step": 332}, {"loss": 0.45116138458251953, "grad_norm": 5.266867329168138, "learning_rate": 6.52057416163759e-07, "token_acc": 0.8522607684135437, "epoch": 0.43218689162881246, "step": 333}, {"loss": 0.3619113266468048, "grad_norm": 4.775981996534333, "learning_rate": 6.500117649866265e-07, "token_acc": 0.8780343532562256, "epoch": 0.4334847501622323, "step": 334}, {"loss": 0.39552944898605347, "grad_norm": 5.960011756770928, "learning_rate": 6.479633506736446e-07, "token_acc": 0.8586878180503845, "epoch": 0.43478260869565216, "step": 335}, {"loss": 0.37890785932540894, "grad_norm": 5.957594667842447, "learning_rate": 6.45912210955501e-07, "token_acc": 0.8722527623176575, "epoch": 0.436080467229072, "step": 336}, {"loss": 0.4306205213069916, "grad_norm": 5.270540476583594, "learning_rate": 6.438583836130834e-07, "token_acc": 0.8577097654342651, "epoch": 0.4373783257624919, "step": 337}, {"loss": 0.3783882260322571, "grad_norm": 5.732659136906015, "learning_rate": 6.418019064767845e-07, "token_acc": 0.8761193752288818, "epoch": 0.43867618429591176, "step": 338}, {"loss": 0.5803612470626831, "grad_norm": 6.639065238725376, "learning_rate": 6.397428174258047e-07, "token_acc": 0.820443868637085, "epoch": 0.4399740428293316, "step": 339}, {"loss": 0.4417327642440796, "grad_norm": 6.36673299857949, "learning_rate": 6.376811543874542e-07, "token_acc": 0.8449612259864807, "epoch": 0.44127190136275146, "step": 340}, {"loss": 0.40033069252967834, "grad_norm": 5.51752183488223, "learning_rate": 6.35616955336455e-07, "token_acc": 0.8672299385070801, "epoch": 0.4425697598961713, "step": 341}, {"loss": 0.4398212730884552, "grad_norm": 6.022586327815378, "learning_rate": 6.335502582942408e-07, "token_acc": 0.8619756698608398, "epoch": 0.44386761842959116, "step": 342}, {"loss": 0.3361692428588867, "grad_norm": 5.19848451428906, "learning_rate": 6.314811013282573e-07, "token_acc": 0.8863122463226318, "epoch": 0.445165476963011, "step": 343}, {"loss": 0.4223584532737732, "grad_norm": 5.791348609463391, "learning_rate": 6.294095225512604e-07, "token_acc": 0.8489974737167358, "epoch": 0.4464633354964309, "step": 344}, {"loss": 0.3838728070259094, "grad_norm": 5.246420787230096, "learning_rate": 6.273355601206143e-07, "token_acc": 0.8689839839935303, "epoch": 0.44776119402985076, "step": 345}, {"loss": 0.4746568500995636, "grad_norm": 6.044365939544353, "learning_rate": 6.252592522375893e-07, "token_acc": 0.8453670144081116, "epoch": 0.4490590525632706, "step": 346}, {"loss": 0.5145659446716309, "grad_norm": 6.0476327217513335, "learning_rate": 6.231806371466574e-07, "token_acc": 0.8513599038124084, "epoch": 0.45035691109669046, "step": 347}, {"loss": 0.3773351013660431, "grad_norm": 5.710514004414894, "learning_rate": 6.210997531347877e-07, "token_acc": 0.8734776973724365, "epoch": 0.4516547696301103, "step": 348}, {"loss": 0.4133090376853943, "grad_norm": 5.437134796382661, "learning_rate": 6.190166385307427e-07, "token_acc": 0.8684365749359131, "epoch": 0.45295262816353016, "step": 349}, {"loss": 0.3581075668334961, "grad_norm": 5.30541278300444, "learning_rate": 6.169313317043702e-07, "token_acc": 0.8835979104042053, "epoch": 0.45425048669695, "step": 350}, {"loss": 0.3568135201931, "grad_norm": 6.057515760074062, "learning_rate": 6.148438710658978e-07, "token_acc": 0.8758170008659363, "epoch": 0.4555483452303699, "step": 351}, {"loss": 0.5061522722244263, "grad_norm": 5.897696284505621, "learning_rate": 6.127542950652253e-07, "token_acc": 0.8312421441078186, "epoch": 0.45684620376378976, "step": 352}, {"loss": 0.5234696269035339, "grad_norm": 5.764406230756322, "learning_rate": 6.106626421912163e-07, "token_acc": 0.8332378268241882, "epoch": 0.4581440622972096, "step": 353}, {"loss": 0.36722174286842346, "grad_norm": 5.562162780416751, "learning_rate": 6.085689509709892e-07, "token_acc": 0.8797814249992371, "epoch": 0.45944192083062946, "step": 354}, {"loss": 0.4981584846973419, "grad_norm": 6.1001695761033465, "learning_rate": 6.064732599692078e-07, "token_acc": 0.8296568393707275, "epoch": 0.4607397793640493, "step": 355}, {"loss": 0.4340333342552185, "grad_norm": 5.678681424448085, "learning_rate": 6.043756077873708e-07, "token_acc": 0.8531331419944763, "epoch": 0.46203763789746916, "step": 356}, {"loss": 0.39505359530448914, "grad_norm": 6.032409006222097, "learning_rate": 6.022760330631005e-07, "token_acc": 0.8709248304367065, "epoch": 0.46333549643088906, "step": 357}, {"loss": 0.4643558859825134, "grad_norm": 5.505662812135924, "learning_rate": 6.001745744694316e-07, "token_acc": 0.8468208312988281, "epoch": 0.4646333549643089, "step": 358}, {"loss": 0.4296286702156067, "grad_norm": 5.871435583927198, "learning_rate": 5.980712707140984e-07, "token_acc": 0.8594771027565002, "epoch": 0.46593121349772876, "step": 359}, {"loss": 0.43561774492263794, "grad_norm": 6.0351856936412185, "learning_rate": 5.959661605388229e-07, "token_acc": 0.8611111044883728, "epoch": 0.4672290720311486, "step": 360}, {"loss": 0.398147851228714, "grad_norm": 5.092934718241099, "learning_rate": 5.938592827185993e-07, "token_acc": 0.8668210506439209, "epoch": 0.46852693056456846, "step": 361}, {"loss": 0.45276129245758057, "grad_norm": 5.76695601749584, "learning_rate": 5.917506760609817e-07, "token_acc": 0.8447631001472473, "epoch": 0.4698247890979883, "step": 362}, {"loss": 0.3936854600906372, "grad_norm": 5.748907272098784, "learning_rate": 5.896403794053678e-07, "token_acc": 0.8678362369537354, "epoch": 0.47112264763140815, "step": 363}, {"loss": 0.48546701669692993, "grad_norm": 7.132041509258567, "learning_rate": 5.875284316222848e-07, "token_acc": 0.8412463068962097, "epoch": 0.47242050616482806, "step": 364}, {"loss": 0.3967263102531433, "grad_norm": 5.310080698984181, "learning_rate": 5.854148716126722e-07, "token_acc": 0.8636363744735718, "epoch": 0.4737183646982479, "step": 365}, {"loss": 0.4128042459487915, "grad_norm": 5.4928862903914855, "learning_rate": 5.832997383071659e-07, "token_acc": 0.8601003885269165, "epoch": 0.47501622323166776, "step": 366}, {"loss": 0.3782399892807007, "grad_norm": 5.814971951812188, "learning_rate": 5.811830706653819e-07, "token_acc": 0.8657105565071106, "epoch": 0.4763140817650876, "step": 367}, {"loss": 0.43075668811798096, "grad_norm": 5.32839411492623, "learning_rate": 5.790649076751967e-07, "token_acc": 0.8576429486274719, "epoch": 0.47761194029850745, "step": 368}, {"loss": 0.47598183155059814, "grad_norm": 5.61460064202649, "learning_rate": 5.769452883520309e-07, "token_acc": 0.8560380935668945, "epoch": 0.4789097988319273, "step": 369}, {"loss": 0.4409759044647217, "grad_norm": 5.75264689410287, "learning_rate": 5.7482425173813e-07, "token_acc": 0.8486666679382324, "epoch": 0.48020765736534715, "step": 370}, {"loss": 0.4481138288974762, "grad_norm": 5.663176245594409, "learning_rate": 5.727018369018449e-07, "token_acc": 0.8486841917037964, "epoch": 0.48150551589876706, "step": 371}, {"loss": 0.41901540756225586, "grad_norm": 5.346184750484629, "learning_rate": 5.70578082936913e-07, "token_acc": 0.8592592477798462, "epoch": 0.4828033744321869, "step": 372}, {"loss": 0.3617594540119171, "grad_norm": 5.282067421675219, "learning_rate": 5.684530289617376e-07, "token_acc": 0.8778576254844666, "epoch": 0.48410123296560675, "step": 373}, {"loss": 0.34101277589797974, "grad_norm": 5.346079164672296, "learning_rate": 5.663267141186673e-07, "token_acc": 0.87839674949646, "epoch": 0.4853990914990266, "step": 374}, {"loss": 0.44622641801834106, "grad_norm": 5.58057329542591, "learning_rate": 5.641991775732755e-07, "token_acc": 0.8571428656578064, "epoch": 0.48669695003244645, "step": 375}, {"loss": 0.40857696533203125, "grad_norm": 5.440445260154184, "learning_rate": 5.620704585136383e-07, "token_acc": 0.8735827803611755, "epoch": 0.4879948085658663, "step": 376}, {"loss": 0.40589725971221924, "grad_norm": 5.413803664131558, "learning_rate": 5.599405961496137e-07, "token_acc": 0.8661510944366455, "epoch": 0.4892926670992862, "step": 377}, {"loss": 0.4448041319847107, "grad_norm": 5.301750481491097, "learning_rate": 5.578096297121178e-07, "token_acc": 0.8507378101348877, "epoch": 0.49059052563270605, "step": 378}, {"loss": 0.5270196795463562, "grad_norm": 6.163422322137148, "learning_rate": 5.556775984524044e-07, "token_acc": 0.8373174071311951, "epoch": 0.4918883841661259, "step": 379}, {"loss": 0.4953765571117401, "grad_norm": 5.702076767496146, "learning_rate": 5.535445416413395e-07, "token_acc": 0.8524684309959412, "epoch": 0.49318624269954575, "step": 380}, {"loss": 0.4236016571521759, "grad_norm": 5.545753069186385, "learning_rate": 5.514104985686801e-07, "token_acc": 0.860693633556366, "epoch": 0.4944841012329656, "step": 381}, {"loss": 0.39490723609924316, "grad_norm": 5.57187514060689, "learning_rate": 5.492755085423492e-07, "token_acc": 0.8759445548057556, "epoch": 0.49578195976638545, "step": 382}, {"loss": 0.46740368008613586, "grad_norm": 6.279582116539971, "learning_rate": 5.471396108877123e-07, "token_acc": 0.8441889882087708, "epoch": 0.4970798182998053, "step": 383}, {"loss": 0.4896593689918518, "grad_norm": 6.021716080590421, "learning_rate": 5.450028449468526e-07, "token_acc": 0.8448492288589478, "epoch": 0.4983776768332252, "step": 384}, {"loss": 0.4587787985801697, "grad_norm": 7.467963011403085, "learning_rate": 5.428652500778472e-07, "token_acc": 0.8648974895477295, "epoch": 0.49967553536664505, "step": 385}, {"loss": 0.3791290521621704, "grad_norm": 4.683123042425298, "learning_rate": 5.407268656540412e-07, "token_acc": 0.8757829070091248, "epoch": 0.5009733939000649, "step": 386}, {"loss": 0.3864116072654724, "grad_norm": 5.213160755386329, "learning_rate": 5.385877310633232e-07, "token_acc": 0.8759739995002747, "epoch": 0.5022712524334848, "step": 387}, {"loss": 0.48645368218421936, "grad_norm": 5.733284596883154, "learning_rate": 5.364478857073992e-07, "token_acc": 0.8368753790855408, "epoch": 0.5035691109669046, "step": 388}, {"loss": 0.49845847487449646, "grad_norm": 5.393344184688411, "learning_rate": 5.343073690010671e-07, "token_acc": 0.8383620977401733, "epoch": 0.5048669695003245, "step": 389}, {"loss": 0.4039251208305359, "grad_norm": 5.218669977918689, "learning_rate": 5.321662203714908e-07, "token_acc": 0.8626053333282471, "epoch": 0.5061648280337443, "step": 390}, {"loss": 0.43251991271972656, "grad_norm": 5.786897939109563, "learning_rate": 5.300244792574742e-07, "token_acc": 0.8560839891433716, "epoch": 0.5074626865671642, "step": 391}, {"loss": 0.500662088394165, "grad_norm": 5.533893696780979, "learning_rate": 5.278821851087339e-07, "token_acc": 0.84836745262146, "epoch": 0.508760545100584, "step": 392}, {"loss": 0.43313372135162354, "grad_norm": 5.768180714461946, "learning_rate": 5.257393773851733e-07, "token_acc": 0.8543628454208374, "epoch": 0.5100584036340039, "step": 393}, {"loss": 0.4312547445297241, "grad_norm": 5.461450128333593, "learning_rate": 5.235960955561558e-07, "token_acc": 0.8640142679214478, "epoch": 0.5113562621674238, "step": 394}, {"loss": 0.42771416902542114, "grad_norm": 5.481655717341943, "learning_rate": 5.214523790997773e-07, "token_acc": 0.8546475172042847, "epoch": 0.5126541207008436, "step": 395}, {"loss": 0.4288179576396942, "grad_norm": 5.474813911678807, "learning_rate": 5.193082675021392e-07, "token_acc": 0.8681710362434387, "epoch": 0.5139519792342635, "step": 396}, {"loss": 0.34266921877861023, "grad_norm": 5.29750311221238, "learning_rate": 5.171638002566217e-07, "token_acc": 0.8793998956680298, "epoch": 0.5152498377676833, "step": 397}, {"loss": 0.3940715491771698, "grad_norm": 5.743684776674484, "learning_rate": 5.150190168631554e-07, "token_acc": 0.8665183782577515, "epoch": 0.5165476963011032, "step": 398}, {"loss": 0.40124374628067017, "grad_norm": 5.7558068088058985, "learning_rate": 5.128739568274943e-07, "token_acc": 0.8763474822044373, "epoch": 0.517845554834523, "step": 399}, {"loss": 0.44244247674942017, "grad_norm": 5.330966416963776, "learning_rate": 5.107286596604879e-07, "token_acc": 0.8576388955116272, "epoch": 0.5191434133679429, "step": 400}, {"loss": 0.46866047382354736, "grad_norm": 5.542048261933057, "learning_rate": 5.085831648773538e-07, "token_acc": 0.849197268486023, "epoch": 0.5204412719013628, "step": 401}, {"loss": 0.46412795782089233, "grad_norm": 5.657041648674129, "learning_rate": 5.06437511996949e-07, "token_acc": 0.8473618030548096, "epoch": 0.5217391304347826, "step": 402}, {"loss": 0.40602439641952515, "grad_norm": 5.786644903616291, "learning_rate": 5.042917405410435e-07, "token_acc": 0.8671373724937439, "epoch": 0.5230369889682025, "step": 403}, {"loss": 0.3453882932662964, "grad_norm": 5.286261723039758, "learning_rate": 5.021458900335906e-07, "token_acc": 0.8840104937553406, "epoch": 0.5243348475016223, "step": 404}, {"loss": 0.37452954053878784, "grad_norm": 5.337978989349565, "learning_rate": 5e-07, "token_acc": 0.874306857585907, "epoch": 0.5256327060350422, "step": 405}, {"loss": 0.41257256269454956, "grad_norm": 6.0315379622653795, "learning_rate": 4.978541099664095e-07, "token_acc": 0.867498517036438, "epoch": 0.526930564568462, "step": 406}, {"loss": 0.4342515766620636, "grad_norm": 5.237025015636154, "learning_rate": 4.957082594589565e-07, "token_acc": 0.8638368248939514, "epoch": 0.5282284231018819, "step": 407}, {"loss": 0.4987254738807678, "grad_norm": 5.584223980926415, "learning_rate": 4.93562488003051e-07, "token_acc": 0.839407742023468, "epoch": 0.5295262816353018, "step": 408}, {"loss": 0.36779624223709106, "grad_norm": 4.832381537214245, "learning_rate": 4.914168351226463e-07, "token_acc": 0.8760775923728943, "epoch": 0.5308241401687216, "step": 409}, {"loss": 0.37974756956100464, "grad_norm": 5.455937532255209, "learning_rate": 4.892713403395122e-07, "token_acc": 0.873210608959198, "epoch": 0.5321219987021415, "step": 410}, {"loss": 0.4293658137321472, "grad_norm": 5.609806828263983, "learning_rate": 4.871260431725058e-07, "token_acc": 0.8564689755439758, "epoch": 0.5334198572355613, "step": 411}, {"loss": 0.4502175450325012, "grad_norm": 5.548634085545976, "learning_rate": 4.849809831368447e-07, "token_acc": 0.852619469165802, "epoch": 0.5347177157689812, "step": 412}, {"loss": 0.40274643898010254, "grad_norm": 5.296069065244336, "learning_rate": 4.828361997433782e-07, "token_acc": 0.860350489616394, "epoch": 0.536015574302401, "step": 413}, {"loss": 0.34368467330932617, "grad_norm": 4.988630224168857, "learning_rate": 4.806917324978607e-07, "token_acc": 0.8855384588241577, "epoch": 0.5373134328358209, "step": 414}, {"loss": 0.3782597482204437, "grad_norm": 5.447895110735005, "learning_rate": 4.785476209002227e-07, "token_acc": 0.8725945353507996, "epoch": 0.5386112913692408, "step": 415}, {"loss": 0.4923677444458008, "grad_norm": 5.966040948899567, "learning_rate": 4.7640390444384434e-07, "token_acc": 0.8315290808677673, "epoch": 0.5399091499026606, "step": 416}, {"loss": 0.45034706592559814, "grad_norm": 6.064646481753392, "learning_rate": 4.742606226148267e-07, "token_acc": 0.8549931645393372, "epoch": 0.5412070084360805, "step": 417}, {"loss": 0.3675611913204193, "grad_norm": 5.582855464095653, "learning_rate": 4.721178148912663e-07, "token_acc": 0.8799260854721069, "epoch": 0.5425048669695003, "step": 418}, {"loss": 0.36082929372787476, "grad_norm": 5.512443509089513, "learning_rate": 4.6997552074252584e-07, "token_acc": 0.8735954761505127, "epoch": 0.5438027255029202, "step": 419}, {"loss": 0.47652721405029297, "grad_norm": 5.36917331845393, "learning_rate": 4.6783377962850917e-07, "token_acc": 0.8372092843055725, "epoch": 0.54510058403634, "step": 420}, {"loss": 0.3945836126804352, "grad_norm": 6.005920742142191, "learning_rate": 4.656926309989329e-07, "token_acc": 0.8630136847496033, "epoch": 0.5463984425697599, "step": 421}, {"loss": 0.42663276195526123, "grad_norm": 5.656450752694613, "learning_rate": 4.6355211429260095e-07, "token_acc": 0.8604794144630432, "epoch": 0.5476963011031798, "step": 422}, {"loss": 0.4283677637577057, "grad_norm": 5.254026204825022, "learning_rate": 4.614122689366768e-07, "token_acc": 0.8562605381011963, "epoch": 0.5489941596365996, "step": 423}, {"loss": 0.3349735736846924, "grad_norm": 4.949399061737852, "learning_rate": 4.592731343459588e-07, "token_acc": 0.8859384655952454, "epoch": 0.5502920181700195, "step": 424}, {"loss": 0.37583374977111816, "grad_norm": 5.427298621742215, "learning_rate": 4.571347499221528e-07, "token_acc": 0.875888466835022, "epoch": 0.5515898767034393, "step": 425}, {"loss": 0.48114559054374695, "grad_norm": 5.513794212668356, "learning_rate": 4.549971550531474e-07, "token_acc": 0.8527713418006897, "epoch": 0.5528877352368592, "step": 426}, {"loss": 0.3977753520011902, "grad_norm": 5.526556831346008, "learning_rate": 4.528603891122878e-07, "token_acc": 0.8656998872756958, "epoch": 0.5541855937702791, "step": 427}, {"loss": 0.500408947467804, "grad_norm": 5.68380904281647, "learning_rate": 4.507244914576508e-07, "token_acc": 0.837411642074585, "epoch": 0.5554834523036989, "step": 428}, {"loss": 0.4243409037590027, "grad_norm": 5.72831028029142, "learning_rate": 4.485895014313197e-07, "token_acc": 0.8646341562271118, "epoch": 0.5567813108371188, "step": 429}, {"loss": 0.4023631811141968, "grad_norm": 5.3679186720557235, "learning_rate": 4.4645545835866046e-07, "token_acc": 0.8587672114372253, "epoch": 0.5580791693705386, "step": 430}, {"loss": 0.3804666996002197, "grad_norm": 5.3541895760334315, "learning_rate": 4.4432240154759555e-07, "token_acc": 0.8635513782501221, "epoch": 0.5593770279039585, "step": 431}, {"loss": 0.4487408697605133, "grad_norm": 5.938293425055598, "learning_rate": 4.4219037028788213e-07, "token_acc": 0.8646112680435181, "epoch": 0.5606748864373783, "step": 432}, {"loss": 0.45872658491134644, "grad_norm": 6.457797236070722, "learning_rate": 4.400594038503864e-07, "token_acc": 0.8447592258453369, "epoch": 0.5619727449707982, "step": 433}, {"loss": 0.4039837419986725, "grad_norm": 5.744529761174794, "learning_rate": 4.3792954148636164e-07, "token_acc": 0.8671096563339233, "epoch": 0.5632706035042181, "step": 434}, {"loss": 0.5238277316093445, "grad_norm": 6.0682953245052245, "learning_rate": 4.3580082242672444e-07, "token_acc": 0.8329452872276306, "epoch": 0.5645684620376379, "step": 435}, {"loss": 0.4683856964111328, "grad_norm": 6.485338544782641, "learning_rate": 4.336732858813327e-07, "token_acc": 0.8505604267120361, "epoch": 0.5658663205710578, "step": 436}, {"loss": 0.41096317768096924, "grad_norm": 6.461886086380656, "learning_rate": 4.315469710382623e-07, "token_acc": 0.866287350654602, "epoch": 0.5671641791044776, "step": 437}, {"loss": 0.4170590043067932, "grad_norm": 5.9897409312047545, "learning_rate": 4.29421917063087e-07, "token_acc": 0.8506363034248352, "epoch": 0.5684620376378975, "step": 438}, {"loss": 0.37209221720695496, "grad_norm": 5.433128625386825, "learning_rate": 4.2729816309815505e-07, "token_acc": 0.8737463355064392, "epoch": 0.5697598961713173, "step": 439}, {"loss": 0.43122029304504395, "grad_norm": 5.406354395205942, "learning_rate": 4.2517574826187e-07, "token_acc": 0.85597825050354, "epoch": 0.5710577547047372, "step": 440}, {"loss": 0.3818763792514801, "grad_norm": 4.938137327856327, "learning_rate": 4.2305471164796904e-07, "token_acc": 0.8764637112617493, "epoch": 0.5723556132381571, "step": 441}, {"loss": 0.37903887033462524, "grad_norm": 5.530160776758744, "learning_rate": 4.2093509232480335e-07, "token_acc": 0.8674775958061218, "epoch": 0.5736534717715769, "step": 442}, {"loss": 0.39355653524398804, "grad_norm": 5.3394323566783335, "learning_rate": 4.1881692933461827e-07, "token_acc": 0.8735769987106323, "epoch": 0.5749513303049968, "step": 443}, {"loss": 0.43396103382110596, "grad_norm": 6.292678951056562, "learning_rate": 4.16700261692834e-07, "token_acc": 0.8445054888725281, "epoch": 0.5762491888384166, "step": 444}, {"loss": 0.4038890600204468, "grad_norm": 5.878161480295361, "learning_rate": 4.1458512838732796e-07, "token_acc": 0.8597475290298462, "epoch": 0.5775470473718365, "step": 445}, {"loss": 0.42374327778816223, "grad_norm": 6.249149987951369, "learning_rate": 4.1247156837771524e-07, "token_acc": 0.859695553779602, "epoch": 0.5788449059052563, "step": 446}, {"loss": 0.4007529616355896, "grad_norm": 5.933749873826873, "learning_rate": 4.1035962059463224e-07, "token_acc": 0.8691341876983643, "epoch": 0.5801427644386762, "step": 447}, {"loss": 0.35220593214035034, "grad_norm": 5.330966026761301, "learning_rate": 4.0824932393901834e-07, "token_acc": 0.8763020634651184, "epoch": 0.5814406229720961, "step": 448}, {"loss": 0.4125065803527832, "grad_norm": 5.274393895176625, "learning_rate": 4.0614071728140077e-07, "token_acc": 0.8650793433189392, "epoch": 0.5827384815055159, "step": 449}, {"loss": 0.41853511333465576, "grad_norm": 5.056621292491695, "learning_rate": 4.0403383946117715e-07, "token_acc": 0.8590285181999207, "epoch": 0.5840363400389358, "step": 450}, {"loss": 0.3844812512397766, "grad_norm": 5.331863733934778, "learning_rate": 4.0192872928590157e-07, "token_acc": 0.8650000095367432, "epoch": 0.5853341985723556, "step": 451}, {"loss": 0.47379326820373535, "grad_norm": 5.5571481332402595, "learning_rate": 3.998254255305685e-07, "token_acc": 0.8513985872268677, "epoch": 0.5866320571057755, "step": 452}, {"loss": 0.40007472038269043, "grad_norm": 5.563981965767852, "learning_rate": 3.977239669368997e-07, "token_acc": 0.8651006817817688, "epoch": 0.5879299156391953, "step": 453}, {"loss": 0.37242016196250916, "grad_norm": 5.608114592720327, "learning_rate": 3.9562439221262924e-07, "token_acc": 0.8782007098197937, "epoch": 0.5892277741726152, "step": 454}, {"loss": 0.46283167600631714, "grad_norm": 5.668737900419682, "learning_rate": 3.935267400307922e-07, "token_acc": 0.8516010046005249, "epoch": 0.5905256327060351, "step": 455}, {"loss": 0.4031466543674469, "grad_norm": 5.8258850138768645, "learning_rate": 3.914310490290108e-07, "token_acc": 0.8693107962608337, "epoch": 0.5918234912394549, "step": 456}, {"loss": 0.353786826133728, "grad_norm": 6.140335780312454, "learning_rate": 3.8933735780878376e-07, "token_acc": 0.8817619681358337, "epoch": 0.5931213497728748, "step": 457}, {"loss": 0.44362396001815796, "grad_norm": 5.182165479193673, "learning_rate": 3.8724570493477467e-07, "token_acc": 0.8580682873725891, "epoch": 0.5944192083062946, "step": 458}, {"loss": 0.30071794986724854, "grad_norm": 4.965925229461969, "learning_rate": 3.8515612893410224e-07, "token_acc": 0.8925794959068298, "epoch": 0.5957170668397145, "step": 459}, {"loss": 0.4350822865962982, "grad_norm": 5.827074243708571, "learning_rate": 3.830686682956298e-07, "token_acc": 0.8518276810646057, "epoch": 0.5970149253731343, "step": 460}, {"loss": 0.4488811492919922, "grad_norm": 5.7158176253956565, "learning_rate": 3.8098336146925724e-07, "token_acc": 0.8485623002052307, "epoch": 0.5983127839065542, "step": 461}, {"loss": 0.34136781096458435, "grad_norm": 5.217346665193997, "learning_rate": 3.7890024686521205e-07, "token_acc": 0.881322979927063, "epoch": 0.5996106424399741, "step": 462}, {"loss": 0.4332243800163269, "grad_norm": 5.607436820190314, "learning_rate": 3.768193628533426e-07, "token_acc": 0.8551599383354187, "epoch": 0.6009085009733939, "step": 463}, {"loss": 0.3943523168563843, "grad_norm": 5.343616770915221, "learning_rate": 3.7474074776241053e-07, "token_acc": 0.8631578683853149, "epoch": 0.6022063595068138, "step": 464}, {"loss": 0.40278875827789307, "grad_norm": 5.335280135530076, "learning_rate": 3.7266443987938565e-07, "token_acc": 0.8703494668006897, "epoch": 0.6035042180402336, "step": 465}, {"loss": 0.4847221374511719, "grad_norm": 6.180214006663948, "learning_rate": 3.7059047744873955e-07, "token_acc": 0.8340080976486206, "epoch": 0.6048020765736535, "step": 466}, {"loss": 0.45174282789230347, "grad_norm": 5.732647021617027, "learning_rate": 3.685188986717427e-07, "token_acc": 0.8563603162765503, "epoch": 0.6060999351070734, "step": 467}, {"loss": 0.49142056703567505, "grad_norm": 5.647970604116958, "learning_rate": 3.6644974170575904e-07, "token_acc": 0.84663987159729, "epoch": 0.6073977936404932, "step": 468}, {"loss": 0.43576011061668396, "grad_norm": 5.369956816604986, "learning_rate": 3.64383044663545e-07, "token_acc": 0.8598949313163757, "epoch": 0.6086956521739131, "step": 469}, {"loss": 0.4009127616882324, "grad_norm": 5.754816993709491, "learning_rate": 3.6231884561254577e-07, "token_acc": 0.8643282651901245, "epoch": 0.6099935107073329, "step": 470}, {"loss": 0.4985201954841614, "grad_norm": 6.121609920515171, "learning_rate": 3.602571825741953e-07, "token_acc": 0.833000659942627, "epoch": 0.6112913692407528, "step": 471}, {"loss": 0.4651302695274353, "grad_norm": 5.486966961600003, "learning_rate": 3.581980935232153e-07, "token_acc": 0.8449198007583618, "epoch": 0.6125892277741726, "step": 472}, {"loss": 0.4257752299308777, "grad_norm": 5.694779656045943, "learning_rate": 3.5614161638691655e-07, "token_acc": 0.8566796183586121, "epoch": 0.6138870863075925, "step": 473}, {"loss": 0.3745959401130676, "grad_norm": 5.492943622149746, "learning_rate": 3.5408778904449887e-07, "token_acc": 0.870479941368103, "epoch": 0.6151849448410124, "step": 474}, {"loss": 0.42164433002471924, "grad_norm": 5.5517972776006745, "learning_rate": 3.520366493263553e-07, "token_acc": 0.8511348366737366, "epoch": 0.6164828033744322, "step": 475}, {"loss": 0.32013633847236633, "grad_norm": 5.143331108813575, "learning_rate": 3.499882350133735e-07, "token_acc": 0.8826606869697571, "epoch": 0.6177806619078521, "step": 476}, {"loss": 0.47686320543289185, "grad_norm": 5.742203351321051, "learning_rate": 3.479425838362411e-07, "token_acc": 0.8369565010070801, "epoch": 0.6190785204412719, "step": 477}, {"loss": 0.39822325110435486, "grad_norm": 5.99656196677329, "learning_rate": 3.458997334747499e-07, "token_acc": 0.8712942600250244, "epoch": 0.6203763789746918, "step": 478}, {"loss": 0.3515746593475342, "grad_norm": 5.2698496185521115, "learning_rate": 3.438597215571027e-07, "token_acc": 0.8745148777961731, "epoch": 0.6216742375081116, "step": 479}, {"loss": 0.37832731008529663, "grad_norm": 5.287724577658609, "learning_rate": 3.418225856592193e-07, "token_acc": 0.8712871074676514, "epoch": 0.6229720960415315, "step": 480}, {"loss": 0.31958073377609253, "grad_norm": 4.550555063690429, "learning_rate": 3.397883633040445e-07, "token_acc": 0.8939226269721985, "epoch": 0.6242699545749514, "step": 481}, {"loss": 0.39045238494873047, "grad_norm": 5.98999364151521, "learning_rate": 3.377570919608579e-07, "token_acc": 0.8732394576072693, "epoch": 0.6255678131083712, "step": 482}, {"loss": 0.365140438079834, "grad_norm": 5.344878917383188, "learning_rate": 3.357288090445826e-07, "token_acc": 0.8733170032501221, "epoch": 0.6268656716417911, "step": 483}, {"loss": 0.43065550923347473, "grad_norm": 5.385521440392247, "learning_rate": 3.3370355191509686e-07, "token_acc": 0.8589234948158264, "epoch": 0.6281635301752109, "step": 484}, {"loss": 0.4480784237384796, "grad_norm": 5.668112292803202, "learning_rate": 3.3168135787654486e-07, "token_acc": 0.8560885787010193, "epoch": 0.6294613887086308, "step": 485}, {"loss": 0.4135368764400482, "grad_norm": 5.839862125553576, "learning_rate": 3.296622641766512e-07, "token_acc": 0.8649006485939026, "epoch": 0.6307592472420506, "step": 486}, {"loss": 0.4019218683242798, "grad_norm": 5.23923293895815, "learning_rate": 3.276463080060331e-07, "token_acc": 0.8615819215774536, "epoch": 0.6320571057754705, "step": 487}, {"loss": 0.4136658012866974, "grad_norm": 5.384409303527682, "learning_rate": 3.2563352649751684e-07, "token_acc": 0.8703808784484863, "epoch": 0.6333549643088904, "step": 488}, {"loss": 0.3686787188053131, "grad_norm": 5.586587023626076, "learning_rate": 3.236239567254526e-07, "token_acc": 0.8692307472229004, "epoch": 0.6346528228423102, "step": 489}, {"loss": 0.37562108039855957, "grad_norm": 5.307516889379846, "learning_rate": 3.216176357050326e-07, "token_acc": 0.8817480802536011, "epoch": 0.6359506813757301, "step": 490}, {"loss": 0.4885166585445404, "grad_norm": 5.451663639588818, "learning_rate": 3.1961460039160837e-07, "token_acc": 0.8422459959983826, "epoch": 0.6372485399091499, "step": 491}, {"loss": 0.46701985597610474, "grad_norm": 5.727165670094442, "learning_rate": 3.176148876800108e-07, "token_acc": 0.8502824902534485, "epoch": 0.6385463984425698, "step": 492}, {"loss": 0.42794787883758545, "grad_norm": 5.296114631900443, "learning_rate": 3.156185344038699e-07, "token_acc": 0.8590034246444702, "epoch": 0.6398442569759896, "step": 493}, {"loss": 0.3426281213760376, "grad_norm": 5.493180677514206, "learning_rate": 3.1362557733493724e-07, "token_acc": 0.8744246959686279, "epoch": 0.6411421155094095, "step": 494}, {"loss": 0.4441371560096741, "grad_norm": 5.756727441277456, "learning_rate": 3.1163605318240736e-07, "token_acc": 0.85173499584198, "epoch": 0.6424399740428294, "step": 495}, {"loss": 0.45089951157569885, "grad_norm": 6.669722028451267, "learning_rate": 3.096499985922433e-07, "token_acc": 0.8483548164367676, "epoch": 0.6437378325762492, "step": 496}, {"loss": 0.4163992702960968, "grad_norm": 5.834963267750779, "learning_rate": 3.0766745014649934e-07, "token_acc": 0.8575870394706726, "epoch": 0.6450356911096691, "step": 497}, {"loss": 0.3956100344657898, "grad_norm": 5.068061859285459, "learning_rate": 3.0568844436264985e-07, "token_acc": 0.8708425760269165, "epoch": 0.6463335496430889, "step": 498}, {"loss": 0.39297401905059814, "grad_norm": 5.496100428154799, "learning_rate": 3.0371301769291413e-07, "token_acc": 0.863313615322113, "epoch": 0.6476314081765088, "step": 499}, {"loss": 0.5071315169334412, "grad_norm": 5.48717993959648, "learning_rate": 3.0174120652358683e-07, "token_acc": 0.8352762460708618, "epoch": 0.6489292667099286, "step": 500}, {"loss": 0.4326665997505188, "grad_norm": 5.578960442505593, "learning_rate": 2.997730471743667e-07, "token_acc": 0.8566084504127502, "epoch": 0.6502271252433485, "step": 501}, {"loss": 0.40673398971557617, "grad_norm": 5.543464378718339, "learning_rate": 2.9780857589768833e-07, "token_acc": 0.8531187176704407, "epoch": 0.6515249837767684, "step": 502}, {"loss": 0.4651271402835846, "grad_norm": 5.406027634236206, "learning_rate": 2.9584782887805325e-07, "token_acc": 0.8476190567016602, "epoch": 0.6528228423101882, "step": 503}, {"loss": 0.3800010681152344, "grad_norm": 5.238145864135035, "learning_rate": 2.938908422313652e-07, "token_acc": 0.8682215809822083, "epoch": 0.6541207008436081, "step": 504}, {"loss": 0.3853756785392761, "grad_norm": 5.77315860449733, "learning_rate": 2.919376520042628e-07, "token_acc": 0.863185703754425, "epoch": 0.6554185593770279, "step": 505}, {"loss": 0.46276146173477173, "grad_norm": 5.305240609957126, "learning_rate": 2.899882941734576e-07, "token_acc": 0.8418631553649902, "epoch": 0.6567164179104478, "step": 506}, {"loss": 0.42920243740081787, "grad_norm": 5.598705580791767, "learning_rate": 2.880428046450697e-07, "token_acc": 0.8518979549407959, "epoch": 0.6580142764438677, "step": 507}, {"loss": 0.3540184497833252, "grad_norm": 5.072474132611097, "learning_rate": 2.8610121925396793e-07, "token_acc": 0.8794887661933899, "epoch": 0.6593121349772875, "step": 508}, {"loss": 0.42663508653640747, "grad_norm": 5.749126465960297, "learning_rate": 2.841635737631082e-07, "token_acc": 0.8555825352668762, "epoch": 0.6606099935107074, "step": 509}, {"loss": 0.33198124170303345, "grad_norm": 5.187574614878792, "learning_rate": 2.8222990386287614e-07, "token_acc": 0.8882154822349548, "epoch": 0.6619078520441272, "step": 510}, {"loss": 0.3527010977268219, "grad_norm": 5.567225170043896, "learning_rate": 2.8030024517042904e-07, "token_acc": 0.8809523582458496, "epoch": 0.6632057105775471, "step": 511}, {"loss": 0.3479038178920746, "grad_norm": 5.267034483247222, "learning_rate": 2.7837463322904014e-07, "token_acc": 0.8820577263832092, "epoch": 0.6645035691109669, "step": 512}, {"loss": 0.4733054041862488, "grad_norm": 5.905937477488539, "learning_rate": 2.7645310350744293e-07, "token_acc": 0.84272301197052, "epoch": 0.6658014276443868, "step": 513}, {"loss": 0.3955781161785126, "grad_norm": 5.317763003205773, "learning_rate": 2.7453569139917953e-07, "token_acc": 0.8692730665206909, "epoch": 0.6670992861778067, "step": 514}, {"loss": 0.4691315293312073, "grad_norm": 5.094763474451369, "learning_rate": 2.7262243222194725e-07, "token_acc": 0.8460342288017273, "epoch": 0.6683971447112265, "step": 515}, {"loss": 0.4221450090408325, "grad_norm": 5.869438128460875, "learning_rate": 2.707133612169485e-07, "token_acc": 0.8665401935577393, "epoch": 0.6696950032446464, "step": 516}, {"loss": 0.44172826409339905, "grad_norm": 6.887739580701734, "learning_rate": 2.6880851354824275e-07, "token_acc": 0.8567758798599243, "epoch": 0.6709928617780662, "step": 517}, {"loss": 0.47986942529678345, "grad_norm": 6.140989780320782, "learning_rate": 2.669079243020966e-07, "token_acc": 0.852996826171875, "epoch": 0.6722907203114861, "step": 518}, {"loss": 0.36660146713256836, "grad_norm": 5.443500316870076, "learning_rate": 2.6501162848634016e-07, "token_acc": 0.8736616969108582, "epoch": 0.6735885788449059, "step": 519}, {"loss": 0.37277430295944214, "grad_norm": 5.424628732282889, "learning_rate": 2.631196610297196e-07, "token_acc": 0.8749210238456726, "epoch": 0.6748864373783258, "step": 520}, {"loss": 0.3585163950920105, "grad_norm": 5.584102973020274, "learning_rate": 2.612320567812559e-07, "token_acc": 0.8836601376533508, "epoch": 0.6761842959117457, "step": 521}, {"loss": 0.30290132761001587, "grad_norm": 5.850526028387292, "learning_rate": 2.593488505096018e-07, "token_acc": 0.8914160132408142, "epoch": 0.6774821544451655, "step": 522}, {"loss": 0.4505959749221802, "grad_norm": 5.96885549883345, "learning_rate": 2.5747007690240196e-07, "token_acc": 0.8428115248680115, "epoch": 0.6787800129785854, "step": 523}, {"loss": 0.4069385826587677, "grad_norm": 6.704838473778184, "learning_rate": 2.5559577056565304e-07, "token_acc": 0.8678160905838013, "epoch": 0.6800778715120052, "step": 524}, {"loss": 0.46168744564056396, "grad_norm": 5.28002340539055, "learning_rate": 2.5372596602306784e-07, "token_acc": 0.8552631735801697, "epoch": 0.6813757300454251, "step": 525}, {"loss": 0.40373748540878296, "grad_norm": 5.219003357065277, "learning_rate": 2.518606977154378e-07, "token_acc": 0.8685236573219299, "epoch": 0.6826735885788449, "step": 526}, {"loss": 0.5217466950416565, "grad_norm": 6.084620465661219, "learning_rate": 2.500000000000001e-07, "token_acc": 0.8373600244522095, "epoch": 0.6839714471122648, "step": 527}, {"loss": 0.38461941480636597, "grad_norm": 5.5526074573354585, "learning_rate": 2.481439071498032e-07, "token_acc": 0.8734588027000427, "epoch": 0.6852693056456847, "step": 528}, {"loss": 0.42030268907546997, "grad_norm": 5.533247382277315, "learning_rate": 2.4629245335307734e-07, "token_acc": 0.8468899726867676, "epoch": 0.6865671641791045, "step": 529}, {"loss": 0.5073146224021912, "grad_norm": 5.772915437782409, "learning_rate": 2.444456727126031e-07, "token_acc": 0.8428835272789001, "epoch": 0.6878650227125244, "step": 530}, {"loss": 0.46679598093032837, "grad_norm": 5.633202403909325, "learning_rate": 2.426035992450848e-07, "token_acc": 0.8492605090141296, "epoch": 0.6891628812459442, "step": 531}, {"loss": 0.4415442943572998, "grad_norm": 5.395306903183152, "learning_rate": 2.4076626688052226e-07, "token_acc": 0.8602723479270935, "epoch": 0.6904607397793641, "step": 532}, {"loss": 0.41486531496047974, "grad_norm": 5.668143644351722, "learning_rate": 2.389337094615875e-07, "token_acc": 0.865217387676239, "epoch": 0.6917585983127839, "step": 533}, {"loss": 0.4069196581840515, "grad_norm": 5.920577043798325, "learning_rate": 2.3710596074300043e-07, "token_acc": 0.8611940145492554, "epoch": 0.6930564568462038, "step": 534}, {"loss": 0.3809170722961426, "grad_norm": 5.279430056753819, "learning_rate": 2.3528305439090739e-07, "token_acc": 0.8798646330833435, "epoch": 0.6943543153796237, "step": 535}, {"loss": 0.46103593707084656, "grad_norm": 6.76049084320574, "learning_rate": 2.334650239822603e-07, "token_acc": 0.8502961993217468, "epoch": 0.6956521739130435, "step": 536}, {"loss": 0.42655858397483826, "grad_norm": 5.4424204246474295, "learning_rate": 2.3165190300419978e-07, "token_acc": 0.8595337867736816, "epoch": 0.6969500324464634, "step": 537}, {"loss": 0.37581872940063477, "grad_norm": 5.2120892552399605, "learning_rate": 2.298437248534365e-07, "token_acc": 0.8792359828948975, "epoch": 0.6982478909798832, "step": 538}, {"loss": 0.4370214641094208, "grad_norm": 5.711017194193324, "learning_rate": 2.280405228356377e-07, "token_acc": 0.8587878942489624, "epoch": 0.6995457495133031, "step": 539}, {"loss": 0.4035353362560272, "grad_norm": 5.357034099740268, "learning_rate": 2.262423301648122e-07, "token_acc": 0.8693664073944092, "epoch": 0.7008436080467229, "step": 540}, {"loss": 0.46271052956581116, "grad_norm": 5.366738260998885, "learning_rate": 2.2444917996270002e-07, "token_acc": 0.8544734120368958, "epoch": 0.7021414665801428, "step": 541}, {"loss": 0.37144285440444946, "grad_norm": 5.964479034417187, "learning_rate": 2.22661105258161e-07, "token_acc": 0.8697509169578552, "epoch": 0.7034393251135627, "step": 542}, {"loss": 0.5081250667572021, "grad_norm": 5.675104223006795, "learning_rate": 2.208781389865677e-07, "token_acc": 0.8347969055175781, "epoch": 0.7047371836469825, "step": 543}, {"loss": 0.40557223558425903, "grad_norm": 5.598824638125315, "learning_rate": 2.1910031398919742e-07, "token_acc": 0.8658776879310608, "epoch": 0.7060350421804024, "step": 544}, {"loss": 0.35020965337753296, "grad_norm": 5.6128197601621626, "learning_rate": 2.1732766301262867e-07, "token_acc": 0.8801813721656799, "epoch": 0.7073329007138222, "step": 545}, {"loss": 0.3919335603713989, "grad_norm": 6.57522869026254, "learning_rate": 2.1556021870813651e-07, "token_acc": 0.8740741014480591, "epoch": 0.7086307592472421, "step": 546}, {"loss": 0.4375329315662384, "grad_norm": 6.049830019501254, "learning_rate": 2.1379801363109258e-07, "token_acc": 0.853782594203949, "epoch": 0.7099286177806619, "step": 547}, {"loss": 0.40755611658096313, "grad_norm": 5.227343059921311, "learning_rate": 2.1204108024036438e-07, "token_acc": 0.8574647903442383, "epoch": 0.7112264763140818, "step": 548}, {"loss": 0.3402537703514099, "grad_norm": 4.697445328145188, "learning_rate": 2.1028945089771816e-07, "token_acc": 0.884361207485199, "epoch": 0.7125243348475017, "step": 549}, {"loss": 0.3987805247306824, "grad_norm": 5.596762672033908, "learning_rate": 2.0854315786722188e-07, "token_acc": 0.8537794351577759, "epoch": 0.7138221933809215, "step": 550}, {"loss": 0.36506664752960205, "grad_norm": 5.708293113128166, "learning_rate": 2.068022333146522e-07, "token_acc": 0.8789144158363342, "epoch": 0.7151200519143414, "step": 551}, {"loss": 0.379946231842041, "grad_norm": 5.093326123343024, "learning_rate": 2.0506670930690073e-07, "token_acc": 0.8774603009223938, "epoch": 0.7164179104477612, "step": 552}, {"loss": 0.41659384965896606, "grad_norm": 4.949872461854443, "learning_rate": 2.0333661781138406e-07, "token_acc": 0.8678261041641235, "epoch": 0.7177157689811811, "step": 553}, {"loss": 0.3797512948513031, "grad_norm": 5.287540118340475, "learning_rate": 2.0161199069545533e-07, "token_acc": 0.8769651651382446, "epoch": 0.719013627514601, "step": 554}, {"loss": 0.38729128241539, "grad_norm": 5.608615010184663, "learning_rate": 1.9989285972581593e-07, "token_acc": 0.8687116503715515, "epoch": 0.7203114860480208, "step": 555}, {"loss": 0.44766533374786377, "grad_norm": 6.32275327809868, "learning_rate": 1.9817925656793212e-07, "token_acc": 0.8384560346603394, "epoch": 0.7216093445814407, "step": 556}, {"loss": 0.44610437750816345, "grad_norm": 5.265985075333058, "learning_rate": 1.9647121278544993e-07, "token_acc": 0.852224588394165, "epoch": 0.7229072031148605, "step": 557}, {"loss": 0.3541678786277771, "grad_norm": 4.802392352371623, "learning_rate": 1.947687598396154e-07, "token_acc": 0.8719100952148438, "epoch": 0.7242050616482804, "step": 558}, {"loss": 0.3582787811756134, "grad_norm": 5.7437387368595685, "learning_rate": 1.9307192908869396e-07, "token_acc": 0.8722498416900635, "epoch": 0.7255029201817002, "step": 559}, {"loss": 0.4438040256500244, "grad_norm": 6.4787609238946064, "learning_rate": 1.913807517873937e-07, "token_acc": 0.8535929918289185, "epoch": 0.72680077871512, "step": 560}, {"loss": 0.4013668894767761, "grad_norm": 5.490445995525993, "learning_rate": 1.896952590862886e-07, "token_acc": 0.8685678839683533, "epoch": 0.72809863724854, "step": 561}, {"loss": 0.40367186069488525, "grad_norm": 5.257902415419817, "learning_rate": 1.8801548203124584e-07, "token_acc": 0.8717948794364929, "epoch": 0.7293964957819598, "step": 562}, {"loss": 0.3636716604232788, "grad_norm": 5.1177430677756375, "learning_rate": 1.8634145156285308e-07, "token_acc": 0.8817465305328369, "epoch": 0.7306943543153797, "step": 563}, {"loss": 0.41280418634414673, "grad_norm": 5.002905425776731, "learning_rate": 1.846731985158495e-07, "token_acc": 0.8570624589920044, "epoch": 0.7319922128487995, "step": 564}, {"loss": 0.3732668459415436, "grad_norm": 5.468017143028209, "learning_rate": 1.8301075361855672e-07, "token_acc": 0.8610169291496277, "epoch": 0.7332900713822194, "step": 565}, {"loss": 0.43961814045906067, "grad_norm": 6.114574712210393, "learning_rate": 1.8135414749231381e-07, "token_acc": 0.8527528643608093, "epoch": 0.7345879299156391, "step": 566}, {"loss": 0.49123913049697876, "grad_norm": 5.926769476439885, "learning_rate": 1.7970341065091243e-07, "token_acc": 0.8430616855621338, "epoch": 0.735885788449059, "step": 567}, {"loss": 0.41812407970428467, "grad_norm": 5.481496821645041, "learning_rate": 1.7805857350003572e-07, "token_acc": 0.8563002943992615, "epoch": 0.737183646982479, "step": 568}, {"loss": 0.37854087352752686, "grad_norm": 5.233089793999704, "learning_rate": 1.7641966633669702e-07, "token_acc": 0.8753525018692017, "epoch": 0.7384815055158988, "step": 569}, {"loss": 0.45996958017349243, "grad_norm": 5.6507758181594365, "learning_rate": 1.74786719348683e-07, "token_acc": 0.8463429808616638, "epoch": 0.7397793640493187, "step": 570}, {"loss": 0.4579238295555115, "grad_norm": 6.447923907028787, "learning_rate": 1.7315976261399696e-07, "token_acc": 0.8487012982368469, "epoch": 0.7410772225827384, "step": 571}, {"loss": 0.41431930661201477, "grad_norm": 5.561690014880931, "learning_rate": 1.7153882610030513e-07, "token_acc": 0.8647249341011047, "epoch": 0.7423750811161584, "step": 572}, {"loss": 0.38767945766448975, "grad_norm": 6.0802777187447425, "learning_rate": 1.6992393966438405e-07, "token_acc": 0.8700184226036072, "epoch": 0.7436729396495781, "step": 573}, {"loss": 0.3903312087059021, "grad_norm": 5.468548302015859, "learning_rate": 1.683151330515717e-07, "token_acc": 0.8682073950767517, "epoch": 0.744970798182998, "step": 574}, {"loss": 0.37357786297798157, "grad_norm": 4.937114177828899, "learning_rate": 1.6671243589521838e-07, "token_acc": 0.8692480325698853, "epoch": 0.746268656716418, "step": 575}, {"loss": 0.38064247369766235, "grad_norm": 5.161080525476259, "learning_rate": 1.6511587771614204e-07, "token_acc": 0.8723533153533936, "epoch": 0.7475665152498377, "step": 576}, {"loss": 0.405603289604187, "grad_norm": 5.417071562813135, "learning_rate": 1.6352548792208353e-07, "token_acc": 0.8549222946166992, "epoch": 0.7488643737832577, "step": 577}, {"loss": 0.413377583026886, "grad_norm": 5.2850467303448205, "learning_rate": 1.6194129580716582e-07, "token_acc": 0.8712311387062073, "epoch": 0.7501622323166774, "step": 578}, {"loss": 0.47394800186157227, "grad_norm": 6.019552116402279, "learning_rate": 1.6036333055135344e-07, "token_acc": 0.8440251350402832, "epoch": 0.7514600908500974, "step": 579}, {"loss": 0.37376755475997925, "grad_norm": 5.079376375359962, "learning_rate": 1.5879162121991613e-07, "token_acc": 0.8734866976737976, "epoch": 0.7527579493835171, "step": 580}, {"loss": 0.36022475361824036, "grad_norm": 5.089155956653059, "learning_rate": 1.5722619676289227e-07, "token_acc": 0.8719660043716431, "epoch": 0.754055807916937, "step": 581}, {"loss": 0.40643638372421265, "grad_norm": 5.684879612376835, "learning_rate": 1.556670860145567e-07, "token_acc": 0.8498711585998535, "epoch": 0.755353666450357, "step": 582}, {"loss": 0.45192471146583557, "grad_norm": 5.928310847654235, "learning_rate": 1.5411431769288908e-07, "token_acc": 0.8636069893836975, "epoch": 0.7566515249837767, "step": 583}, {"loss": 0.3769274055957794, "grad_norm": 5.375822690661278, "learning_rate": 1.5256792039904465e-07, "token_acc": 0.8771929740905762, "epoch": 0.7579493835171967, "step": 584}, {"loss": 0.38128286600112915, "grad_norm": 5.369964952025133, "learning_rate": 1.510279226168281e-07, "token_acc": 0.8715083599090576, "epoch": 0.7592472420506164, "step": 585}, {"loss": 0.39906400442123413, "grad_norm": 5.366578535543634, "learning_rate": 1.4949435271216877e-07, "token_acc": 0.8787276148796082, "epoch": 0.7605451005840363, "step": 586}, {"loss": 0.5481759905815125, "grad_norm": 5.615963101551573, "learning_rate": 1.479672389325971e-07, "token_acc": 0.8261554837226868, "epoch": 0.7618429591174561, "step": 587}, {"loss": 0.37537088990211487, "grad_norm": 5.365763860963881, "learning_rate": 1.4644660940672627e-07, "token_acc": 0.8713998794555664, "epoch": 0.763140817650876, "step": 588}, {"loss": 0.37190455198287964, "grad_norm": 5.7654688937339005, "learning_rate": 1.449324921437322e-07, "token_acc": 0.8760162591934204, "epoch": 0.764438676184296, "step": 589}, {"loss": 0.36228498816490173, "grad_norm": 5.034696379396264, "learning_rate": 1.434249150328386e-07, "token_acc": 0.8807036876678467, "epoch": 0.7657365347177157, "step": 590}, {"loss": 0.4659577012062073, "grad_norm": 6.130198538208408, "learning_rate": 1.4192390584280344e-07, "token_acc": 0.8403361439704895, "epoch": 0.7670343932511356, "step": 591}, {"loss": 0.44321757555007935, "grad_norm": 5.496847515264023, "learning_rate": 1.4042949222140677e-07, "token_acc": 0.861005961894989, "epoch": 0.7683322517845554, "step": 592}, {"loss": 0.4651811122894287, "grad_norm": 5.6665062309550605, "learning_rate": 1.389417016949419e-07, "token_acc": 0.8423787355422974, "epoch": 0.7696301103179753, "step": 593}, {"loss": 0.40463268756866455, "grad_norm": 5.8184571921559955, "learning_rate": 1.374605616677087e-07, "token_acc": 0.8747390508651733, "epoch": 0.7709279688513953, "step": 594}, {"loss": 0.41214051842689514, "grad_norm": 5.1019339957340675, "learning_rate": 1.3598609942150763e-07, "token_acc": 0.8687572479248047, "epoch": 0.772225827384815, "step": 595}, {"loss": 0.4683002233505249, "grad_norm": 5.732094051744198, "learning_rate": 1.3451834211513873e-07, "token_acc": 0.8449656963348389, "epoch": 0.773523685918235, "step": 596}, {"loss": 0.37035703659057617, "grad_norm": 5.30391754380089, "learning_rate": 1.3305731678390046e-07, "token_acc": 0.8722438216209412, "epoch": 0.7748215444516547, "step": 597}, {"loss": 0.4694344997406006, "grad_norm": 6.7063112558869005, "learning_rate": 1.3160305033909168e-07, "token_acc": 0.8459079265594482, "epoch": 0.7761194029850746, "step": 598}, {"loss": 0.3946511745452881, "grad_norm": 5.1364020765339475, "learning_rate": 1.3015556956751667e-07, "token_acc": 0.8694362044334412, "epoch": 0.7774172615184944, "step": 599}, {"loss": 0.36193299293518066, "grad_norm": 5.245540274693992, "learning_rate": 1.2871490113099064e-07, "token_acc": 0.8750792741775513, "epoch": 0.7787151200519143, "step": 600}, {"loss": 0.4384801983833313, "grad_norm": 5.5759201873042255, "learning_rate": 1.2728107156585e-07, "token_acc": 0.8499106764793396, "epoch": 0.7800129785853342, "step": 601}, {"loss": 0.40990376472473145, "grad_norm": 5.034744521362091, "learning_rate": 1.258541072824621e-07, "token_acc": 0.8634604811668396, "epoch": 0.781310837118754, "step": 602}, {"loss": 0.4694802761077881, "grad_norm": 5.652043157332114, "learning_rate": 1.2443403456474016e-07, "token_acc": 0.8528563380241394, "epoch": 0.782608695652174, "step": 603}, {"loss": 0.40053510665893555, "grad_norm": 5.664409145549235, "learning_rate": 1.2302087956965789e-07, "token_acc": 0.8626475930213928, "epoch": 0.7839065541855937, "step": 604}, {"loss": 0.43864503502845764, "grad_norm": 5.228481386216775, "learning_rate": 1.2161466832676885e-07, "token_acc": 0.8559077978134155, "epoch": 0.7852044127190136, "step": 605}, {"loss": 0.433432400226593, "grad_norm": 5.373441956706197, "learning_rate": 1.2021542673772584e-07, "token_acc": 0.8612099885940552, "epoch": 0.7865022712524334, "step": 606}, {"loss": 0.48171573877334595, "grad_norm": 5.643556664863096, "learning_rate": 1.1882318057580487e-07, "token_acc": 0.839002251625061, "epoch": 0.7878001297858533, "step": 607}, {"loss": 0.47768646478652954, "grad_norm": 5.733426663894984, "learning_rate": 1.1743795548542968e-07, "token_acc": 0.8397976160049438, "epoch": 0.7890979883192732, "step": 608}, {"loss": 0.3747375011444092, "grad_norm": 5.930094788060574, "learning_rate": 1.1605977698169999e-07, "token_acc": 0.8756905794143677, "epoch": 0.790395846852693, "step": 609}, {"loss": 0.40547341108322144, "grad_norm": 4.949727586618787, "learning_rate": 1.1468867044992064e-07, "token_acc": 0.8677248954772949, "epoch": 0.791693705386113, "step": 610}, {"loss": 0.46075439453125, "grad_norm": 5.616626015442098, "learning_rate": 1.1332466114513512e-07, "token_acc": 0.850831925868988, "epoch": 0.7929915639195327, "step": 611}, {"loss": 0.3990321755409241, "grad_norm": 5.675665318300027, "learning_rate": 1.1196777419165926e-07, "token_acc": 0.8665338754653931, "epoch": 0.7942894224529526, "step": 612}, {"loss": 0.4584276080131531, "grad_norm": 5.589435262434244, "learning_rate": 1.1061803458261976e-07, "token_acc": 0.8545567989349365, "epoch": 0.7955872809863724, "step": 613}, {"loss": 0.3598715662956238, "grad_norm": 5.493124867596442, "learning_rate": 1.0927546717949221e-07, "token_acc": 0.8751763105392456, "epoch": 0.7968851395197923, "step": 614}, {"loss": 0.4570907652378082, "grad_norm": 5.708458265903243, "learning_rate": 1.0794009671164483e-07, "token_acc": 0.8491656184196472, "epoch": 0.7981829980532122, "step": 615}, {"loss": 0.4631877541542053, "grad_norm": 5.814152300728791, "learning_rate": 1.0661194777588162e-07, "token_acc": 0.8439054489135742, "epoch": 0.799480856586632, "step": 616}, {"loss": 0.43203434348106384, "grad_norm": 5.464104351917887, "learning_rate": 1.0529104483599022e-07, "token_acc": 0.8552486300468445, "epoch": 0.8007787151200519, "step": 617}, {"loss": 0.39833369851112366, "grad_norm": 5.145945401460529, "learning_rate": 1.0397741222229057e-07, "token_acc": 0.8688009977340698, "epoch": 0.8020765736534717, "step": 618}, {"loss": 0.3502463400363922, "grad_norm": 5.103838102059781, "learning_rate": 1.0267107413118741e-07, "token_acc": 0.880606472492218, "epoch": 0.8033744321868916, "step": 619}, {"loss": 0.34177032113075256, "grad_norm": 5.270763635505404, "learning_rate": 1.0137205462472425e-07, "token_acc": 0.8872964382171631, "epoch": 0.8046722907203114, "step": 620}, {"loss": 0.4393789768218994, "grad_norm": 5.777665757507739, "learning_rate": 1.0008037763014033e-07, "token_acc": 0.8636651635169983, "epoch": 0.8059701492537313, "step": 621}, {"loss": 0.4331948161125183, "grad_norm": 5.850035200523075, "learning_rate": 9.879606693942927e-08, "token_acc": 0.8663036823272705, "epoch": 0.8072680077871512, "step": 622}, {"loss": 0.3451719284057617, "grad_norm": 5.4046827118152985, "learning_rate": 9.751914620890206e-08, "token_acc": 0.8817802667617798, "epoch": 0.808565866320571, "step": 623}, {"loss": 0.5359783172607422, "grad_norm": 5.804686532502894, "learning_rate": 9.624963895874994e-08, "token_acc": 0.8300192356109619, "epoch": 0.8098637248539909, "step": 624}, {"loss": 0.46042829751968384, "grad_norm": 6.378829921340722, "learning_rate": 9.498756857261242e-08, "token_acc": 0.8439587354660034, "epoch": 0.8111615833874107, "step": 625}, {"loss": 0.3625352382659912, "grad_norm": 5.444318521463325, "learning_rate": 9.373295829714562e-08, "token_acc": 0.8762376308441162, "epoch": 0.8124594419208306, "step": 626}, {"loss": 0.4356650412082672, "grad_norm": 6.111917298041919, "learning_rate": 9.248583124159437e-08, "token_acc": 0.8476380705833435, "epoch": 0.8137573004542504, "step": 627}, {"loss": 0.4008615016937256, "grad_norm": 5.547637944711735, "learning_rate": 9.124621037736701e-08, "token_acc": 0.8674486875534058, "epoch": 0.8150551589876703, "step": 628}, {"loss": 0.3643256425857544, "grad_norm": 5.374183136566366, "learning_rate": 9.001411853761149e-08, "token_acc": 0.8734177350997925, "epoch": 0.8163530175210902, "step": 629}, {"loss": 0.36808422207832336, "grad_norm": 5.487731209206217, "learning_rate": 8.878957841679541e-08, "token_acc": 0.8763471245765686, "epoch": 0.81765087605451, "step": 630}, {"loss": 0.49341854453086853, "grad_norm": 5.704121222455473, "learning_rate": 8.757261257028776e-08, "token_acc": 0.8382353186607361, "epoch": 0.8189487345879299, "step": 631}, {"loss": 0.42984670400619507, "grad_norm": 6.060130777349339, "learning_rate": 8.636324341394357e-08, "token_acc": 0.8543046116828918, "epoch": 0.8202465931213497, "step": 632}, {"loss": 0.3894125521183014, "grad_norm": 5.079714026621429, "learning_rate": 8.516149322369054e-08, "token_acc": 0.8785982728004456, "epoch": 0.8215444516547696, "step": 633}, {"loss": 0.483281672000885, "grad_norm": 5.815797605309818, "learning_rate": 8.396738413511961e-08, "token_acc": 0.8514620065689087, "epoch": 0.8228423101881895, "step": 634}, {"loss": 0.4891771078109741, "grad_norm": 5.831222654859337, "learning_rate": 8.278093814307635e-08, "token_acc": 0.8272189497947693, "epoch": 0.8241401687216093, "step": 635}, {"loss": 0.3974383473396301, "grad_norm": 6.148245321291493, "learning_rate": 8.160217710125661e-08, "token_acc": 0.8673184514045715, "epoch": 0.8254380272550292, "step": 636}, {"loss": 0.40223416686058044, "grad_norm": 5.539067121682504, "learning_rate": 8.043112272180308e-08, "token_acc": 0.8731861114501953, "epoch": 0.826735885788449, "step": 637}, {"loss": 0.41642677783966064, "grad_norm": 5.74462567414625, "learning_rate": 7.926779657490651e-08, "token_acc": 0.8579301834106445, "epoch": 0.8280337443218689, "step": 638}, {"loss": 0.49903780221939087, "grad_norm": 5.9602623506273655, "learning_rate": 7.811222008840718e-08, "token_acc": 0.8389560580253601, "epoch": 0.8293316028552887, "step": 639}, {"loss": 0.3391788601875305, "grad_norm": 5.2676727656764575, "learning_rate": 7.696441454740132e-08, "token_acc": 0.8778531551361084, "epoch": 0.8306294613887086, "step": 640}, {"loss": 0.43230488896369934, "grad_norm": 5.581419740667271, "learning_rate": 7.582440109384808e-08, "token_acc": 0.8561064004898071, "epoch": 0.8319273199221285, "step": 641}, {"loss": 0.37319982051849365, "grad_norm": 4.930234532917344, "learning_rate": 7.469220072618094e-08, "token_acc": 0.8633846044540405, "epoch": 0.8332251784555483, "step": 642}, {"loss": 0.3772450089454651, "grad_norm": 5.249253945372146, "learning_rate": 7.356783429892021e-08, "token_acc": 0.8746851682662964, "epoch": 0.8345230369889682, "step": 643}, {"loss": 0.30148619413375854, "grad_norm": 4.691656091942955, "learning_rate": 7.245132252228947e-08, "token_acc": 0.8999999761581421, "epoch": 0.835820895522388, "step": 644}, {"loss": 0.41916948556900024, "grad_norm": 5.658602567026196, "learning_rate": 7.13426859618338e-08, "token_acc": 0.8662068843841553, "epoch": 0.8371187540558079, "step": 645}, {"loss": 0.3722057640552521, "grad_norm": 5.267372350503745, "learning_rate": 7.02419450380412e-08, "token_acc": 0.8630573153495789, "epoch": 0.8384166125892277, "step": 646}, {"loss": 0.4111361801624298, "grad_norm": 5.588634586296982, "learning_rate": 6.91491200259659e-08, "token_acc": 0.8687648177146912, "epoch": 0.8397144711226476, "step": 647}, {"loss": 0.3927668333053589, "grad_norm": 5.613359667716675, "learning_rate": 6.806423105485576e-08, "token_acc": 0.864480197429657, "epoch": 0.8410123296560675, "step": 648}, {"loss": 0.4171558916568756, "grad_norm": 5.461838914381345, "learning_rate": 6.698729810778064e-08, "token_acc": 0.8456334471702576, "epoch": 0.8423101881894873, "step": 649}, {"loss": 0.39676433801651, "grad_norm": 5.739010072209849, "learning_rate": 6.591834102126515e-08, "token_acc": 0.859078586101532, "epoch": 0.8436080467229072, "step": 650}, {"loss": 0.49404793977737427, "grad_norm": 5.547973463569676, "learning_rate": 6.485737948492237e-08, "token_acc": 0.835654616355896, "epoch": 0.844905905256327, "step": 651}, {"loss": 0.4489503502845764, "grad_norm": 5.49890744225158, "learning_rate": 6.380443304109218e-08, "token_acc": 0.8489164113998413, "epoch": 0.8462037637897469, "step": 652}, {"loss": 0.4110197126865387, "grad_norm": 5.376464320740153, "learning_rate": 6.275952108448018e-08, "token_acc": 0.8593271970748901, "epoch": 0.8475016223231667, "step": 653}, {"loss": 0.39878448843955994, "grad_norm": 5.966768851403201, "learning_rate": 6.172266286180161e-08, "token_acc": 0.8633720874786377, "epoch": 0.8487994808565866, "step": 654}, {"loss": 0.4562280774116516, "grad_norm": 6.261439789841468, "learning_rate": 6.06938774714259e-08, "token_acc": 0.8575323820114136, "epoch": 0.8500973393900065, "step": 655}, {"loss": 0.5135941505432129, "grad_norm": 5.772404950119111, "learning_rate": 5.967318386302539e-08, "token_acc": 0.8357187509536743, "epoch": 0.8513951979234263, "step": 656}, {"loss": 0.36459094285964966, "grad_norm": 5.011413321459966, "learning_rate": 5.8660600837226235e-08, "token_acc": 0.8746835589408875, "epoch": 0.8526930564568462, "step": 657}, {"loss": 0.3988618850708008, "grad_norm": 4.9550402720861255, "learning_rate": 5.765614704526201e-08, "token_acc": 0.8623955249786377, "epoch": 0.853990914990266, "step": 658}, {"loss": 0.3925684690475464, "grad_norm": 5.328159067966528, "learning_rate": 5.665984098862992e-08, "token_acc": 0.8747615814208984, "epoch": 0.8552887735236859, "step": 659}, {"loss": 0.3936651051044464, "grad_norm": 5.081994344731751, "learning_rate": 5.567170101875074e-08, "token_acc": 0.8711985945701599, "epoch": 0.8565866320571057, "step": 660}, {"loss": 0.48111361265182495, "grad_norm": 6.734548569061155, "learning_rate": 5.469174533662979e-08, "token_acc": 0.8371104598045349, "epoch": 0.8578844905905256, "step": 661}, {"loss": 0.4310181140899658, "grad_norm": 5.426391404799026, "learning_rate": 5.371999199252275e-08, "token_acc": 0.8539540767669678, "epoch": 0.8591823491239455, "step": 662}, {"loss": 0.31058406829833984, "grad_norm": 4.8814896512773265, "learning_rate": 5.2756458885602314e-08, "token_acc": 0.9012426137924194, "epoch": 0.8604802076573653, "step": 663}, {"loss": 0.4147017002105713, "grad_norm": 5.441587709285732, "learning_rate": 5.1801163763628807e-08, "token_acc": 0.8654680848121643, "epoch": 0.8617780661907852, "step": 664}, {"loss": 0.3878736197948456, "grad_norm": 5.569548442281017, "learning_rate": 5.085412422262364e-08, "token_acc": 0.8659326434135437, "epoch": 0.863075924724205, "step": 665}, {"loss": 0.38306084275245667, "grad_norm": 5.195984645678106, "learning_rate": 4.991535770654448e-08, "token_acc": 0.8649015426635742, "epoch": 0.8643737832576249, "step": 666}, {"loss": 0.4510737955570221, "grad_norm": 5.392515361691398, "learning_rate": 4.898488150696467e-08, "token_acc": 0.8488170504570007, "epoch": 0.8656716417910447, "step": 667}, {"loss": 0.4215710759162903, "grad_norm": 5.232167058625537, "learning_rate": 4.806271276275414e-08, "token_acc": 0.8680387139320374, "epoch": 0.8669695003244646, "step": 668}, {"loss": 0.44857197999954224, "grad_norm": 5.62545490090518, "learning_rate": 4.714886845976429e-08, "token_acc": 0.8542044758796692, "epoch": 0.8682673588578845, "step": 669}, {"loss": 0.4250391125679016, "grad_norm": 5.866061983486091, "learning_rate": 4.624336543051432e-08, "token_acc": 0.8649144172668457, "epoch": 0.8695652173913043, "step": 670}, {"loss": 0.4508333206176758, "grad_norm": 5.433544896752089, "learning_rate": 4.534622035388214e-08, "token_acc": 0.8492492437362671, "epoch": 0.8708630759247242, "step": 671}, {"loss": 0.3821432590484619, "grad_norm": 5.37250615726479, "learning_rate": 4.445744975479626e-08, "token_acc": 0.8661037683486938, "epoch": 0.872160934458144, "step": 672}, {"loss": 0.42585721611976624, "grad_norm": 5.620325672371378, "learning_rate": 4.3577070003932234e-08, "token_acc": 0.8591989874839783, "epoch": 0.8734587929915639, "step": 673}, {"loss": 0.4843706488609314, "grad_norm": 5.95200720739428, "learning_rate": 4.27050973174104e-08, "token_acc": 0.853205144405365, "epoch": 0.8747566515249838, "step": 674}, {"loss": 0.3975268006324768, "grad_norm": 4.931788024303239, "learning_rate": 4.1841547756497675e-08, "token_acc": 0.8720461130142212, "epoch": 0.8760545100584036, "step": 675}, {"loss": 0.42998602986335754, "grad_norm": 5.351350980425462, "learning_rate": 4.0986437227311434e-08, "token_acc": 0.8601099848747253, "epoch": 0.8773523685918235, "step": 676}, {"loss": 0.4231101870536804, "grad_norm": 5.776669906576262, "learning_rate": 4.013978148052677e-08, "token_acc": 0.85447758436203, "epoch": 0.8786502271252433, "step": 677}, {"loss": 0.4382353723049164, "grad_norm": 5.894808298267706, "learning_rate": 3.930159611108602e-08, "token_acc": 0.8552311658859253, "epoch": 0.8799480856586632, "step": 678}, {"loss": 0.40396684408187866, "grad_norm": 5.038149024237867, "learning_rate": 3.8471896557912e-08, "token_acc": 0.8620689511299133, "epoch": 0.881245944192083, "step": 679}, {"loss": 0.39506855607032776, "grad_norm": 5.215927170254239, "learning_rate": 3.765069810362326e-08, "token_acc": 0.8650742173194885, "epoch": 0.8825438027255029, "step": 680}, {"loss": 0.3609916567802429, "grad_norm": 4.8457761668066945, "learning_rate": 3.683801587425251e-08, "token_acc": 0.8802395462989807, "epoch": 0.8838416612589228, "step": 681}, {"loss": 0.4350598454475403, "grad_norm": 6.398942014495327, "learning_rate": 3.603386483896853e-08, "token_acc": 0.8540716767311096, "epoch": 0.8851395197923426, "step": 682}, {"loss": 0.4205802381038666, "grad_norm": 5.022927259170446, "learning_rate": 3.523825980979989e-08, "token_acc": 0.8510131239891052, "epoch": 0.8864373783257625, "step": 683}, {"loss": 0.37851136922836304, "grad_norm": 5.16661704547598, "learning_rate": 3.445121544136226e-08, "token_acc": 0.8721311688423157, "epoch": 0.8877352368591823, "step": 684}, {"loss": 0.3027611970901489, "grad_norm": 4.49163621450095, "learning_rate": 3.36727462305888e-08, "token_acc": 0.8949211835861206, "epoch": 0.8890330953926022, "step": 685}, {"loss": 0.44735395908355713, "grad_norm": 5.574922577712971, "learning_rate": 3.290286651646263e-08, "token_acc": 0.8429648280143738, "epoch": 0.890330953926022, "step": 686}, {"loss": 0.41385000944137573, "grad_norm": 5.722743283092068, "learning_rate": 3.2141590479753234e-08, "token_acc": 0.8686468601226807, "epoch": 0.8916288124594419, "step": 687}, {"loss": 0.41229066252708435, "grad_norm": 4.944772365670762, "learning_rate": 3.138893214275462e-08, "token_acc": 0.8554942011833191, "epoch": 0.8929266709928618, "step": 688}, {"loss": 0.34502214193344116, "grad_norm": 5.233767967846328, "learning_rate": 3.0644905369027916e-08, "token_acc": 0.8712069988250732, "epoch": 0.8942245295262816, "step": 689}, {"loss": 0.3765447735786438, "grad_norm": 5.901037126070588, "learning_rate": 2.990952386314505e-08, "token_acc": 0.8786313533782959, "epoch": 0.8955223880597015, "step": 690}, {"loss": 0.3820681571960449, "grad_norm": 5.521991193670689, "learning_rate": 2.9182801170437088e-08, "token_acc": 0.8672142624855042, "epoch": 0.8968202465931213, "step": 691}, {"loss": 0.39855772256851196, "grad_norm": 5.055900487043769, "learning_rate": 2.8464750676744143e-08, "token_acc": 0.8780630230903625, "epoch": 0.8981181051265412, "step": 692}, {"loss": 0.33342939615249634, "grad_norm": 4.871615860860914, "learning_rate": 2.7755385608169368e-08, "token_acc": 0.8840497732162476, "epoch": 0.899415963659961, "step": 693}, {"loss": 0.46540939807891846, "grad_norm": 5.110639127598606, "learning_rate": 2.7054719030834894e-08, "token_acc": 0.8473938703536987, "epoch": 0.9007138221933809, "step": 694}, {"loss": 0.3313154876232147, "grad_norm": 5.301754193631921, "learning_rate": 2.636276385064157e-08, "token_acc": 0.8822254538536072, "epoch": 0.9020116807268008, "step": 695}, {"loss": 0.4357301592826843, "grad_norm": 5.111842605903978, "learning_rate": 2.5679532813030592e-08, "token_acc": 0.8457207083702087, "epoch": 0.9033095392602206, "step": 696}, {"loss": 0.5026720762252808, "grad_norm": 5.579421398415104, "learning_rate": 2.5005038502749487e-08, "token_acc": 0.8418994545936584, "epoch": 0.9046073977936405, "step": 697}, {"loss": 0.2968171536922455, "grad_norm": 4.513100734686442, "learning_rate": 2.433929334361995e-08, "token_acc": 0.8952164053916931, "epoch": 0.9059052563270603, "step": 698}, {"loss": 0.4977085590362549, "grad_norm": 5.995632168531474, "learning_rate": 2.3682309598308746e-08, "token_acc": 0.8446310758590698, "epoch": 0.9072031148604802, "step": 699}, {"loss": 0.32491135597229004, "grad_norm": 5.0203358511462115, "learning_rate": 2.303409936810252e-08, "token_acc": 0.8859975337982178, "epoch": 0.9085009733939, "step": 700}, {"loss": 0.4219552278518677, "grad_norm": 4.978791398802479, "learning_rate": 2.239467459268418e-08, "token_acc": 0.8590381145477295, "epoch": 0.9097988319273199, "step": 701}, {"loss": 0.3518696129322052, "grad_norm": 5.504078600087216, "learning_rate": 2.1764047049913525e-08, "token_acc": 0.8795573115348816, "epoch": 0.9110966904607398, "step": 702}, {"loss": 0.4296514391899109, "grad_norm": 5.65129746087196, "learning_rate": 2.114222835560986e-08, "token_acc": 0.8610579967498779, "epoch": 0.9123945489941596, "step": 703}, {"loss": 0.33769673109054565, "grad_norm": 5.022022174510551, "learning_rate": 2.052922996333839e-08, "token_acc": 0.8876482844352722, "epoch": 0.9136924075275795, "step": 704}, {"loss": 0.399936318397522, "grad_norm": 5.466592471927377, "learning_rate": 1.992506316419912e-08, "token_acc": 0.8645204305648804, "epoch": 0.9149902660609993, "step": 705}, {"loss": 0.4028794765472412, "grad_norm": 5.303252000856109, "learning_rate": 1.9329739086618778e-08, "token_acc": 0.8679019808769226, "epoch": 0.9162881245944192, "step": 706}, {"loss": 0.4454345405101776, "grad_norm": 5.875206089525989, "learning_rate": 1.8743268696145953e-08, "token_acc": 0.8522511124610901, "epoch": 0.917585983127839, "step": 707}, {"loss": 0.5320005416870117, "grad_norm": 5.699217890028204, "learning_rate": 1.816566279524917e-08, "token_acc": 0.8200859427452087, "epoch": 0.9188838416612589, "step": 708}, {"loss": 0.4635959565639496, "grad_norm": 5.942502281422816, "learning_rate": 1.7596932023117683e-08, "token_acc": 0.847653865814209, "epoch": 0.9201817001946788, "step": 709}, {"loss": 0.4235095977783203, "grad_norm": 5.155557023988483, "learning_rate": 1.7037086855465898e-08, "token_acc": 0.8491652011871338, "epoch": 0.9214795587280986, "step": 710}, {"loss": 0.44238027930259705, "grad_norm": 5.195070343427593, "learning_rate": 1.648613760433981e-08, "token_acc": 0.8551164865493774, "epoch": 0.9227774172615185, "step": 711}, {"loss": 0.39249610900878906, "grad_norm": 5.488716155923871, "learning_rate": 1.5944094417927877e-08, "token_acc": 0.8658764958381653, "epoch": 0.9240752757949383, "step": 712}, {"loss": 0.4315601587295532, "grad_norm": 5.551109379368512, "learning_rate": 1.541096728037322e-08, "token_acc": 0.8585074543952942, "epoch": 0.9253731343283582, "step": 713}, {"loss": 0.5029842853546143, "grad_norm": 5.604417303697503, "learning_rate": 1.4886766011590446e-08, "token_acc": 0.8381295204162598, "epoch": 0.9266709928617781, "step": 714}, {"loss": 0.3800906240940094, "grad_norm": 5.281094989878242, "learning_rate": 1.4371500267084335e-08, "token_acc": 0.8729483485221863, "epoch": 0.9279688513951979, "step": 715}, {"loss": 0.2865493893623352, "grad_norm": 5.182831524266641, "learning_rate": 1.3865179537772109e-08, "token_acc": 0.8999999761581421, "epoch": 0.9292667099286178, "step": 716}, {"loss": 0.45530158281326294, "grad_norm": 5.273396307717625, "learning_rate": 1.3367813149808726e-08, "token_acc": 0.8463734984397888, "epoch": 0.9305645684620376, "step": 717}, {"loss": 0.3986392617225647, "grad_norm": 5.4082807113270155, "learning_rate": 1.2879410264415025e-08, "token_acc": 0.8660377264022827, "epoch": 0.9318624269954575, "step": 718}, {"loss": 0.3945831060409546, "grad_norm": 5.163603271063752, "learning_rate": 1.2399979877708744e-08, "token_acc": 0.8753993511199951, "epoch": 0.9331602855288773, "step": 719}, {"loss": 0.41542965173721313, "grad_norm": 5.498510889058343, "learning_rate": 1.192953082053927e-08, "token_acc": 0.848777711391449, "epoch": 0.9344581440622972, "step": 720}, {"loss": 0.3355775475502014, "grad_norm": 4.5921511218487066, "learning_rate": 1.1468071758324593e-08, "token_acc": 0.8837719559669495, "epoch": 0.9357560025957171, "step": 721}, {"loss": 0.439944326877594, "grad_norm": 5.776377895405353, "learning_rate": 1.1015611190891948e-08, "token_acc": 0.8449660539627075, "epoch": 0.9370538611291369, "step": 722}, {"loss": 0.361663818359375, "grad_norm": 6.013966010302445, "learning_rate": 1.0572157452321095e-08, "token_acc": 0.8682758808135986, "epoch": 0.9383517196625568, "step": 723}, {"loss": 0.41984865069389343, "grad_norm": 5.837197164567479, "learning_rate": 1.0137718710790832e-08, "token_acc": 0.8536121845245361, "epoch": 0.9396495781959766, "step": 724}, {"loss": 0.389215886592865, "grad_norm": 5.319296715604196, "learning_rate": 9.712302968428564e-09, "token_acc": 0.8727149367332458, "epoch": 0.9409474367293965, "step": 725}, {"loss": 0.343567818403244, "grad_norm": 5.007244279649702, "learning_rate": 9.295918061163033e-09, "token_acc": 0.8795022964477539, "epoch": 0.9422452952628163, "step": 726}, {"loss": 0.48143112659454346, "grad_norm": 5.9848802063455935, "learning_rate": 8.888571658579702e-09, "token_acc": 0.8460517525672913, "epoch": 0.9435431537962362, "step": 727}, {"loss": 0.39779216051101685, "grad_norm": 5.137440340845299, "learning_rate": 8.490271263779768e-09, "token_acc": 0.8668674826622009, "epoch": 0.9448410123296561, "step": 728}, {"loss": 0.37225139141082764, "grad_norm": 5.1914211422639935, "learning_rate": 8.101024213241825e-09, "token_acc": 0.8729076385498047, "epoch": 0.9461388708630759, "step": 729}, {"loss": 0.375820517539978, "grad_norm": 5.585554798021489, "learning_rate": 7.720837676686743e-09, "token_acc": 0.8803480863571167, "epoch": 0.9474367293964958, "step": 730}, {"loss": 0.3582034111022949, "grad_norm": 5.585324619130019, "learning_rate": 7.349718656945502e-09, "token_acc": 0.8761371374130249, "epoch": 0.9487345879299156, "step": 731}, {"loss": 0.43215587735176086, "grad_norm": 5.400054891689758, "learning_rate": 6.987673989830522e-09, "token_acc": 0.8639414310455322, "epoch": 0.9500324464633355, "step": 732}, {"loss": 0.33942097425460815, "grad_norm": 5.606821580851822, "learning_rate": 6.6347103440092534e-09, "token_acc": 0.8774787783622742, "epoch": 0.9513303049967553, "step": 733}, {"loss": 0.401346355676651, "grad_norm": 5.22915244761298, "learning_rate": 6.290834220882002e-09, "token_acc": 0.862476646900177, "epoch": 0.9526281635301752, "step": 734}, {"loss": 0.3731706142425537, "grad_norm": 5.217751452573784, "learning_rate": 5.956051954461472e-09, "token_acc": 0.873846173286438, "epoch": 0.9539260220635951, "step": 735}, {"loss": 0.3950749635696411, "grad_norm": 4.765305670155748, "learning_rate": 5.630369711256467e-09, "token_acc": 0.8693058490753174, "epoch": 0.9552238805970149, "step": 736}, {"loss": 0.4086719751358032, "grad_norm": 5.004583147328557, "learning_rate": 5.313793490158536e-09, "token_acc": 0.8676801919937134, "epoch": 0.9565217391304348, "step": 737}, {"loss": 0.42150944471359253, "grad_norm": 6.090630244958603, "learning_rate": 5.006329122330899e-09, "token_acc": 0.8595505356788635, "epoch": 0.9578195976638546, "step": 738}, {"loss": 0.41822201013565063, "grad_norm": 6.186470130418713, "learning_rate": 4.70798227110153e-09, "token_acc": 0.8559485673904419, "epoch": 0.9591174561972745, "step": 739}, {"loss": 0.4140986204147339, "grad_norm": 6.00875347878041, "learning_rate": 4.4187584318585714e-09, "token_acc": 0.867986798286438, "epoch": 0.9604153147306943, "step": 740}, {"loss": 0.36483344435691833, "grad_norm": 4.950160778038929, "learning_rate": 4.138662931949255e-09, "token_acc": 0.877439022064209, "epoch": 0.9617131732641142, "step": 741}, {"loss": 0.4728274643421173, "grad_norm": 5.572277110631161, "learning_rate": 3.867700930581696e-09, "token_acc": 0.8429937958717346, "epoch": 0.9630110317975341, "step": 742}, {"loss": 0.39931613206863403, "grad_norm": 5.022848641046554, "learning_rate": 3.6058774187299746e-09, "token_acc": 0.8759959936141968, "epoch": 0.9643088903309539, "step": 743}, {"loss": 0.4548693895339966, "grad_norm": 5.426320101665574, "learning_rate": 3.353197219041981e-09, "token_acc": 0.8469092845916748, "epoch": 0.9656067488643738, "step": 744}, {"loss": 0.5204923152923584, "grad_norm": 5.7779267156776895, "learning_rate": 3.109664985750826e-09, "token_acc": 0.8406417369842529, "epoch": 0.9669046073977936, "step": 745}, {"loss": 0.44396811723709106, "grad_norm": 5.635321164774082, "learning_rate": 2.8752852045889065e-09, "token_acc": 0.8566732406616211, "epoch": 0.9682024659312135, "step": 746}, {"loss": 0.4213206171989441, "grad_norm": 5.868069388609503, "learning_rate": 2.650062192705471e-09, "token_acc": 0.8672566413879395, "epoch": 0.9695003244646333, "step": 747}, {"loss": 0.36481648683547974, "grad_norm": 5.246463608660092, "learning_rate": 2.4340000985870747e-09, "token_acc": 0.8821696043014526, "epoch": 0.9707981829980532, "step": 748}, {"loss": 0.4253045916557312, "grad_norm": 5.6994076955714625, "learning_rate": 2.2271029019809706e-09, "token_acc": 0.8493408560752869, "epoch": 0.9720960415314731, "step": 749}, {"loss": 0.3941752314567566, "grad_norm": 5.4295916668468545, "learning_rate": 2.029374413821949e-09, "token_acc": 0.8616677522659302, "epoch": 0.9733939000648929, "step": 750}, {"loss": 0.47477221488952637, "grad_norm": 5.466795987654342, "learning_rate": 1.840818276162226e-09, "token_acc": 0.8451213240623474, "epoch": 0.9746917585983128, "step": 751}, {"loss": 0.38370150327682495, "grad_norm": 5.475701643282554, "learning_rate": 1.6614379621042728e-09, "token_acc": 0.8653585910797119, "epoch": 0.9759896171317326, "step": 752}, {"loss": 0.39389562606811523, "grad_norm": 4.964443928117713, "learning_rate": 1.4912367757366485e-09, "token_acc": 0.8755555748939514, "epoch": 0.9772874756651525, "step": 753}, {"loss": 0.4105934500694275, "grad_norm": 5.017714986939591, "learning_rate": 1.3302178520736007e-09, "token_acc": 0.8620492219924927, "epoch": 0.9785853341985724, "step": 754}, {"loss": 0.45046621561050415, "grad_norm": 5.451390938088731, "learning_rate": 1.1783841569968368e-09, "token_acc": 0.8488838076591492, "epoch": 0.9798831927319922, "step": 755}, {"loss": 0.36918288469314575, "grad_norm": 5.412215442582271, "learning_rate": 1.0357384872011766e-09, "token_acc": 0.8822768330574036, "epoch": 0.9811810512654121, "step": 756}, {"loss": 0.4058837592601776, "grad_norm": 5.416674501258417, "learning_rate": 9.022834701429838e-10, "token_acc": 0.8636959195137024, "epoch": 0.9824789097988319, "step": 757}, {"loss": 0.3530641198158264, "grad_norm": 4.9971756601509, "learning_rate": 7.780215639917598e-10, "token_acc": 0.8799004554748535, "epoch": 0.9837767683322518, "step": 758}, {"loss": 0.43261098861694336, "grad_norm": 5.0792025481696825, "learning_rate": 6.629550575847354e-10, "token_acc": 0.8555493354797363, "epoch": 0.9850746268656716, "step": 759}, {"loss": 0.3276846408843994, "grad_norm": 5.059166385461369, "learning_rate": 5.57086070385071e-10, "token_acc": 0.8850889205932617, "epoch": 0.9863724853990915, "step": 760}, {"loss": 0.39870238304138184, "grad_norm": 5.684268151185272, "learning_rate": 4.6041655244233315e-10, "token_acc": 0.8589909672737122, "epoch": 0.9876703439325114, "step": 761}, {"loss": 0.43389344215393066, "grad_norm": 5.330811964443525, "learning_rate": 3.7294828435696644e-10, "token_acc": 0.8611111044883728, "epoch": 0.9889682024659312, "step": 762}, {"loss": 0.3850323259830475, "grad_norm": 5.413179306138864, "learning_rate": 2.946828772473764e-10, "token_acc": 0.8629508018493652, "epoch": 0.9902660609993511, "step": 763}, {"loss": 0.41310620307922363, "grad_norm": 4.928321710088126, "learning_rate": 2.2562177272006378e-10, "token_acc": 0.8656641840934753, "epoch": 0.9915639195327709, "step": 764}, {"loss": 0.3527667224407196, "grad_norm": 5.017326170913479, "learning_rate": 1.6576624284347917e-10, "token_acc": 0.8817672729492188, "epoch": 0.9928617780661908, "step": 765}, {"loss": 0.48030003905296326, "grad_norm": 5.838625273695562, "learning_rate": 1.1511739012409761e-10, "token_acc": 0.8331257700920105, "epoch": 0.9941596365996106, "step": 766}, {"loss": 0.3779534101486206, "grad_norm": 6.230954237398362, "learning_rate": 7.36761474865455e-11, "token_acc": 0.8752959966659546, "epoch": 0.9954574951330305, "step": 767}, {"loss": 0.42475372552871704, "grad_norm": 5.885366312912564, "learning_rate": 4.144327825617022e-11, "token_acc": 0.8555107712745667, "epoch": 0.9967553536664504, "step": 768}, {"loss": 0.4293484389781952, "grad_norm": 5.926164895041949, "learning_rate": 1.841937614505129e-11, "token_acc": 0.8687258958816528, "epoch": 0.9980532121998702, "step": 769}, {"loss": 0.4207964837551117, "grad_norm": 5.624149040134114, "learning_rate": 4.604865241064626e-12, "token_acc": 0.8589285612106323, "epoch": 0.9993510707332901, "step": 770}, {"loss": 0.452362596988678, "grad_norm": 7.856116845244584, "learning_rate": 0.0, "token_acc": 0.8600000143051147, "epoch": 1.0, "step": 771}, {"eval_loss": 0.40978318452835083, "eval_runtime": 4.4429, "eval_samples_per_second": 2.701, "eval_steps_per_second": 0.45, "eval_token_acc": 0.8686587810516357, "epoch": 1.0, "step": 771}, {"eval_loss": 0.40978318452835083, "eval_runtime": 3.7698, "eval_samples_per_second": 3.183, "eval_steps_per_second": 0.531, "eval_token_acc": 0.8686587810516357, "epoch": 1.0, "step": 771}, {"train_runtime": 5463.5789, "train_samples_per_second": 2.257, "train_steps_per_second": 0.141, "total_flos": 67367954276352.0, "train_loss": 0.46494155940533305, "epoch": 1.0, "step": 771}], "memory": 24.15625}
+{"loss": 1.56186473, "grad_norm": 39.59119464, "learning_rate": 1e-07, "token_acc": 0.69884491, "epoch": 0.00508906, "global_step/max_steps": "1/197", "percentage": "0.51%", "elapsed_time": "6s", "remaining_time": "22m 30s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.145114}
+{"loss": 1.32598543, "grad_norm": 38.84098093, "learning_rate": 2e-07, "token_acc": 0.74625623, "epoch": 0.01017812, "global_step/max_steps": "2/197", "percentage": "1.02%", "elapsed_time": "10s", "remaining_time": "17m 38s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.184269}
+{"loss": 1.4535327, "grad_norm": 35.5826905, "learning_rate": 3e-07, "token_acc": 0.69366199, "epoch": 0.01526718, "global_step/max_steps": "3/197", "percentage": "1.52%", "elapsed_time": "14s", "remaining_time": "15m 51s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.203788}
+{"loss": 1.35229957, "grad_norm": 37.43614132, "learning_rate": 4e-07, "token_acc": 0.73873121, "epoch": 0.02035623, "global_step/max_steps": "4/197", "percentage": "2.03%", "elapsed_time": "19s", "remaining_time": "15m 21s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.209397}
+{"loss": 1.3101356, "grad_norm": 38.96601942, "learning_rate": 5e-07, "token_acc": 0.73830295, "epoch": 0.02544529, "global_step/max_steps": "5/197", "percentage": "2.54%", "elapsed_time": "23s", "remaining_time": "14m 59s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.213456}
+{"loss": 1.31299543, "grad_norm": 36.69056841, "learning_rate": 6e-07, "token_acc": 0.74478328, "epoch": 0.03053435, "global_step/max_steps": "6/197", "percentage": "3.05%", "elapsed_time": "28s", "remaining_time": "15m 2s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.211716}
+{"loss": 1.22759962, "grad_norm": 36.54255095, "learning_rate": 7e-07, "token_acc": 0.73860914, "epoch": 0.03562341, "global_step/max_steps": "7/197", "percentage": "3.55%", "elapsed_time": "32s", "remaining_time": "14m 34s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.217362}
+{"loss": 1.21913123, "grad_norm": 36.46527005, "learning_rate": 8e-07, "token_acc": 0.72345483, "epoch": 0.04071247, "global_step/max_steps": "8/197", "percentage": "4.06%", "elapsed_time": "35s", "remaining_time": "14m 7s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.222907}
+{"loss": 1.18052411, "grad_norm": 31.38061783, "learning_rate": 9e-07, "token_acc": 0.74702382, "epoch": 0.04580153, "global_step/max_steps": "9/197", "percentage": "4.57%", "elapsed_time": "39s", "remaining_time": "13m 53s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.225676}
+{"loss": 1.12805116, "grad_norm": 30.29716818, "learning_rate": 1e-06, "token_acc": 0.75018758, "epoch": 0.05089059, "global_step/max_steps": "10/197", "percentage": "5.08%", "elapsed_time": "43s", "remaining_time": "13m 40s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.227832}
+{"loss": 1.01861393, "grad_norm": 24.72899767, "learning_rate": 1e-06, "token_acc": 0.7525692, "epoch": 0.05597964, "global_step/max_steps": "11/197", "percentage": "5.58%", "elapsed_time": "47s", "remaining_time": "13m 24s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.23133}
+{"loss": 1.03555191, "grad_norm": 24.02701249, "learning_rate": 1e-06, "token_acc": 0.73913044, "epoch": 0.0610687, "global_step/max_steps": "12/197", "percentage": "6.09%", "elapsed_time": "51s", "remaining_time": "13m 9s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.234206}
+{"loss": 1.08291483, "grad_norm": 21.85423574, "learning_rate": 1e-06, "token_acc": 0.72102648, "epoch": 0.06615776, "global_step/max_steps": "13/197", "percentage": "6.60%", "elapsed_time": "55s", "remaining_time": "13m 8s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.233263}
+{"loss": 0.95646894, "grad_norm": 18.44215847, "learning_rate": 1e-06, "token_acc": 0.73561543, "epoch": 0.07124682, "global_step/max_steps": "14/197", "percentage": "7.11%", "elapsed_time": "1m 0s", "remaining_time": "13m 5s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.233067}
+{"loss": 0.7082113, "grad_norm": 13.16483021, "learning_rate": 1e-06, "token_acc": 0.79611653, "epoch": 0.07633588, "global_step/max_steps": "15/197", "percentage": "7.61%", "elapsed_time": "1m 4s", "remaining_time": "13m 1s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.232908}
+{"loss": 0.89850032, "grad_norm": 14.23889889, "learning_rate": 1e-06, "token_acc": 0.75193197, "epoch": 0.08142494, "global_step/max_steps": "16/197", "percentage": "8.12%", "elapsed_time": "1m 9s", "remaining_time": "13m 1s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.231553}
+{"loss": 0.79899234, "grad_norm": 13.6752955, "learning_rate": 1e-06, "token_acc": 0.77467108, "epoch": 0.08651399, "global_step/max_steps": "17/197", "percentage": "8.63%", "elapsed_time": "1m 13s", "remaining_time": "12m 56s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.231796}
+{"loss": 0.72529602, "grad_norm": 10.70365521, "learning_rate": 1e-06, "token_acc": 0.80322129, "epoch": 0.09160305, "global_step/max_steps": "18/197", "percentage": "9.14%", "elapsed_time": "1m 17s", "remaining_time": "12m 49s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.232486}
+{"loss": 0.78419602, "grad_norm": 11.52388929, "learning_rate": 9.9e-07, "token_acc": 0.77392513, "epoch": 0.09669211, "global_step/max_steps": "19/197", "percentage": "9.64%", "elapsed_time": "1m 21s", "remaining_time": "12m 44s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.232904}
+{"loss": 0.65780902, "grad_norm": 10.48927551, "learning_rate": 9.9e-07, "token_acc": 0.80866963, "epoch": 0.10178117, "global_step/max_steps": "20/197", "percentage": "10.15%", "elapsed_time": "1m 25s", "remaining_time": "12m 40s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.232592}
+{"loss": 0.78328353, "grad_norm": 11.0767977, "learning_rate": 9.9e-07, "token_acc": 0.78807473, "epoch": 0.10687023, "global_step/max_steps": "21/197", "percentage": "10.66%", "elapsed_time": "1m 30s", "remaining_time": "12m 38s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.231932}
+{"loss": 0.70036429, "grad_norm": 10.46619032, "learning_rate": 9.9e-07, "token_acc": 0.78648233, "epoch": 0.11195929, "global_step/max_steps": "22/197", "percentage": "11.17%", "elapsed_time": "1m 34s", "remaining_time": "12m 31s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.232738}
+{"loss": 0.72342205, "grad_norm": 10.24050251, "learning_rate": 9.9e-07, "token_acc": 0.77769786, "epoch": 0.11704835, "global_step/max_steps": "23/197", "percentage": "11.68%", "elapsed_time": "1m 38s", "remaining_time": "12m 27s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.232715}
+{"loss": 0.80352741, "grad_norm": 10.76392762, "learning_rate": 9.9e-07, "token_acc": 0.76238966, "epoch": 0.1221374, "global_step/max_steps": "24/197", "percentage": "12.18%", "elapsed_time": "1m 42s", "remaining_time": "12m 20s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.233504}
+{"loss": 0.58958274, "grad_norm": 8.65309953, "learning_rate": 9.8e-07, "token_acc": 0.82078314, "epoch": 0.12722646, "global_step/max_steps": "25/197", "percentage": "12.69%", "elapsed_time": "1m 46s", "remaining_time": "12m 12s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.234694}
+{"loss": 0.66865003, "grad_norm": 9.51587858, "learning_rate": 9.8e-07, "token_acc": 0.79378319, "epoch": 0.13231552, "global_step/max_steps": "26/197", "percentage": "13.20%", "elapsed_time": "1m 51s", "remaining_time": "12m 10s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.233945}
+{"loss": 0.62936723, "grad_norm": 9.79993375, "learning_rate": 9.8e-07, "token_acc": 0.80546075, "epoch": 0.13740458, "global_step/max_steps": "27/197", "percentage": "13.71%", "elapsed_time": "1m 55s", "remaining_time": "12m 4s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.234592}
+{"loss": 0.6071704, "grad_norm": 9.42719151, "learning_rate": 9.8e-07, "token_acc": 0.82948625, "epoch": 0.14249364, "global_step/max_steps": "28/197", "percentage": "14.21%", "elapsed_time": "1m 58s", "remaining_time": "11m 56s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.235716}
+{"loss": 0.67437315, "grad_norm": 9.37922152, "learning_rate": 9.7e-07, "token_acc": 0.78918058, "epoch": 0.1475827, "global_step/max_steps": "29/197", "percentage": "14.72%", "elapsed_time": "2m 2s", "remaining_time": "11m 50s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.236374}
+{"loss": 0.71380234, "grad_norm": 8.93068867, "learning_rate": 9.7e-07, "token_acc": 0.79018492, "epoch": 0.15267176, "global_step/max_steps": "30/197", "percentage": "15.23%", "elapsed_time": "2m 6s", "remaining_time": "11m 44s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.237004}
+{"loss": 0.75912178, "grad_norm": 9.88176903, "learning_rate": 9.7e-07, "token_acc": 0.7719298, "epoch": 0.15776081, "global_step/max_steps": "31/197", "percentage": "15.74%", "elapsed_time": "2m 11s", "remaining_time": "11m 42s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.236422}
+{"loss": 0.64310205, "grad_norm": 9.16211553, "learning_rate": 9.7e-07, "token_acc": 0.80618399, "epoch": 0.16284987, "global_step/max_steps": "32/197", "percentage": "16.24%", "elapsed_time": "2m 14s", "remaining_time": "11m 35s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.237405}
+{"loss": 0.49775958, "grad_norm": 7.92908135, "learning_rate": 9.6e-07, "token_acc": 0.83740461, "epoch": 0.16793893, "global_step/max_steps": "33/197", "percentage": "16.75%", "elapsed_time": "2m 18s", "remaining_time": "11m 30s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.237438}
+{"loss": 0.52797121, "grad_norm": 8.31814317, "learning_rate": 9.6e-07, "token_acc": 0.82934129, "epoch": 0.17302799, "global_step/max_steps": "34/197", "percentage": "17.26%", "elapsed_time": "2m 24s", "remaining_time": "11m 32s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.235363}
+{"loss": 0.71943057, "grad_norm": 9.36161649, "learning_rate": 9.6e-07, "token_acc": 0.7912088, "epoch": 0.17811705, "global_step/max_steps": "35/197", "percentage": "17.77%", "elapsed_time": "2m 28s", "remaining_time": "11m 27s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.23565}
+{"loss": 0.73942018, "grad_norm": 10.728333, "learning_rate": 9.5e-07, "token_acc": 0.77711862, "epoch": 0.18320611, "global_step/max_steps": "36/197", "percentage": "18.27%", "elapsed_time": "2m 32s", "remaining_time": "11m 20s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.236466}
+{"loss": 0.58502871, "grad_norm": 8.06930709, "learning_rate": 9.5e-07, "token_acc": 0.81266665, "epoch": 0.18829517, "global_step/max_steps": "37/197", "percentage": "18.78%", "elapsed_time": "2m 36s", "remaining_time": "11m 15s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.237021}
+{"loss": 0.49855861, "grad_norm": 7.64531998, "learning_rate": 9.5e-07, "token_acc": 0.84546924, "epoch": 0.19338422, "global_step/max_steps": "38/197", "percentage": "19.29%", "elapsed_time": "2m 39s", "remaining_time": "11m 8s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.23777}
+{"loss": 0.59507209, "grad_norm": 7.46162063, "learning_rate": 9.4e-07, "token_acc": 0.82557279, "epoch": 0.19847328, "global_step/max_steps": "39/197", "percentage": "19.80%", "elapsed_time": "2m 43s", "remaining_time": "11m 3s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.238056}
+{"loss": 0.58693254, "grad_norm": 8.52796275, "learning_rate": 9.4e-07, "token_acc": 0.8185358, "epoch": 0.20356234, "global_step/max_steps": "40/197", "percentage": "20.30%", "elapsed_time": "2m 47s", "remaining_time": "10m 57s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.238653}
+{"loss": 0.57638621, "grad_norm": 8.49632825, "learning_rate": 9.3e-07, "token_acc": 0.82546037, "epoch": 0.2086514, "global_step/max_steps": "41/197", "percentage": "20.81%", "elapsed_time": "2m 51s", "remaining_time": "10m 53s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.238741}
+{"loss": 0.46660316, "grad_norm": 7.78411326, "learning_rate": 9.3e-07, "token_acc": 0.85930407, "epoch": 0.21374046, "global_step/max_steps": "42/197", "percentage": "21.32%", "elapsed_time": "2m 55s", "remaining_time": "10m 48s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.238843}
+{"loss": 0.5544827, "grad_norm": 8.12826297, "learning_rate": 9.3e-07, "token_acc": 0.82527882, "epoch": 0.21882952, "global_step/max_steps": "43/197", "percentage": "21.83%", "elapsed_time": "2m 59s", "remaining_time": "10m 43s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239454}
+{"loss": 0.45063287, "grad_norm": 6.59396832, "learning_rate": 9.2e-07, "token_acc": 0.8608644, "epoch": 0.22391858, "global_step/max_steps": "44/197", "percentage": "22.34%", "elapsed_time": "3m 4s", "remaining_time": "10m 42s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.238251}
+{"loss": 0.50231916, "grad_norm": 7.612875, "learning_rate": 9.2e-07, "token_acc": 0.83709091, "epoch": 0.22900763, "global_step/max_steps": "45/197", "percentage": "22.84%", "elapsed_time": "3m 8s", "remaining_time": "10m 37s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.238439}
+{"loss": 0.55189824, "grad_norm": 8.60476196, "learning_rate": 9.1e-07, "token_acc": 0.82421339, "epoch": 0.23409669, "global_step/max_steps": "46/197", "percentage": "23.35%", "elapsed_time": "3m 12s", "remaining_time": "10m 31s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239011}
+{"loss": 0.463889, "grad_norm": 6.58007246, "learning_rate": 9.1e-07, "token_acc": 0.85774946, "epoch": 0.23918575, "global_step/max_steps": "47/197", "percentage": "23.86%", "elapsed_time": "3m 16s", "remaining_time": "10m 26s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.2393}
+{"loss": 0.52507579, "grad_norm": 7.54505215, "learning_rate": 9e-07, "token_acc": 0.84202898, "epoch": 0.24427481, "global_step/max_steps": "48/197", "percentage": "24.37%", "elapsed_time": "3m 20s", "remaining_time": "10m 21s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239897}
+{"loss": 0.40262166, "grad_norm": 8.04490864, "learning_rate": 9e-07, "token_acc": 0.86885244, "epoch": 0.24936387, "global_step/max_steps": "49/197", "percentage": "24.87%", "elapsed_time": "3m 24s", "remaining_time": "10m 16s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.240054}
+{"loss": 0.56976736, "grad_norm": 7.53800764, "learning_rate": 8.9e-07, "token_acc": 0.81918007, "epoch": 0.25445293, "global_step/max_steps": "50/197", "percentage": "25.38%", "elapsed_time": "3m 28s", "remaining_time": "10m 14s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239405}
+{"loss": 0.53400099, "grad_norm": 7.94339553, "learning_rate": 8.9e-07, "token_acc": 0.82478005, "epoch": 0.25954198, "global_step/max_steps": "51/197", "percentage": "25.89%", "elapsed_time": "3m 33s", "remaining_time": "10m 10s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239112}
+{"loss": 0.43659717, "grad_norm": 7.31271639, "learning_rate": 8.8e-07, "token_acc": 0.85156846, "epoch": 0.26463104, "global_step/max_steps": "52/197", "percentage": "26.40%", "elapsed_time": "3m 37s", "remaining_time": "10m 7s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.238862}
+{"loss": 0.59125614, "grad_norm": 7.35061975, "learning_rate": 8.8e-07, "token_acc": 0.82305795, "epoch": 0.2697201, "global_step/max_steps": "53/197", "percentage": "26.90%", "elapsed_time": "3m 41s", "remaining_time": "10m 2s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239138}
+{"loss": 0.6188494, "grad_norm": 8.21182282, "learning_rate": 8.7e-07, "token_acc": 0.80929488, "epoch": 0.27480916, "global_step/max_steps": "54/197", "percentage": "27.41%", "elapsed_time": "3m 45s", "remaining_time": "9m 56s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239596}
+{"loss": 0.54387861, "grad_norm": 8.041679, "learning_rate": 8.6e-07, "token_acc": 0.82428116, "epoch": 0.27989822, "global_step/max_steps": "55/197", "percentage": "27.92%", "elapsed_time": "3m 49s", "remaining_time": "9m 52s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239602}
+{"loss": 0.66257948, "grad_norm": 8.05850094, "learning_rate": 8.6e-07, "token_acc": 0.79469746, "epoch": 0.28498728, "global_step/max_steps": "56/197", "percentage": "28.43%", "elapsed_time": "3m 55s", "remaining_time": "9m 53s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.237517}
+{"loss": 0.47140813, "grad_norm": 7.78915749, "learning_rate": 8.5e-07, "token_acc": 0.85053378, "epoch": 0.29007634, "global_step/max_steps": "57/197", "percentage": "28.93%", "elapsed_time": "3m 59s", "remaining_time": "9m 48s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.237915}
+{"loss": 0.69341075, "grad_norm": 9.05278764, "learning_rate": 8.5e-07, "token_acc": 0.78848642, "epoch": 0.29516539, "global_step/max_steps": "58/197", "percentage": "29.44%", "elapsed_time": "4m 3s", "remaining_time": "9m 43s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.238341}
+{"loss": 0.44947916, "grad_norm": 7.3690936, "learning_rate": 8.4e-07, "token_acc": 0.8565951, "epoch": 0.30025445, "global_step/max_steps": "59/197", "percentage": "29.95%", "elapsed_time": "4m 7s", "remaining_time": "9m 37s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.238856}
+{"loss": 0.55836773, "grad_norm": 7.37621212, "learning_rate": 8.3e-07, "token_acc": 0.82913166, "epoch": 0.30534351, "global_step/max_steps": "60/197", "percentage": "30.46%", "elapsed_time": "4m 11s", "remaining_time": "9m 33s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.23893}
+{"loss": 0.51242304, "grad_norm": 7.39215762, "learning_rate": 8.3e-07, "token_acc": 0.83225805, "epoch": 0.31043257, "global_step/max_steps": "61/197", "percentage": "30.96%", "elapsed_time": "4m 15s", "remaining_time": "9m 28s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239201}
+{"loss": 0.47241044, "grad_norm": 7.10270206, "learning_rate": 8.2e-07, "token_acc": 0.8399123, "epoch": 0.31552163, "global_step/max_steps": "62/197", "percentage": "31.47%", "elapsed_time": "4m 19s", "remaining_time": "9m 24s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239244}
+{"loss": 0.50952649, "grad_norm": 7.79568269, "learning_rate": 8.1e-07, "token_acc": 0.83558178, "epoch": 0.32061069, "global_step/max_steps": "63/197", "percentage": "31.98%", "elapsed_time": "4m 23s", "remaining_time": "9m 20s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239023}
+{"loss": 0.5506556, "grad_norm": 6.93642144, "learning_rate": 8.1e-07, "token_acc": 0.82535213, "epoch": 0.32569975, "global_step/max_steps": "64/197", "percentage": "32.49%", "elapsed_time": "4m 27s", "remaining_time": "9m 15s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239426}
+{"loss": 0.48943406, "grad_norm": 7.44007876, "learning_rate": 8e-07, "token_acc": 0.83781707, "epoch": 0.3307888, "global_step/max_steps": "65/197", "percentage": "32.99%", "elapsed_time": "4m 31s", "remaining_time": "9m 10s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.23969}
+{"loss": 0.44389236, "grad_norm": 6.86283233, "learning_rate": 7.9e-07, "token_acc": 0.85901165, "epoch": 0.33587786, "global_step/max_steps": "66/197", "percentage": "33.50%", "elapsed_time": "4m 35s", "remaining_time": "9m 7s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239357}
+{"loss": 0.53672677, "grad_norm": 7.50600339, "learning_rate": 7.9e-07, "token_acc": 0.82863671, "epoch": 0.34096692, "global_step/max_steps": "67/197", "percentage": "34.01%", "elapsed_time": "4m 39s", "remaining_time": "9m 2s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239598}
+{"loss": 0.49839738, "grad_norm": 8.09979607, "learning_rate": 7.8e-07, "token_acc": 0.83254719, "epoch": 0.34605598, "global_step/max_steps": "68/197", "percentage": "34.52%", "elapsed_time": "4m 43s", "remaining_time": "8m 57s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239852}
+{"loss": 0.68678546, "grad_norm": 7.81295691, "learning_rate": 7.7e-07, "token_acc": 0.78335452, "epoch": 0.35114504, "global_step/max_steps": "69/197", "percentage": "35.03%", "elapsed_time": "4m 48s", "remaining_time": "8m 54s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239391}
+{"loss": 0.45675319, "grad_norm": 6.71881763, "learning_rate": 7.7e-07, "token_acc": 0.85410768, "epoch": 0.3562341, "global_step/max_steps": "70/197", "percentage": "35.53%", "elapsed_time": "4m 51s", "remaining_time": "8m 49s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239824}
+{"loss": 0.41313371, "grad_norm": 6.50179619, "learning_rate": 7.6e-07, "token_acc": 0.86549705, "epoch": 0.36132316, "global_step/max_steps": "71/197", "percentage": "36.04%", "elapsed_time": "4m 55s", "remaining_time": "8m 45s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239984}
+{"loss": 0.61304581, "grad_norm": 8.78807293, "learning_rate": 7.5e-07, "token_acc": 0.81342757, "epoch": 0.36641221, "global_step/max_steps": "72/197", "percentage": "36.55%", "elapsed_time": "4m 59s", "remaining_time": "8m 40s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.240305}
+{"loss": 0.57236028, "grad_norm": 8.05481964, "learning_rate": 7.5e-07, "token_acc": 0.79859483, "epoch": 0.37150127, "global_step/max_steps": "73/197", "percentage": "37.06%", "elapsed_time": "5m 4s", "remaining_time": "8m 36s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.240076}
+{"loss": 0.47571295, "grad_norm": 7.24279553, "learning_rate": 7.4e-07, "token_acc": 0.84695512, "epoch": 0.37659033, "global_step/max_steps": "74/197", "percentage": "37.56%", "elapsed_time": "5m 7s", "remaining_time": "8m 31s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.240273}
+{"loss": 0.66273093, "grad_norm": 8.30879508, "learning_rate": 7.3e-07, "token_acc": 0.79322511, "epoch": 0.38167939, "global_step/max_steps": "75/197", "percentage": "38.07%", "elapsed_time": "5m 12s", "remaining_time": "8m 28s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239966}
+{"loss": 0.59378934, "grad_norm": 7.5903885, "learning_rate": 7.2e-07, "token_acc": 0.80882353, "epoch": 0.38676845, "global_step/max_steps": "76/197", "percentage": "38.58%", "elapsed_time": "5m 17s", "remaining_time": "8m 25s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239488}
+{"loss": 0.60118461, "grad_norm": 7.68385111, "learning_rate": 7.2e-07, "token_acc": 0.81849551, "epoch": 0.39185751, "global_step/max_steps": "77/197", "percentage": "39.09%", "elapsed_time": "5m 21s", "remaining_time": "8m 21s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239261}
+{"loss": 0.46121573, "grad_norm": 8.13003391, "learning_rate": 7.1e-07, "token_acc": 0.84978539, "epoch": 0.39694656, "global_step/max_steps": "78/197", "percentage": "39.59%", "elapsed_time": "5m 25s", "remaining_time": "8m 16s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239494}
+{"loss": 0.48830536, "grad_norm": 7.09559087, "learning_rate": 7e-07, "token_acc": 0.84571892, "epoch": 0.40203562, "global_step/max_steps": "79/197", "percentage": "40.10%", "elapsed_time": "5m 29s", "remaining_time": "8m 12s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239498}
+{"loss": 0.5752387, "grad_norm": 7.05887219, "learning_rate": 6.9e-07, "token_acc": 0.82199311, "epoch": 0.40712468, "global_step/max_steps": "80/197", "percentage": "40.61%", "elapsed_time": "5m 33s", "remaining_time": "8m 8s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.239715}
+{"loss": 0.53466225, "grad_norm": 8.69021068, "learning_rate": 6.8e-07, "token_acc": 0.83110118, "epoch": 0.41221374, "global_step/max_steps": "81/197", "percentage": "41.12%", "elapsed_time": "5m 37s", "remaining_time": "8m 3s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.240066}
+{"loss": 0.5009892, "grad_norm": 7.07128025, "learning_rate": 6.8e-07, "token_acc": 0.8460452, "epoch": 0.4173028, "global_step/max_steps": "82/197", "percentage": "41.62%", "elapsed_time": "5m 41s", "remaining_time": "7m 58s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.240414}
+{"loss": 0.56954145, "grad_norm": 7.66691989, "learning_rate": 6.7e-07, "token_acc": 0.8237952, "epoch": 0.42239186, "global_step/max_steps": "83/197", "percentage": "42.13%", "elapsed_time": "5m 44s", "remaining_time": "7m 53s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.240784}
+{"loss": 0.62128776, "grad_norm": 7.74692643, "learning_rate": 6.6e-07, "token_acc": 0.80148548, "epoch": 0.42748092, "global_step/max_steps": "84/197", "percentage": "42.64%", "elapsed_time": "5m 48s", "remaining_time": "7m 49s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.240802}
+{"loss": 0.52760661, "grad_norm": 7.38717803, "learning_rate": 6.5e-07, "token_acc": 0.83399522, "epoch": 0.43256997, "global_step/max_steps": "85/197", "percentage": "43.15%", "elapsed_time": "5m 52s", "remaining_time": "7m 44s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.240914}
+{"loss": 0.47682995, "grad_norm": 7.50630442, "learning_rate": 6.4e-07, "token_acc": 0.84940237, "epoch": 0.43765903, "global_step/max_steps": "86/197", "percentage": "43.65%", "elapsed_time": "5m 56s", "remaining_time": "7m 40s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.240935}
+{"loss": 0.57418931, "grad_norm": 7.01164545, "learning_rate": 6.4e-07, "token_acc": 0.82426471, "epoch": 0.44274809, "global_step/max_steps": "87/197", "percentage": "44.16%", "elapsed_time": "6m 0s", "remaining_time": "7m 35s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.241244}
+{"loss": 0.52362263, "grad_norm": 7.21888774, "learning_rate": 6.3e-07, "token_acc": 0.83516484, "epoch": 0.44783715, "global_step/max_steps": "88/197", "percentage": "44.67%", "elapsed_time": "6m 4s", "remaining_time": "7m 31s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.241543}
+{"loss": 0.61442173, "grad_norm": 7.30966496, "learning_rate": 6.2e-07, "token_acc": 0.80310518, "epoch": 0.45292621, "global_step/max_steps": "89/197", "percentage": "45.18%", "elapsed_time": "6m 8s", "remaining_time": "7m 26s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.241843}
+{"loss": 0.52015805, "grad_norm": 7.97431154, "learning_rate": 6.1e-07, "token_acc": 0.82348114, "epoch": 0.45801527, "global_step/max_steps": "90/197", "percentage": "45.69%", "elapsed_time": "6m 11s", "remaining_time": "7m 21s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242092}
+{"loss": 0.49261019, "grad_norm": 6.83350186, "learning_rate": 6e-07, "token_acc": 0.83924693, "epoch": 0.46310433, "global_step/max_steps": "91/197", "percentage": "46.19%", "elapsed_time": "6m 15s", "remaining_time": "7m 17s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242281}
+{"loss": 0.57088453, "grad_norm": 6.94790397, "learning_rate": 6e-07, "token_acc": 0.8121345, "epoch": 0.46819338, "global_step/max_steps": "92/197", "percentage": "46.70%", "elapsed_time": "6m 19s", "remaining_time": "7m 13s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242486}
+{"loss": 0.62811571, "grad_norm": 7.54898677, "learning_rate": 5.9e-07, "token_acc": 0.78829479, "epoch": 0.47328244, "global_step/max_steps": "93/197", "percentage": "47.21%", "elapsed_time": "6m 23s", "remaining_time": "7m 8s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242601}
+{"loss": 0.51668239, "grad_norm": 6.57021887, "learning_rate": 5.8e-07, "token_acc": 0.83604336, "epoch": 0.4783715, "global_step/max_steps": "94/197", "percentage": "47.72%", "elapsed_time": "6m 27s", "remaining_time": "7m 4s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242875}
+{"loss": 0.49430782, "grad_norm": 6.87910239, "learning_rate": 5.7e-07, "token_acc": 0.84044117, "epoch": 0.48346056, "global_step/max_steps": "95/197", "percentage": "48.22%", "elapsed_time": "6m 31s", "remaining_time": "7m 0s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242844}
+{"loss": 0.53970045, "grad_norm": 6.90003909, "learning_rate": 5.6e-07, "token_acc": 0.83358663, "epoch": 0.48854962, "global_step/max_steps": "96/197", "percentage": "48.73%", "elapsed_time": "6m 35s", "remaining_time": "6m 56s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242752}
+{"loss": 0.54623258, "grad_norm": 7.31177505, "learning_rate": 5.5e-07, "token_acc": 0.82109374, "epoch": 0.49363868, "global_step/max_steps": "97/197", "percentage": "49.24%", "elapsed_time": "6m 39s", "remaining_time": "6m 51s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242991}
+{"loss": 0.42079484, "grad_norm": 6.23400876, "learning_rate": 5.5e-07, "token_acc": 0.86011904, "epoch": 0.49872774, "global_step/max_steps": "98/197", "percentage": "49.75%", "elapsed_time": "6m 43s", "remaining_time": "6m 47s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242853}
+{"loss": 0.48717853, "grad_norm": 6.9063541, "learning_rate": 5.4e-07, "token_acc": 0.84262294, "epoch": 0.50381679, "global_step/max_steps": "99/197", "percentage": "50.25%", "elapsed_time": "6m 47s", "remaining_time": "6m 43s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243017}
+{"loss": 0.44850805, "grad_norm": 7.41969498, "learning_rate": 5.3e-07, "token_acc": 0.86020648, "epoch": 0.50890585, "global_step/max_steps": "100/197", "percentage": "50.76%", "elapsed_time": "6m 51s", "remaining_time": "6m 38s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243262}
+{"loss": 0.75324798, "grad_norm": 7.58024466, "learning_rate": 5.2e-07, "token_acc": 0.76174933, "epoch": 0.51399491, "global_step/max_steps": "101/197", "percentage": "51.27%", "elapsed_time": "6m 54s", "remaining_time": "6m 34s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243485}
+{"loss": 0.54602611, "grad_norm": 6.78586997, "learning_rate": 5.1e-07, "token_acc": 0.8271237, "epoch": 0.51908397, "global_step/max_steps": "102/197", "percentage": "51.78%", "elapsed_time": "6m 59s", "remaining_time": "6m 30s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243318}
+{"loss": 0.46133786, "grad_norm": 6.37700456, "learning_rate": 5e-07, "token_acc": 0.85125303, "epoch": 0.52417303, "global_step/max_steps": "103/197", "percentage": "52.28%", "elapsed_time": "7m 3s", "remaining_time": "6m 26s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243011}
+{"loss": 0.44735336, "grad_norm": 6.80201496, "learning_rate": 5e-07, "token_acc": 0.85795861, "epoch": 0.52926209, "global_step/max_steps": "104/197", "percentage": "52.79%", "elapsed_time": "7m 8s", "remaining_time": "6m 22s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242863}
+{"loss": 0.67596936, "grad_norm": 7.41810854, "learning_rate": 4.9e-07, "token_acc": 0.78414094, "epoch": 0.53435115, "global_step/max_steps": "105/197", "percentage": "53.30%", "elapsed_time": "7m 12s", "remaining_time": "6m 19s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242725}
+{"loss": 0.58565164, "grad_norm": 7.48968572, "learning_rate": 4.8e-07, "token_acc": 0.81172162, "epoch": 0.5394402, "global_step/max_steps": "106/197", "percentage": "53.81%", "elapsed_time": "7m 16s", "remaining_time": "6m 15s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242588}
+{"loss": 0.42829567, "grad_norm": 6.32886918, "learning_rate": 4.7e-07, "token_acc": 0.87125504, "epoch": 0.54452926, "global_step/max_steps": "107/197", "percentage": "54.31%", "elapsed_time": "7m 21s", "remaining_time": "6m 11s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242467}
+{"loss": 0.45178571, "grad_norm": 6.88650126, "learning_rate": 4.6e-07, "token_acc": 0.8500371, "epoch": 0.54961832, "global_step/max_steps": "108/197", "percentage": "54.82%", "elapsed_time": "7m 25s", "remaining_time": "6m 7s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242473}
+{"loss": 0.54950231, "grad_norm": 6.8077163, "learning_rate": 4.5e-07, "token_acc": 0.8218978, "epoch": 0.55470738, "global_step/max_steps": "109/197", "percentage": "55.33%", "elapsed_time": "7m 29s", "remaining_time": "6m 3s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242226}
+{"loss": 0.54568899, "grad_norm": 7.37972845, "learning_rate": 4.5e-07, "token_acc": 0.82914573, "epoch": 0.55979644, "global_step/max_steps": "110/197", "percentage": "55.84%", "elapsed_time": "7m 33s", "remaining_time": "5m 59s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242327}
+{"loss": 0.52254128, "grad_norm": 7.61592417, "learning_rate": 4.4e-07, "token_acc": 0.84045804, "epoch": 0.5648855, "global_step/max_steps": "111/197", "percentage": "56.35%", "elapsed_time": "7m 37s", "remaining_time": "5m 54s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242554}
+{"loss": 0.47077897, "grad_norm": 7.4223468, "learning_rate": 4.3e-07, "token_acc": 0.84137368, "epoch": 0.56997455, "global_step/max_steps": "112/197", "percentage": "56.85%", "elapsed_time": "7m 41s", "remaining_time": "5m 50s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242746}
+{"loss": 0.5297612, "grad_norm": 7.12394515, "learning_rate": 4.2e-07, "token_acc": 0.83923304, "epoch": 0.57506361, "global_step/max_steps": "113/197", "percentage": "57.36%", "elapsed_time": "7m 45s", "remaining_time": "5m 46s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242754}
+{"loss": 0.57527423, "grad_norm": 7.49584846, "learning_rate": 4.1e-07, "token_acc": 0.82128674, "epoch": 0.58015267, "global_step/max_steps": "114/197", "percentage": "57.87%", "elapsed_time": "7m 49s", "remaining_time": "5m 41s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242858}
+{"loss": 0.53880215, "grad_norm": 7.32766967, "learning_rate": 4e-07, "token_acc": 0.82852691, "epoch": 0.58524173, "global_step/max_steps": "115/197", "percentage": "58.38%", "elapsed_time": "7m 53s", "remaining_time": "5m 37s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.242962}
+{"loss": 0.67893004, "grad_norm": 9.61861334, "learning_rate": 4e-07, "token_acc": 0.78473282, "epoch": 0.59033079, "global_step/max_steps": "116/197", "percentage": "58.88%", "elapsed_time": "7m 57s", "remaining_time": "5m 33s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243181}
+{"loss": 0.54717386, "grad_norm": 7.17795262, "learning_rate": 3.9e-07, "token_acc": 0.83360928, "epoch": 0.59541985, "global_step/max_steps": "117/197", "percentage": "59.39%", "elapsed_time": "8m 0s", "remaining_time": "5m 28s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243253}
+{"loss": 0.50989783, "grad_norm": 8.05294557, "learning_rate": 3.8e-07, "token_acc": 0.82882881, "epoch": 0.60050891, "global_step/max_steps": "118/197", "percentage": "59.90%", "elapsed_time": "8m 5s", "remaining_time": "5m 24s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243185}
+{"loss": 0.34250611, "grad_norm": 6.0464214, "learning_rate": 3.7e-07, "token_acc": 0.87890327, "epoch": 0.60559796, "global_step/max_steps": "119/197", "percentage": "60.41%", "elapsed_time": "8m 9s", "remaining_time": "5m 20s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243305}
+{"loss": 0.46307933, "grad_norm": 6.57378637, "learning_rate": 3.6e-07, "token_acc": 0.86627042, "epoch": 0.61068702, "global_step/max_steps": "120/197", "percentage": "60.91%", "elapsed_time": "8m 13s", "remaining_time": "5m 16s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243263}
+{"loss": 0.45755184, "grad_norm": 8.39716076, "learning_rate": 3.6e-07, "token_acc": 0.84983498, "epoch": 0.61577608, "global_step/max_steps": "121/197", "percentage": "61.42%", "elapsed_time": "8m 17s", "remaining_time": "5m 12s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24323}
+{"loss": 0.4360773, "grad_norm": 6.4054163, "learning_rate": 3.5e-07, "token_acc": 0.85838151, "epoch": 0.62086514, "global_step/max_steps": "122/197", "percentage": "61.93%", "elapsed_time": "8m 21s", "remaining_time": "5m 8s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243441}
+{"loss": 0.59345126, "grad_norm": 6.54393617, "learning_rate": 3.4e-07, "token_acc": 0.81446111, "epoch": 0.6259542, "global_step/max_steps": "123/197", "percentage": "62.44%", "elapsed_time": "8m 25s", "remaining_time": "5m 3s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243447}
+{"loss": 0.51387501, "grad_norm": 6.57920888, "learning_rate": 3.3e-07, "token_acc": 0.83321196, "epoch": 0.63104326, "global_step/max_steps": "124/197", "percentage": "62.94%", "elapsed_time": "8m 28s", "remaining_time": "4m 59s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243622}
+{"loss": 0.51637888, "grad_norm": 6.53132468, "learning_rate": 3.2e-07, "token_acc": 0.83906364, "epoch": 0.63613232, "global_step/max_steps": "125/197", "percentage": "63.45%", "elapsed_time": "8m 32s", "remaining_time": "4m 55s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24383}
+{"loss": 0.54957986, "grad_norm": 7.24353519, "learning_rate": 3.2e-07, "token_acc": 0.83049536, "epoch": 0.64122137, "global_step/max_steps": "126/197", "percentage": "63.96%", "elapsed_time": "8m 37s", "remaining_time": "4m 51s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243608}
+{"loss": 0.63409388, "grad_norm": 8.07354679, "learning_rate": 3.1e-07, "token_acc": 0.79635257, "epoch": 0.64631043, "global_step/max_steps": "127/197", "percentage": "64.47%", "elapsed_time": "8m 41s", "remaining_time": "4m 47s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243643}
+{"loss": 0.5798468, "grad_norm": 6.90645549, "learning_rate": 3e-07, "token_acc": 0.81764704, "epoch": 0.65139949, "global_step/max_steps": "128/197", "percentage": "64.97%", "elapsed_time": "8m 44s", "remaining_time": "4m 42s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24389}
+{"loss": 0.58569705, "grad_norm": 7.16163026, "learning_rate": 2.9e-07, "token_acc": 0.81284261, "epoch": 0.65648855, "global_step/max_steps": "129/197", "percentage": "65.48%", "elapsed_time": "8m 48s", "remaining_time": "4m 38s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24407}
+{"loss": 0.5146997, "grad_norm": 7.24870757, "learning_rate": 2.8e-07, "token_acc": 0.83619213, "epoch": 0.66157761, "global_step/max_steps": "130/197", "percentage": "65.99%", "elapsed_time": "8m 52s", "remaining_time": "4m 34s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244273}
+{"loss": 0.52068889, "grad_norm": 7.05546712, "learning_rate": 2.8e-07, "token_acc": 0.83408749, "epoch": 0.66666667, "global_step/max_steps": "131/197", "percentage": "66.50%", "elapsed_time": "8m 56s", "remaining_time": "4m 30s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244329}
+{"loss": 0.61376828, "grad_norm": 6.85333394, "learning_rate": 2.7e-07, "token_acc": 0.81409812, "epoch": 0.67175573, "global_step/max_steps": "132/197", "percentage": "67.01%", "elapsed_time": "9m 0s", "remaining_time": "4m 25s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244395}
+{"loss": 0.47430393, "grad_norm": 6.08416387, "learning_rate": 2.6e-07, "token_acc": 0.84733385, "epoch": 0.67684478, "global_step/max_steps": "133/197", "percentage": "67.51%", "elapsed_time": "9m 5s", "remaining_time": "4m 22s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243949}
+{"loss": 0.42840767, "grad_norm": 6.2043626, "learning_rate": 2.5e-07, "token_acc": 0.85558778, "epoch": 0.68193384, "global_step/max_steps": "134/197", "percentage": "68.02%", "elapsed_time": "9m 8s", "remaining_time": "4m 18s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24409}
+{"loss": 0.55414164, "grad_norm": 6.47501131, "learning_rate": 2.5e-07, "token_acc": 0.82836789, "epoch": 0.6870229, "global_step/max_steps": "135/197", "percentage": "68.53%", "elapsed_time": "9m 12s", "remaining_time": "4m 13s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244218}
+{"loss": 0.39828593, "grad_norm": 6.29896089, "learning_rate": 2.4e-07, "token_acc": 0.86433792, "epoch": 0.69211196, "global_step/max_steps": "136/197", "percentage": "69.04%", "elapsed_time": "9m 16s", "remaining_time": "4m 9s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244396}
+{"loss": 0.52512676, "grad_norm": 6.71873406, "learning_rate": 2.3e-07, "token_acc": 0.82071096, "epoch": 0.69720102, "global_step/max_steps": "137/197", "percentage": "69.54%", "elapsed_time": "9m 20s", "remaining_time": "4m 5s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244508}
+{"loss": 0.48356572, "grad_norm": 6.49569449, "learning_rate": 2.3e-07, "token_acc": 0.84665698, "epoch": 0.70229008, "global_step/max_steps": "138/197", "percentage": "70.05%", "elapsed_time": "9m 23s", "remaining_time": "4m 1s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244687}
+{"loss": 0.57873267, "grad_norm": 6.41568111, "learning_rate": 2.2e-07, "token_acc": 0.81084573, "epoch": 0.70737913, "global_step/max_steps": "139/197", "percentage": "70.56%", "elapsed_time": "9m 28s", "remaining_time": "3m 57s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244573}
+{"loss": 0.39413959, "grad_norm": 6.2334649, "learning_rate": 2.1e-07, "token_acc": 0.87471527, "epoch": 0.71246819, "global_step/max_steps": "140/197", "percentage": "71.07%", "elapsed_time": "9m 32s", "remaining_time": "3m 53s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244499}
+{"loss": 0.46607459, "grad_norm": 6.40814045, "learning_rate": 2.1e-07, "token_acc": 0.85933149, "epoch": 0.71755725, "global_step/max_steps": "141/197", "percentage": "71.57%", "elapsed_time": "9m 37s", "remaining_time": "3m 49s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244282}
+{"loss": 0.47638828, "grad_norm": 6.28760019, "learning_rate": 2e-07, "token_acc": 0.84839433, "epoch": 0.72264631, "global_step/max_steps": "142/197", "percentage": "72.08%", "elapsed_time": "9m 40s", "remaining_time": "3m 44s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244452}
+{"loss": 0.59133214, "grad_norm": 6.81863549, "learning_rate": 1.9e-07, "token_acc": 0.82158273, "epoch": 0.72773537, "global_step/max_steps": "143/197", "percentage": "72.59%", "elapsed_time": "9m 44s", "remaining_time": "3m 40s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244611}
+{"loss": 0.43834746, "grad_norm": 6.84149097, "learning_rate": 1.9e-07, "token_acc": 0.85504884, "epoch": 0.73282443, "global_step/max_steps": "144/197", "percentage": "73.10%", "elapsed_time": "9m 48s", "remaining_time": "3m 36s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244639}
+{"loss": 0.57960486, "grad_norm": 6.94281742, "learning_rate": 1.8e-07, "token_acc": 0.81653929, "epoch": 0.73791349, "global_step/max_steps": "145/197", "percentage": "73.60%", "elapsed_time": "9m 52s", "remaining_time": "3m 32s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244633}
+{"loss": 0.67013347, "grad_norm": 6.7613004, "learning_rate": 1.7e-07, "token_acc": 0.78359622, "epoch": 0.74300254, "global_step/max_steps": "146/197", "percentage": "74.11%", "elapsed_time": "9m 56s", "remaining_time": "3m 28s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244591}
+{"loss": 0.40048811, "grad_norm": 7.03417155, "learning_rate": 1.7e-07, "token_acc": 0.85413152, "epoch": 0.7480916, "global_step/max_steps": "147/197", "percentage": "74.62%", "elapsed_time": "10m 1s", "remaining_time": "3m 24s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244496}
+{"loss": 0.55576533, "grad_norm": 7.27841043, "learning_rate": 1.6e-07, "token_acc": 0.82662767, "epoch": 0.75318066, "global_step/max_steps": "148/197", "percentage": "75.13%", "elapsed_time": "10m 5s", "remaining_time": "3m 20s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244418}
+{"loss": 0.48110685, "grad_norm": 7.39271505, "learning_rate": 1.5e-07, "token_acc": 0.84879726, "epoch": 0.75826972, "global_step/max_steps": "149/197", "percentage": "75.63%", "elapsed_time": "10m 9s", "remaining_time": "3m 16s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244372}
+{"loss": 0.51099169, "grad_norm": 6.82061016, "learning_rate": 1.5e-07, "token_acc": 0.83235723, "epoch": 0.76335878, "global_step/max_steps": "150/197", "percentage": "76.14%", "elapsed_time": "10m 13s", "remaining_time": "3m 12s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244526}
+{"loss": 0.52887177, "grad_norm": 6.75300603, "learning_rate": 1.4e-07, "token_acc": 0.83091438, "epoch": 0.76844784, "global_step/max_steps": "151/197", "percentage": "76.65%", "elapsed_time": "10m 18s", "remaining_time": "3m 8s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244248}
+{"loss": 0.50057006, "grad_norm": 7.2945453, "learning_rate": 1.4e-07, "token_acc": 0.83188635, "epoch": 0.7735369, "global_step/max_steps": "152/197", "percentage": "77.16%", "elapsed_time": "10m 23s", "remaining_time": "3m 4s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24389}
+{"loss": 0.35479891, "grad_norm": 7.88559088, "learning_rate": 1.3e-07, "token_acc": 0.88328075, "epoch": 0.77862595, "global_step/max_steps": "153/197", "percentage": "77.66%", "elapsed_time": "10m 26s", "remaining_time": "3m 0s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244052}
+{"loss": 0.50404, "grad_norm": 6.72471234, "learning_rate": 1.2e-07, "token_acc": 0.8365922, "epoch": 0.78371501, "global_step/max_steps": "154/197", "percentage": "78.17%", "elapsed_time": "10m 31s", "remaining_time": "2m 56s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243737}
+{"loss": 0.50706899, "grad_norm": 6.45571072, "learning_rate": 1.2e-07, "token_acc": 0.82493186, "epoch": 0.78880407, "global_step/max_steps": "155/197", "percentage": "78.68%", "elapsed_time": "10m 35s", "remaining_time": "2m 52s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243763}
+{"loss": 0.52005351, "grad_norm": 7.06880016, "learning_rate": 1.1e-07, "token_acc": 0.83655274, "epoch": 0.79389313, "global_step/max_steps": "156/197", "percentage": "79.19%", "elapsed_time": "10m 40s", "remaining_time": "2m 48s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243717}
+{"loss": 0.40978032, "grad_norm": 6.85008129, "learning_rate": 1.1e-07, "token_acc": 0.86201161, "epoch": 0.79898219, "global_step/max_steps": "157/197", "percentage": "79.70%", "elapsed_time": "10m 44s", "remaining_time": "2m 44s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243747}
+{"loss": 0.54613638, "grad_norm": 7.60922457, "learning_rate": 1e-07, "token_acc": 0.82715076, "epoch": 0.80407125, "global_step/max_steps": "158/197", "percentage": "80.20%", "elapsed_time": "10m 48s", "remaining_time": "2m 40s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243666}
+{"loss": 0.47203174, "grad_norm": 6.3126241, "learning_rate": 1e-07, "token_acc": 0.8570348, "epoch": 0.80916031, "global_step/max_steps": "159/197", "percentage": "80.71%", "elapsed_time": "10m 52s", "remaining_time": "2m 35s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243596}
+{"loss": 0.50006372, "grad_norm": 6.96486743, "learning_rate": 9e-08, "token_acc": 0.83797288, "epoch": 0.81424936, "global_step/max_steps": "160/197", "percentage": "81.22%", "elapsed_time": "10m 56s", "remaining_time": "2m 31s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24363}
+{"loss": 0.40088487, "grad_norm": 6.45175114, "learning_rate": 9e-08, "token_acc": 0.86931819, "epoch": 0.81933842, "global_step/max_steps": "161/197", "percentage": "81.73%", "elapsed_time": "11m 0s", "remaining_time": "2m 27s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243648}
+{"loss": 0.52439237, "grad_norm": 7.1501308, "learning_rate": 8e-08, "token_acc": 0.83977902, "epoch": 0.82442748, "global_step/max_steps": "162/197", "percentage": "82.23%", "elapsed_time": "11m 4s", "remaining_time": "2m 23s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243661}
+{"loss": 0.69401765, "grad_norm": 6.74886782, "learning_rate": 8e-08, "token_acc": 0.79217744, "epoch": 0.82951654, "global_step/max_steps": "163/197", "percentage": "82.74%", "elapsed_time": "11m 9s", "remaining_time": "2m 19s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243466}
+{"loss": 0.52588379, "grad_norm": 7.15071543, "learning_rate": 7e-08, "token_acc": 0.83565891, "epoch": 0.8346056, "global_step/max_steps": "164/197", "percentage": "83.25%", "elapsed_time": "11m 13s", "remaining_time": "2m 15s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24342}
+{"loss": 0.4019556, "grad_norm": 6.09615029, "learning_rate": 7e-08, "token_acc": 0.8778317, "epoch": 0.83969466, "global_step/max_steps": "165/197", "percentage": "83.76%", "elapsed_time": "11m 17s", "remaining_time": "2m 11s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243464}
+{"loss": 0.51561689, "grad_norm": 7.24255851, "learning_rate": 7e-08, "token_acc": 0.8408916, "epoch": 0.84478372, "global_step/max_steps": "166/197", "percentage": "84.26%", "elapsed_time": "11m 21s", "remaining_time": "2m 7s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243472}
+{"loss": 0.45759654, "grad_norm": 6.89571244, "learning_rate": 6e-08, "token_acc": 0.85201794, "epoch": 0.84987277, "global_step/max_steps": "167/197", "percentage": "84.77%", "elapsed_time": "11m 25s", "remaining_time": "2m 3s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243521}
+{"loss": 0.50834095, "grad_norm": 6.89282576, "learning_rate": 6e-08, "token_acc": 0.83758193, "epoch": 0.85496183, "global_step/max_steps": "168/197", "percentage": "85.28%", "elapsed_time": "11m 30s", "remaining_time": "1m 59s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243452}
+{"loss": 0.44572502, "grad_norm": 6.76626351, "learning_rate": 5e-08, "token_acc": 0.85768074, "epoch": 0.86005089, "global_step/max_steps": "169/197", "percentage": "85.79%", "elapsed_time": "11m 34s", "remaining_time": "1m 55s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243438}
+{"loss": 0.4539907, "grad_norm": 6.00128019, "learning_rate": 5e-08, "token_acc": 0.86046511, "epoch": 0.86513995, "global_step/max_steps": "170/197", "percentage": "86.29%", "elapsed_time": "11m 37s", "remaining_time": "1m 50s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243602}
+{"loss": 0.46429244, "grad_norm": 7.14211423, "learning_rate": 5e-08, "token_acc": 0.84323043, "epoch": 0.87022901, "global_step/max_steps": "171/197", "percentage": "86.80%", "elapsed_time": "11m 41s", "remaining_time": "1m 46s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243678}
+{"loss": 0.38561523, "grad_norm": 5.60280583, "learning_rate": 4e-08, "token_acc": 0.88394719, "epoch": 0.87531807, "global_step/max_steps": "172/197", "percentage": "87.31%", "elapsed_time": "11m 45s", "remaining_time": "1m 42s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243712}
+{"loss": 0.46086422, "grad_norm": 6.33931144, "learning_rate": 4e-08, "token_acc": 0.84214503, "epoch": 0.88040712, "global_step/max_steps": "173/197", "percentage": "87.82%", "elapsed_time": "11m 50s", "remaining_time": "1m 38s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243442}
+{"loss": 0.45966834, "grad_norm": 6.54509415, "learning_rate": 4e-08, "token_acc": 0.85967743, "epoch": 0.88549618, "global_step/max_steps": "174/197", "percentage": "88.32%", "elapsed_time": "11m 54s", "remaining_time": "1m 34s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243587}
+{"loss": 0.429304, "grad_norm": 6.43417319, "learning_rate": 3e-08, "token_acc": 0.8674897, "epoch": 0.89058524, "global_step/max_steps": "175/197", "percentage": "88.83%", "elapsed_time": "11m 58s", "remaining_time": "1m 30s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243568}
+{"loss": 0.47356996, "grad_norm": 6.74307223, "learning_rate": 3e-08, "token_acc": 0.84972024, "epoch": 0.8956743, "global_step/max_steps": "176/197", "percentage": "89.34%", "elapsed_time": "12m 2s", "remaining_time": "1m 26s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24373}
+{"loss": 0.4741419, "grad_norm": 6.38713943, "learning_rate": 3e-08, "token_acc": 0.8517192, "epoch": 0.90076336, "global_step/max_steps": "177/197", "percentage": "89.85%", "elapsed_time": "12m 6s", "remaining_time": "1m 22s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243761}
+{"loss": 0.48497796, "grad_norm": 6.61100064, "learning_rate": 3e-08, "token_acc": 0.83670169, "epoch": 0.90585242, "global_step/max_steps": "178/197", "percentage": "90.36%", "elapsed_time": "12m 9s", "remaining_time": "1m 17s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243874}
+{"loss": 0.42370287, "grad_norm": 6.17486043, "learning_rate": 2e-08, "token_acc": 0.87003613, "epoch": 0.91094148, "global_step/max_steps": "179/197", "percentage": "90.86%", "elapsed_time": "12m 13s", "remaining_time": "1m 13s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243921}
+{"loss": 0.48196888, "grad_norm": 6.92904695, "learning_rate": 2e-08, "token_acc": 0.8519398, "epoch": 0.91603053, "global_step/max_steps": "180/197", "percentage": "91.37%", "elapsed_time": "12m 17s", "remaining_time": "1m 9s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243915}
+{"loss": 0.48997873, "grad_norm": 6.37320599, "learning_rate": 2e-08, "token_acc": 0.86093187, "epoch": 0.92111959, "global_step/max_steps": "181/197", "percentage": "91.88%", "elapsed_time": "12m 21s", "remaining_time": "1m 5s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244065}
+{"loss": 0.52174777, "grad_norm": 6.57050019, "learning_rate": 2e-08, "token_acc": 0.83417088, "epoch": 0.92620865, "global_step/max_steps": "182/197", "percentage": "92.39%", "elapsed_time": "12m 25s", "remaining_time": "1m 1s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244206}
+{"loss": 0.4388586, "grad_norm": 7.40764781, "learning_rate": 1e-08, "token_acc": 0.84475642, "epoch": 0.93129771, "global_step/max_steps": "183/197", "percentage": "92.89%", "elapsed_time": "12m 29s", "remaining_time": "57s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24428}
+{"loss": 0.44787735, "grad_norm": 6.4602726, "learning_rate": 1e-08, "token_acc": 0.85474008, "epoch": 0.93638677, "global_step/max_steps": "184/197", "percentage": "93.40%", "elapsed_time": "12m 33s", "remaining_time": "53s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244353}
+{"loss": 0.45180649, "grad_norm": 6.93100538, "learning_rate": 1e-08, "token_acc": 0.85307348, "epoch": 0.94147583, "global_step/max_steps": "185/197", "percentage": "93.91%", "elapsed_time": "12m 36s", "remaining_time": "49s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244479}
+{"loss": 0.52098626, "grad_norm": 6.76788342, "learning_rate": 1e-08, "token_acc": 0.8448416, "epoch": 0.94656489, "global_step/max_steps": "186/197", "percentage": "94.42%", "elapsed_time": "12m 40s", "remaining_time": "44s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24462}
+{"loss": 0.3923229, "grad_norm": 6.4985915, "learning_rate": 1e-08, "token_acc": 0.86656672, "epoch": 0.95165394, "global_step/max_steps": "187/197", "percentage": "94.92%", "elapsed_time": "12m 44s", "remaining_time": "40s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244733}
+{"loss": 0.47490713, "grad_norm": 6.72339756, "learning_rate": 1e-08, "token_acc": 0.84798098, "epoch": 0.956743, "global_step/max_steps": "188/197", "percentage": "95.43%", "elapsed_time": "12m 48s", "remaining_time": "36s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244724}
+{"loss": 0.63166517, "grad_norm": 6.47914329, "learning_rate": 0.0, "token_acc": 0.80115092, "epoch": 0.96183206, "global_step/max_steps": "189/197", "percentage": "95.94%", "elapsed_time": "12m 52s", "remaining_time": "32s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244704}
+{"loss": 0.549137, "grad_norm": 7.40403591, "learning_rate": 0.0, "token_acc": 0.82612056, "epoch": 0.96692112, "global_step/max_steps": "190/197", "percentage": "96.45%", "elapsed_time": "12m 56s", "remaining_time": "28s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244675}
+{"loss": 0.65245885, "grad_norm": 7.11699182, "learning_rate": 0.0, "token_acc": 0.79383427, "epoch": 0.97201018, "global_step/max_steps": "191/197", "percentage": "96.95%", "elapsed_time": "13m 1s", "remaining_time": "24s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24431}
+{"loss": 0.45887458, "grad_norm": 6.79487138, "learning_rate": 0.0, "token_acc": 0.85173249, "epoch": 0.97709924, "global_step/max_steps": "192/197", "percentage": "97.46%", "elapsed_time": "13m 5s", "remaining_time": "20s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244432}
+{"loss": 0.48686248, "grad_norm": 6.45045175, "learning_rate": 0.0, "token_acc": 0.84332132, "epoch": 0.9821883, "global_step/max_steps": "193/197", "percentage": "97.97%", "elapsed_time": "13m 9s", "remaining_time": "16s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244571}
+{"loss": 0.47770101, "grad_norm": 6.8483167, "learning_rate": 0.0, "token_acc": 0.84163988, "epoch": 0.98727735, "global_step/max_steps": "194/197", "percentage": "98.48%", "elapsed_time": "13m 13s", "remaining_time": "12s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.24456}
+{"loss": 0.43710124, "grad_norm": 6.31795327, "learning_rate": 0.0, "token_acc": 0.85625434, "epoch": 0.99236641, "global_step/max_steps": "195/197", "percentage": "98.98%", "elapsed_time": "13m 17s", "remaining_time": "8s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244574}
+{"loss": 0.46438512, "grad_norm": 6.41996748, "learning_rate": 0.0, "token_acc": 0.85284811, "epoch": 0.99745547, "global_step/max_steps": "196/197", "percentage": "99.49%", "elapsed_time": "13m 21s", "remaining_time": "4s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244417}
+{"loss": 0.54358232, "grad_norm": 9.59049701, "learning_rate": 0.0, "token_acc": 0.82326281, "epoch": 1.0, "global_step/max_steps": "197/197", "percentage": "100.00%", "elapsed_time": "13m 24s", "remaining_time": "0s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.244982}
+{"eval_loss": 0.32756793, "eval_runtime": 3.5597, "eval_samples_per_second": 0.843, "eval_steps_per_second": 0.281, "eval_token_acc": 0.91451615, "epoch": 1.0, "global_step/max_steps": "197/197", "percentage": "100.00%", "elapsed_time": "13m 27s", "remaining_time": "0s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.243873}
+{"eval_loss": 0.32756793, "eval_runtime": 2.8528, "eval_samples_per_second": 1.052, "eval_steps_per_second": 0.351, "eval_token_acc": 0.91451615, "epoch": 1.0, "global_step/max_steps": "197/197", "percentage": "100.00%", "elapsed_time": "17m 7s", "remaining_time": "0s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.191673}
+{"train_runtime": 1261.0874, "train_samples_per_second": 2.496, "train_steps_per_second": 0.156, "total_flos": 18220985847808.0, "train_loss": 0.5864294, "epoch": 1.0, "global_step/max_steps": "197/197", "percentage": "100.00%", "elapsed_time": "21m 0s", "remaining_time": "0s", "memory(GiB)": 26.11, "train_speed(iter/s)": 0.156228}
+{"train_dataset": "2904.456163±705.736381, min=867.000000, max=6847.000000, size=3148", "val_dataset": "2996.333333±505.896783, min=2281.000000, max=3365.000000, size=3", "model_parameter_info": "Qwen2ForCausalLM: 7615.6165M Params (7615.6165M Trainable [100.0000%]), 0.0001M Buffers.", "last_model_checkpoint": "/group/40143/hongzhuyi/ms-swift/output/v0-20250818-222949/checkpoint-197", "best_model_checkpoint": "/group/40143/hongzhuyi/ms-swift/output/v0-20250818-222949/checkpoint-197", "best_metric": 0.32756793, "global_step": 197, "log_history": [{"loss": 1.5618647336959839, "grad_norm": 39.59119464455215, "learning_rate": 1e-07, "token_acc": 0.6988449096679688, "epoch": 0.005089058524173028, "step": 1}, {"loss": 1.3259854316711426, "grad_norm": 38.840980931352185, "learning_rate": 2e-07, "token_acc": 0.7462562322616577, "epoch": 0.010178117048346057, "step": 2}, {"loss": 1.4535326957702637, "grad_norm": 35.58269049892918, "learning_rate": 3e-07, "token_acc": 0.6936619877815247, "epoch": 0.015267175572519083, "step": 3}, {"loss": 1.3522995710372925, "grad_norm": 37.43614131716039, "learning_rate": 4e-07, "token_acc": 0.7387312054634094, "epoch": 0.020356234096692113, "step": 4}, {"loss": 1.3101356029510498, "grad_norm": 38.966019422115906, "learning_rate": 5e-07, "token_acc": 0.7383029460906982, "epoch": 0.02544529262086514, "step": 5}, {"loss": 1.312995433807373, "grad_norm": 36.69056841432856, "learning_rate": 6e-07, "token_acc": 0.7447832822799683, "epoch": 0.030534351145038167, "step": 6}, {"loss": 1.2275996208190918, "grad_norm": 36.54255094918598, "learning_rate": 7e-07, "token_acc": 0.7386091351509094, "epoch": 0.035623409669211195, "step": 7}, {"loss": 1.2191312313079834, "grad_norm": 36.46527005025605, "learning_rate": 8e-07, "token_acc": 0.7234548330307007, "epoch": 0.04071246819338423, "step": 8}, {"loss": 1.1805241107940674, "grad_norm": 31.38061782576404, "learning_rate": 9e-07, "token_acc": 0.7470238208770752, "epoch": 0.04580152671755725, "step": 9}, {"loss": 1.1280511617660522, "grad_norm": 30.297168179272013, "learning_rate": 1e-06, "token_acc": 0.7501875758171082, "epoch": 0.05089058524173028, "step": 10}, {"loss": 1.0186139345169067, "grad_norm": 24.72899766553136, "learning_rate": 9.999294419895387e-07, "token_acc": 0.7525691986083984, "epoch": 0.05597964376590331, "step": 11}, {"loss": 1.035551905632019, "grad_norm": 24.027012489059675, "learning_rate": 9.997177878718868e-07, "token_acc": 0.739130437374115, "epoch": 0.061068702290076333, "step": 12}, {"loss": 1.0829148292541504, "grad_norm": 21.85423573595879, "learning_rate": 9.993650973826175e-07, "token_acc": 0.7210264801979065, "epoch": 0.06615776081424936, "step": 13}, {"loss": 0.956468939781189, "grad_norm": 18.44215846855443, "learning_rate": 9.98871470062288e-07, "token_acc": 0.7356154322624207, "epoch": 0.07124681933842239, "step": 14}, {"loss": 0.7082113027572632, "grad_norm": 13.164830213554048, "learning_rate": 9.982370452283449e-07, "token_acc": 0.7961165308952332, "epoch": 0.07633587786259542, "step": 15}, {"loss": 0.8985003232955933, "grad_norm": 14.238898889820645, "learning_rate": 9.974620019358044e-07, "token_acc": 0.7519319653511047, "epoch": 0.08142493638676845, "step": 16}, {"loss": 0.7989923357963562, "grad_norm": 13.67529550123635, "learning_rate": 9.965465589267174e-07, "token_acc": 0.7746710777282715, "epoch": 0.08651399491094147, "step": 17}, {"loss": 0.7252960205078125, "grad_norm": 10.703655214207734, "learning_rate": 9.954909745684338e-07, "token_acc": 0.8032212853431702, "epoch": 0.0916030534351145, "step": 18}, {"loss": 0.7841960191726685, "grad_norm": 11.523889293639645, "learning_rate": 9.94295546780682e-07, "token_acc": 0.7739251255989075, "epoch": 0.09669211195928754, "step": 19}, {"loss": 0.6578090190887451, "grad_norm": 10.489275511207074, "learning_rate": 9.929606129514875e-07, "token_acc": 0.8086696267127991, "epoch": 0.10178117048346055, "step": 20}, {"loss": 0.783283531665802, "grad_norm": 11.076797697308274, "learning_rate": 9.91486549841951e-07, "token_acc": 0.7880747318267822, "epoch": 0.10687022900763359, "step": 21}, {"loss": 0.7003642916679382, "grad_norm": 10.466190317489326, "learning_rate": 9.898737734799133e-07, "token_acc": 0.7864823341369629, "epoch": 0.11195928753180662, "step": 22}, {"loss": 0.7234220504760742, "grad_norm": 10.240502510630266, "learning_rate": 9.881227390425402e-07, "token_acc": 0.7776978611946106, "epoch": 0.11704834605597965, "step": 23}, {"loss": 0.8035274147987366, "grad_norm": 10.763927624859033, "learning_rate": 9.862339407278563e-07, "token_acc": 0.7623896598815918, "epoch": 0.12213740458015267, "step": 24}, {"loss": 0.5895827412605286, "grad_norm": 8.653099525894065, "learning_rate": 9.842079116152668e-07, "token_acc": 0.8207831382751465, "epoch": 0.1272264631043257, "step": 25}, {"loss": 0.6686500310897827, "grad_norm": 9.515878581058445, "learning_rate": 9.820452235151048e-07, "token_acc": 0.7937831878662109, "epoch": 0.13231552162849872, "step": 26}, {"loss": 0.6293672323226929, "grad_norm": 9.799933748108716, "learning_rate": 9.797464868072486e-07, "token_acc": 0.8054607510566711, "epoch": 0.13740458015267176, "step": 27}, {"loss": 0.6071704030036926, "grad_norm": 9.427191512484255, "learning_rate": 9.773123502688532e-07, "token_acc": 0.8294862508773804, "epoch": 0.14249363867684478, "step": 28}, {"loss": 0.6743731498718262, "grad_norm": 9.37922151687679, "learning_rate": 9.747435008912436e-07, "token_acc": 0.7891805768013, "epoch": 0.1475826972010178, "step": 29}, {"loss": 0.7138023376464844, "grad_norm": 8.930688669632072, "learning_rate": 9.72040663686025e-07, "token_acc": 0.7901849150657654, "epoch": 0.15267175572519084, "step": 30}, {"loss": 0.7591217756271362, "grad_norm": 9.881769025162873, "learning_rate": 9.692046014804608e-07, "token_acc": 0.7719298005104065, "epoch": 0.15776081424936386, "step": 31}, {"loss": 0.6431020498275757, "grad_norm": 9.162115530110038, "learning_rate": 9.66236114702178e-07, "token_acc": 0.8061839938163757, "epoch": 0.1628498727735369, "step": 32}, {"loss": 0.4977595806121826, "grad_norm": 7.929081347058714, "learning_rate": 9.631360411532608e-07, "token_acc": 0.8374046087265015, "epoch": 0.16793893129770993, "step": 33}, {"loss": 0.5279712080955505, "grad_norm": 8.318143171263882, "learning_rate": 9.599052557737972e-07, "token_acc": 0.8293412923812866, "epoch": 0.17302798982188294, "step": 34}, {"loss": 0.7194305658340454, "grad_norm": 9.361616489488647, "learning_rate": 9.565446703949415e-07, "token_acc": 0.791208803653717, "epoch": 0.178117048346056, "step": 35}, {"loss": 0.7394201755523682, "grad_norm": 10.728332996265143, "learning_rate": 9.53055233481567e-07, "token_acc": 0.7771186232566833, "epoch": 0.183206106870229, "step": 36}, {"loss": 0.5850287079811096, "grad_norm": 8.069307090882255, "learning_rate": 9.494379298645787e-07, "token_acc": 0.812666654586792, "epoch": 0.18829516539440203, "step": 37}, {"loss": 0.4985586106777191, "grad_norm": 7.645319984809178, "learning_rate": 9.456937804629623e-07, "token_acc": 0.8454692363739014, "epoch": 0.19338422391857507, "step": 38}, {"loss": 0.5950720906257629, "grad_norm": 7.461620630685697, "learning_rate": 9.418238419956483e-07, "token_acc": 0.8255727887153625, "epoch": 0.1984732824427481, "step": 39}, {"loss": 0.5869325399398804, "grad_norm": 8.527962752078853, "learning_rate": 9.378292066832723e-07, "token_acc": 0.8185358047485352, "epoch": 0.2035623409669211, "step": 40}, {"loss": 0.5763862133026123, "grad_norm": 8.496328249097074, "learning_rate": 9.337110019399148e-07, "token_acc": 0.8254603743553162, "epoch": 0.20865139949109415, "step": 41}, {"loss": 0.46660315990448, "grad_norm": 7.7841132583684205, "learning_rate": 9.294703900549094e-07, "token_acc": 0.8593040704727173, "epoch": 0.21374045801526717, "step": 42}, {"loss": 0.5544826984405518, "grad_norm": 8.128262972440295, "learning_rate": 9.251085678648071e-07, "token_acc": 0.8252788186073303, "epoch": 0.21882951653944022, "step": 43}, {"loss": 0.45063287019729614, "grad_norm": 6.59396831761356, "learning_rate": 9.206267664155906e-07, "token_acc": 0.8608644008636475, "epoch": 0.22391857506361323, "step": 44}, {"loss": 0.5023191571235657, "grad_norm": 7.6128749952424135, "learning_rate": 9.16026250615234e-07, "token_acc": 0.8370909094810486, "epoch": 0.22900763358778625, "step": 45}, {"loss": 0.5518982410430908, "grad_norm": 8.604761961587872, "learning_rate": 9.113083188767055e-07, "token_acc": 0.8242133855819702, "epoch": 0.2340966921119593, "step": 46}, {"loss": 0.4638890027999878, "grad_norm": 6.580072457034871, "learning_rate": 9.064743027515127e-07, "token_acc": 0.8577494621276855, "epoch": 0.23918575063613232, "step": 47}, {"loss": 0.5250757932662964, "grad_norm": 7.5450521470602885, "learning_rate": 9.015255665538971e-07, "token_acc": 0.8420289754867554, "epoch": 0.24427480916030533, "step": 48}, {"loss": 0.40262165665626526, "grad_norm": 8.044908642807194, "learning_rate": 8.964635069757801e-07, "token_acc": 0.868852436542511, "epoch": 0.24936386768447838, "step": 49}, {"loss": 0.5697673559188843, "grad_norm": 7.538007637149986, "learning_rate": 8.912895526925724e-07, "token_acc": 0.8191800713539124, "epoch": 0.2544529262086514, "step": 50}, {"loss": 0.5340009927749634, "grad_norm": 7.943395533009222, "learning_rate": 8.860051639599559e-07, "token_acc": 0.8247800469398499, "epoch": 0.2595419847328244, "step": 51}, {"loss": 0.43659716844558716, "grad_norm": 7.312716386718961, "learning_rate": 8.806118322017524e-07, "token_acc": 0.8515684604644775, "epoch": 0.26463104325699743, "step": 52}, {"loss": 0.5912561416625977, "grad_norm": 7.350619751080193, "learning_rate": 8.751110795889965e-07, "token_acc": 0.8230579495429993, "epoch": 0.2697201017811705, "step": 53}, {"loss": 0.6188493967056274, "grad_norm": 8.211822816297223, "learning_rate": 8.695044586103295e-07, "token_acc": 0.8092948794364929, "epoch": 0.2748091603053435, "step": 54}, {"loss": 0.5438786149024963, "grad_norm": 8.041679003906003, "learning_rate": 8.637935516338384e-07, "token_acc": 0.8242811560630798, "epoch": 0.27989821882951654, "step": 55}, {"loss": 0.6625794768333435, "grad_norm": 8.058500943867548, "learning_rate": 8.579799704604596e-07, "token_acc": 0.7946974635124207, "epoch": 0.28498727735368956, "step": 56}, {"loss": 0.4714081287384033, "grad_norm": 7.789157487379679, "learning_rate": 8.520653558690784e-07, "token_acc": 0.8505337834358215, "epoch": 0.2900763358778626, "step": 57}, {"loss": 0.6934107542037964, "grad_norm": 9.052787635360971, "learning_rate": 8.460513771534475e-07, "token_acc": 0.7884864211082458, "epoch": 0.2951653944020356, "step": 58}, {"loss": 0.4494791626930237, "grad_norm": 7.369093603412542, "learning_rate": 8.399397316510595e-07, "token_acc": 0.8565950989723206, "epoch": 0.30025445292620867, "step": 59}, {"loss": 0.5583677291870117, "grad_norm": 7.3762121220819115, "learning_rate": 8.337321442641035e-07, "token_acc": 0.8291316628456116, "epoch": 0.3053435114503817, "step": 60}, {"loss": 0.512423038482666, "grad_norm": 7.392157621374455, "learning_rate": 8.274303669726426e-07, "token_acc": 0.8322580456733704, "epoch": 0.3104325699745547, "step": 61}, {"loss": 0.4724104404449463, "grad_norm": 7.102702056910771, "learning_rate": 8.210361783401491e-07, "token_acc": 0.8399122953414917, "epoch": 0.3155216284987277, "step": 62}, {"loss": 0.5095264911651611, "grad_norm": 7.795682688711404, "learning_rate": 8.145513830115366e-07, "token_acc": 0.8355817794799805, "epoch": 0.32061068702290074, "step": 63}, {"loss": 0.5506556034088135, "grad_norm": 6.936421435554609, "learning_rate": 8.079778112038318e-07, "token_acc": 0.825352132320404, "epoch": 0.3256997455470738, "step": 64}, {"loss": 0.48943406343460083, "grad_norm": 7.440078763607836, "learning_rate": 8.013173181896282e-07, "token_acc": 0.8378170728683472, "epoch": 0.33078880407124683, "step": 65}, {"loss": 0.44389235973358154, "grad_norm": 6.862832326044178, "learning_rate": 7.945717837734687e-07, "token_acc": 0.8590116500854492, "epoch": 0.33587786259541985, "step": 66}, {"loss": 0.5367267727851868, "grad_norm": 7.506003385387902, "learning_rate": 7.877431117613051e-07, "token_acc": 0.8286367058753967, "epoch": 0.34096692111959287, "step": 67}, {"loss": 0.4983973801136017, "grad_norm": 8.099796074984626, "learning_rate": 7.808332294231823e-07, "token_acc": 0.8325471878051758, "epoch": 0.3460559796437659, "step": 68}, {"loss": 0.6867854595184326, "grad_norm": 7.812956905553791, "learning_rate": 7.738440869493017e-07, "token_acc": 0.7833545207977295, "epoch": 0.3511450381679389, "step": 69}, {"loss": 0.4567531943321228, "grad_norm": 6.718817631268139, "learning_rate": 7.667776568996142e-07, "token_acc": 0.854107677936554, "epoch": 0.356234096692112, "step": 70}, {"loss": 0.4131337106227875, "grad_norm": 6.501796191199332, "learning_rate": 7.596359336471014e-07, "token_acc": 0.8654970526695251, "epoch": 0.361323155216285, "step": 71}, {"loss": 0.6130458116531372, "grad_norm": 8.788072928188402, "learning_rate": 7.524209328148994e-07, "token_acc": 0.8134275674819946, "epoch": 0.366412213740458, "step": 72}, {"loss": 0.5723602771759033, "grad_norm": 8.054819642399062, "learning_rate": 7.451346907074244e-07, "token_acc": 0.7985948324203491, "epoch": 0.37150127226463103, "step": 73}, {"loss": 0.47571295499801636, "grad_norm": 7.242795533985142, "learning_rate": 7.377792637356643e-07, "token_acc": 0.8469551205635071, "epoch": 0.37659033078880405, "step": 74}, {"loss": 0.6627309322357178, "grad_norm": 8.308795084553635, "learning_rate": 7.303567278367917e-07, "token_acc": 0.793225109577179, "epoch": 0.3816793893129771, "step": 75}, {"loss": 0.5937893390655518, "grad_norm": 7.59038850429703, "learning_rate": 7.228691778882692e-07, "token_acc": 0.8088235259056091, "epoch": 0.38676844783715014, "step": 76}, {"loss": 0.601184606552124, "grad_norm": 7.683851106547246, "learning_rate": 7.15318727116607e-07, "token_acc": 0.818495512008667, "epoch": 0.39185750636132316, "step": 77}, {"loss": 0.4612157344818115, "grad_norm": 8.130033906261136, "learning_rate": 7.077075065009433e-07, "token_acc": 0.8497853875160217, "epoch": 0.3969465648854962, "step": 78}, {"loss": 0.48830536007881165, "grad_norm": 7.095590871692628, "learning_rate": 7.000376641716132e-07, "token_acc": 0.8457189202308655, "epoch": 0.4020356234096692, "step": 79}, {"loss": 0.5752387046813965, "grad_norm": 7.058872191401623, "learning_rate": 6.923113648038783e-07, "token_acc": 0.8219931125640869, "epoch": 0.4071246819338422, "step": 80}, {"loss": 0.5346622467041016, "grad_norm": 8.690210681310855, "learning_rate": 6.84530789006985e-07, "token_acc": 0.8311011791229248, "epoch": 0.4122137404580153, "step": 81}, {"loss": 0.5009891986846924, "grad_norm": 7.071280252066903, "learning_rate": 6.76698132708727e-07, "token_acc": 0.846045196056366, "epoch": 0.4173027989821883, "step": 82}, {"loss": 0.5695414543151855, "grad_norm": 7.666919888145399, "learning_rate": 6.688156065356844e-07, "token_acc": 0.8237951993942261, "epoch": 0.4223918575063613, "step": 83}, {"loss": 0.6212877631187439, "grad_norm": 7.746926433795022, "learning_rate": 6.60885435189314e-07, "token_acc": 0.8014854788780212, "epoch": 0.42748091603053434, "step": 84}, {"loss": 0.5276066064834595, "grad_norm": 7.387178025589133, "learning_rate": 6.529098568180671e-07, "token_acc": 0.8339952230453491, "epoch": 0.43256997455470736, "step": 85}, {"loss": 0.4768299460411072, "grad_norm": 7.506304422823719, "learning_rate": 6.448911223857123e-07, "token_acc": 0.8494023680686951, "epoch": 0.43765903307888043, "step": 86}, {"loss": 0.574189305305481, "grad_norm": 7.011645447853534, "learning_rate": 6.368314950360415e-07, "token_acc": 0.8242647051811218, "epoch": 0.44274809160305345, "step": 87}, {"loss": 0.5236226320266724, "grad_norm": 7.218887744556149, "learning_rate": 6.287332494541379e-07, "token_acc": 0.8351648449897766, "epoch": 0.44783715012722647, "step": 88}, {"loss": 0.6144217252731323, "grad_norm": 7.30966496133741, "learning_rate": 6.205986712243875e-07, "token_acc": 0.8031051754951477, "epoch": 0.4529262086513995, "step": 89}, {"loss": 0.520158052444458, "grad_norm": 7.974311536016522, "learning_rate": 6.124300561854138e-07, "token_acc": 0.8234811425209045, "epoch": 0.4580152671755725, "step": 90}, {"loss": 0.4926101863384247, "grad_norm": 6.833501864688494, "learning_rate": 6.042297097821183e-07, "token_acc": 0.839246928691864, "epoch": 0.4631043256997455, "step": 91}, {"loss": 0.5708845257759094, "grad_norm": 6.947903974695247, "learning_rate": 5.9599994641501e-07, "token_acc": 0.8121345043182373, "epoch": 0.4681933842239186, "step": 92}, {"loss": 0.628115713596344, "grad_norm": 7.548986770798889, "learning_rate": 5.877430887870081e-07, "token_acc": 0.788294792175293, "epoch": 0.4732824427480916, "step": 93}, {"loss": 0.5166823863983154, "grad_norm": 6.570218872839558, "learning_rate": 5.794614672478999e-07, "token_acc": 0.8360433578491211, "epoch": 0.47837150127226463, "step": 94}, {"loss": 0.49430781602859497, "grad_norm": 6.879102389364668, "learning_rate": 5.711574191366427e-07, "token_acc": 0.8404411673545837, "epoch": 0.48346055979643765, "step": 95}, {"loss": 0.539700448513031, "grad_norm": 6.900039087620259, "learning_rate": 5.628332881216898e-07, "token_acc": 0.8335866332054138, "epoch": 0.48854961832061067, "step": 96}, {"loss": 0.5462325811386108, "grad_norm": 7.311775050492225, "learning_rate": 5.544914235395346e-07, "token_acc": 0.821093738079071, "epoch": 0.49363867684478374, "step": 97}, {"loss": 0.42079484462738037, "grad_norm": 6.2340087632083145, "learning_rate": 5.46134179731651e-07, "token_acc": 0.8601190447807312, "epoch": 0.49872773536895676, "step": 98}, {"loss": 0.4871785342693329, "grad_norm": 6.906354100365807, "learning_rate": 5.377639153800228e-07, "token_acc": 0.8426229357719421, "epoch": 0.5038167938931297, "step": 99}, {"loss": 0.44850805401802063, "grad_norm": 7.419694975770268, "learning_rate": 5.29382992841449e-07, "token_acc": 0.8602064847946167, "epoch": 0.5089058524173028, "step": 100}, {"loss": 0.7532479763031006, "grad_norm": 7.58024465843975, "learning_rate": 5.209937774808097e-07, "token_acc": 0.7617493271827698, "epoch": 0.5139949109414759, "step": 101}, {"loss": 0.5460261106491089, "grad_norm": 6.785869972847848, "learning_rate": 5.125986370034862e-07, "token_acc": 0.8271237015724182, "epoch": 0.5190839694656488, "step": 102}, {"loss": 0.4613378643989563, "grad_norm": 6.377004561413436, "learning_rate": 5.041999407871167e-07, "token_acc": 0.8512530326843262, "epoch": 0.5241730279898219, "step": 103}, {"loss": 0.4473533630371094, "grad_norm": 6.80201496287452, "learning_rate": 4.958000592128833e-07, "token_acc": 0.8579586148262024, "epoch": 0.5292620865139949, "step": 104}, {"loss": 0.6759693622589111, "grad_norm": 7.418108541295539, "learning_rate": 4.874013629965138e-07, "token_acc": 0.784140944480896, "epoch": 0.5343511450381679, "step": 105}, {"loss": 0.5856516361236572, "grad_norm": 7.489685718682303, "learning_rate": 4.790062225191901e-07, "token_acc": 0.8117216229438782, "epoch": 0.539440203562341, "step": 106}, {"loss": 0.42829567193984985, "grad_norm": 6.328869183566899, "learning_rate": 4.706170071585512e-07, "token_acc": 0.8712550401687622, "epoch": 0.544529262086514, "step": 107}, {"loss": 0.45178571343421936, "grad_norm": 6.886501255634082, "learning_rate": 4.622360846199772e-07, "token_acc": 0.8500370979309082, "epoch": 0.549618320610687, "step": 108}, {"loss": 0.5495023131370544, "grad_norm": 6.8077162970553005, "learning_rate": 4.5386582026834904e-07, "token_acc": 0.8218978047370911, "epoch": 0.55470737913486, "step": 109}, {"loss": 0.5456889867782593, "grad_norm": 7.379728449003184, "learning_rate": 4.4550857646046526e-07, "token_acc": 0.8291457295417786, "epoch": 0.5597964376590331, "step": 110}, {"loss": 0.5225412845611572, "grad_norm": 7.615924172233695, "learning_rate": 4.3716671187831003e-07, "token_acc": 0.8404580354690552, "epoch": 0.5648854961832062, "step": 111}, {"loss": 0.4707789719104767, "grad_norm": 7.422346795235618, "learning_rate": 4.2884258086335745e-07, "token_acc": 0.8413736820220947, "epoch": 0.5699745547073791, "step": 112}, {"loss": 0.5297611951828003, "grad_norm": 7.123945145135712, "learning_rate": 4.205385327521001e-07, "token_acc": 0.8392330408096313, "epoch": 0.5750636132315522, "step": 113}, {"loss": 0.5752742290496826, "grad_norm": 7.4958484597821995, "learning_rate": 4.1225691121299197e-07, "token_acc": 0.8212867379188538, "epoch": 0.5801526717557252, "step": 114}, {"loss": 0.5388021469116211, "grad_norm": 7.327669668772754, "learning_rate": 4.0400005358498996e-07, "token_acc": 0.8285269141197205, "epoch": 0.5852417302798982, "step": 115}, {"loss": 0.6789300441741943, "grad_norm": 9.618613337873144, "learning_rate": 3.957702902178816e-07, "token_acc": 0.7847328186035156, "epoch": 0.5903307888040712, "step": 116}, {"loss": 0.5471738576889038, "grad_norm": 7.177952623547619, "learning_rate": 3.875699438145862e-07, "token_acc": 0.8336092829704285, "epoch": 0.5954198473282443, "step": 117}, {"loss": 0.5098978281021118, "grad_norm": 8.052945572812362, "learning_rate": 3.794013287756125e-07, "token_acc": 0.8288288116455078, "epoch": 0.6005089058524173, "step": 118}, {"loss": 0.3425061106681824, "grad_norm": 6.046421400580426, "learning_rate": 3.7126675054586216e-07, "token_acc": 0.8789032697677612, "epoch": 0.6055979643765903, "step": 119}, {"loss": 0.4630793333053589, "grad_norm": 6.5737863737615765, "learning_rate": 3.6316850496395855e-07, "token_acc": 0.8662704229354858, "epoch": 0.6106870229007634, "step": 120}, {"loss": 0.45755183696746826, "grad_norm": 8.397160760098581, "learning_rate": 3.551088776142876e-07, "token_acc": 0.8498349785804749, "epoch": 0.6157760814249363, "step": 121}, {"loss": 0.4360772967338562, "grad_norm": 6.4054163015674135, "learning_rate": 3.470901431819329e-07, "token_acc": 0.8583815097808838, "epoch": 0.6208651399491094, "step": 122}, {"loss": 0.5934512615203857, "grad_norm": 6.54393616683031, "learning_rate": 3.391145648106861e-07, "token_acc": 0.8144611120223999, "epoch": 0.6259541984732825, "step": 123}, {"loss": 0.5138750076293945, "grad_norm": 6.579208878415561, "learning_rate": 3.3118439346431565e-07, "token_acc": 0.8332119584083557, "epoch": 0.6310432569974554, "step": 124}, {"loss": 0.5163788795471191, "grad_norm": 6.531324677437054, "learning_rate": 3.2330186729127307e-07, "token_acc": 0.8390636444091797, "epoch": 0.6361323155216285, "step": 125}, {"loss": 0.5495798587799072, "grad_norm": 7.24353518688214, "learning_rate": 3.1546921099301505e-07, "token_acc": 0.8304953575134277, "epoch": 0.6412213740458015, "step": 126}, {"loss": 0.6340938806533813, "grad_norm": 8.073546794978538, "learning_rate": 3.0768863519612163e-07, "token_acc": 0.7963525652885437, "epoch": 0.6463104325699746, "step": 127}, {"loss": 0.5798467993736267, "grad_norm": 6.906455485991713, "learning_rate": 2.9996233582838683e-07, "token_acc": 0.8176470398902893, "epoch": 0.6513994910941476, "step": 128}, {"loss": 0.5856970548629761, "grad_norm": 7.1616302611374945, "learning_rate": 2.922924934990568e-07, "token_acc": 0.812842607498169, "epoch": 0.6564885496183206, "step": 129}, {"loss": 0.5146996974945068, "grad_norm": 7.248707569801376, "learning_rate": 2.8468127288339304e-07, "token_acc": 0.8361921310424805, "epoch": 0.6615776081424937, "step": 130}, {"loss": 0.5206888914108276, "grad_norm": 7.055467124955925, "learning_rate": 2.771308221117309e-07, "token_acc": 0.8340874910354614, "epoch": 0.6666666666666666, "step": 131}, {"loss": 0.6137682795524597, "grad_norm": 6.853333937334987, "learning_rate": 2.6964327216320814e-07, "token_acc": 0.8140981197357178, "epoch": 0.6717557251908397, "step": 132}, {"loss": 0.4743039309978485, "grad_norm": 6.084163869064432, "learning_rate": 2.6222073626433585e-07, "token_acc": 0.8473338484764099, "epoch": 0.6768447837150128, "step": 133}, {"loss": 0.4284076690673828, "grad_norm": 6.204362600314127, "learning_rate": 2.548653092925757e-07, "token_acc": 0.8555877804756165, "epoch": 0.6819338422391857, "step": 134}, {"loss": 0.554141640663147, "grad_norm": 6.475011309803279, "learning_rate": 2.475790671851007e-07, "token_acc": 0.8283678889274597, "epoch": 0.6870229007633588, "step": 135}, {"loss": 0.3982859253883362, "grad_norm": 6.298960887105995, "learning_rate": 2.403640663528986e-07, "token_acc": 0.8643379211425781, "epoch": 0.6921119592875318, "step": 136}, {"loss": 0.5251267552375793, "grad_norm": 6.718734055041829, "learning_rate": 2.3322234310038587e-07, "token_acc": 0.8207109570503235, "epoch": 0.6972010178117048, "step": 137}, {"loss": 0.48356571793556213, "grad_norm": 6.4956944903697345, "learning_rate": 2.2615591305069842e-07, "token_acc": 0.8466569781303406, "epoch": 0.7022900763358778, "step": 138}, {"loss": 0.5787326693534851, "grad_norm": 6.415681112067578, "learning_rate": 2.1916677057681782e-07, "token_acc": 0.8108457326889038, "epoch": 0.7073791348600509, "step": 139}, {"loss": 0.3941395878791809, "grad_norm": 6.233464900375372, "learning_rate": 2.1225688823869493e-07, "token_acc": 0.874715268611908, "epoch": 0.712468193384224, "step": 140}, {"loss": 0.4660745859146118, "grad_norm": 6.4081404514839475, "learning_rate": 2.0542821622653128e-07, "token_acc": 0.859331488609314, "epoch": 0.7175572519083969, "step": 141}, {"loss": 0.47638827562332153, "grad_norm": 6.287600191293197, "learning_rate": 1.9868268181037184e-07, "token_acc": 0.8483943343162537, "epoch": 0.72264631043257, "step": 142}, {"loss": 0.5913321375846863, "grad_norm": 6.81863548950789, "learning_rate": 1.920221887961682e-07, "token_acc": 0.8215827345848083, "epoch": 0.727735368956743, "step": 143}, {"loss": 0.4383474588394165, "grad_norm": 6.841490974043838, "learning_rate": 1.8544861698846349e-07, "token_acc": 0.8550488352775574, "epoch": 0.732824427480916, "step": 144}, {"loss": 0.5796048641204834, "grad_norm": 6.942817420503061, "learning_rate": 1.7896382165985092e-07, "token_acc": 0.8165392875671387, "epoch": 0.7379134860050891, "step": 145}, {"loss": 0.6701334714889526, "grad_norm": 6.7613004032540465, "learning_rate": 1.725696330273575e-07, "token_acc": 0.7835962176322937, "epoch": 0.7430025445292621, "step": 146}, {"loss": 0.40048810839653015, "grad_norm": 7.034171547644415, "learning_rate": 1.6626785573589663e-07, "token_acc": 0.8541315197944641, "epoch": 0.7480916030534351, "step": 147}, {"loss": 0.5557653307914734, "grad_norm": 7.278410426269352, "learning_rate": 1.6006026834894066e-07, "token_acc": 0.8266276717185974, "epoch": 0.7531806615776081, "step": 148}, {"loss": 0.48110684752464294, "grad_norm": 7.392715047702279, "learning_rate": 1.5394862284655263e-07, "token_acc": 0.8487972617149353, "epoch": 0.7582697201017812, "step": 149}, {"loss": 0.5109916925430298, "grad_norm": 6.820610160916925, "learning_rate": 1.479346441309216e-07, "token_acc": 0.8323572278022766, "epoch": 0.7633587786259542, "step": 150}, {"loss": 0.5288717746734619, "grad_norm": 6.75300602800803, "learning_rate": 1.420200295395404e-07, "token_acc": 0.8309143781661987, "epoch": 0.7684478371501272, "step": 151}, {"loss": 0.5005700588226318, "grad_norm": 7.294545297758498, "learning_rate": 1.3620644836616168e-07, "token_acc": 0.831886351108551, "epoch": 0.7735368956743003, "step": 152}, {"loss": 0.35479891300201416, "grad_norm": 7.8855908810954904, "learning_rate": 1.304955413896705e-07, "token_acc": 0.8832807540893555, "epoch": 0.7786259541984732, "step": 153}, {"loss": 0.504040002822876, "grad_norm": 6.724712339824582, "learning_rate": 1.2488892041100363e-07, "token_acc": 0.8365921974182129, "epoch": 0.7837150127226463, "step": 154}, {"loss": 0.5070689916610718, "grad_norm": 6.455710720242099, "learning_rate": 1.193881677982475e-07, "token_acc": 0.8249318599700928, "epoch": 0.7888040712468194, "step": 155}, {"loss": 0.520053505897522, "grad_norm": 7.068800156140281, "learning_rate": 1.1399483604004401e-07, "token_acc": 0.8365527391433716, "epoch": 0.7938931297709924, "step": 156}, {"loss": 0.4097803235054016, "grad_norm": 6.850081288418033, "learning_rate": 1.0871044730742752e-07, "token_acc": 0.8620116114616394, "epoch": 0.7989821882951654, "step": 157}, {"loss": 0.5461363792419434, "grad_norm": 7.60922457079162, "learning_rate": 1.0353649302421979e-07, "token_acc": 0.8271507620811462, "epoch": 0.8040712468193384, "step": 158}, {"loss": 0.47203174233436584, "grad_norm": 6.31262409570355, "learning_rate": 9.847443344610296e-08, "token_acc": 0.8570348024368286, "epoch": 0.8091603053435115, "step": 159}, {"loss": 0.5000637173652649, "grad_norm": 6.964867427745047, "learning_rate": 9.352569724848713e-08, "token_acc": 0.83797287940979, "epoch": 0.8142493638676844, "step": 160}, {"loss": 0.40088486671447754, "grad_norm": 6.451751143662267, "learning_rate": 8.86916811232944e-08, "token_acc": 0.8693181872367859, "epoch": 0.8193384223918575, "step": 161}, {"loss": 0.5243923664093018, "grad_norm": 7.150130800522952, "learning_rate": 8.397374938476592e-08, "token_acc": 0.8397790193557739, "epoch": 0.8244274809160306, "step": 162}, {"loss": 0.6940176486968994, "grad_norm": 6.748867820996097, "learning_rate": 7.937323358440934e-08, "token_acc": 0.7921774387359619, "epoch": 0.8295165394402035, "step": 163}, {"loss": 0.5258837938308716, "grad_norm": 7.150715431546907, "learning_rate": 7.4891432135193e-08, "token_acc": 0.8356589078903198, "epoch": 0.8346055979643766, "step": 164}, {"loss": 0.40195560455322266, "grad_norm": 6.0961502935870255, "learning_rate": 7.052960994509054e-08, "token_acc": 0.8778316974639893, "epoch": 0.8396946564885496, "step": 165}, {"loss": 0.5156168937683105, "grad_norm": 7.242558509557879, "learning_rate": 6.628899806008514e-08, "token_acc": 0.8408915996551514, "epoch": 0.8447837150127226, "step": 166}, {"loss": 0.4575965404510498, "grad_norm": 6.8957124413510025, "learning_rate": 6.217079331672776e-08, "token_acc": 0.8520179390907288, "epoch": 0.8498727735368957, "step": 167}, {"loss": 0.5083409547805786, "grad_norm": 6.892825756883802, "learning_rate": 5.817615800435166e-08, "token_acc": 0.8375819325447083, "epoch": 0.8549618320610687, "step": 168}, {"loss": 0.4457250237464905, "grad_norm": 6.766263512755089, "learning_rate": 5.4306219537037845e-08, "token_acc": 0.8576807379722595, "epoch": 0.8600508905852418, "step": 169}, {"loss": 0.4539906978607178, "grad_norm": 6.00128018588962, "learning_rate": 5.05620701354213e-08, "token_acc": 0.8604651093482971, "epoch": 0.8651399491094147, "step": 170}, {"loss": 0.46429243683815, "grad_norm": 7.1421142340529, "learning_rate": 4.6944766518432934e-08, "token_acc": 0.8432304263114929, "epoch": 0.8702290076335878, "step": 171}, {"loss": 0.3856152296066284, "grad_norm": 5.6028058281665425, "learning_rate": 4.3455329605058435e-08, "token_acc": 0.8839471936225891, "epoch": 0.8753180661577609, "step": 172}, {"loss": 0.46086421608924866, "grad_norm": 6.33931144273652, "learning_rate": 4.0094744226202684e-08, "token_acc": 0.8421450257301331, "epoch": 0.8804071246819338, "step": 173}, {"loss": 0.4596683382987976, "grad_norm": 6.545094147756003, "learning_rate": 3.686395884673921e-08, "token_acc": 0.8596774339675903, "epoch": 0.8854961832061069, "step": 174}, {"loss": 0.42930400371551514, "grad_norm": 6.434173190803067, "learning_rate": 3.376388529782215e-08, "token_acc": 0.8674896955490112, "epoch": 0.8905852417302799, "step": 175}, {"loss": 0.47356995940208435, "grad_norm": 6.743072227511501, "learning_rate": 3.0795398519539106e-08, "token_acc": 0.8497202396392822, "epoch": 0.8956743002544529, "step": 176}, {"loss": 0.4741418957710266, "grad_norm": 6.3871394256293845, "learning_rate": 2.7959336313974845e-08, "token_acc": 0.8517192006111145, "epoch": 0.9007633587786259, "step": 177}, {"loss": 0.48497796058654785, "grad_norm": 6.611000642419291, "learning_rate": 2.525649910875627e-08, "token_acc": 0.8367016911506653, "epoch": 0.905852417302799, "step": 178}, {"loss": 0.4237028658390045, "grad_norm": 6.174860429472809, "learning_rate": 2.268764973114684e-08, "token_acc": 0.8700361251831055, "epoch": 0.910941475826972, "step": 179}, {"loss": 0.48196887969970703, "grad_norm": 6.929046947049144, "learning_rate": 2.025351319275137e-08, "token_acc": 0.8519397974014282, "epoch": 0.916030534351145, "step": 180}, {"loss": 0.48997873067855835, "grad_norm": 6.373205986334354, "learning_rate": 1.7954776484895183e-08, "token_acc": 0.8609318733215332, "epoch": 0.9211195928753181, "step": 181}, {"loss": 0.5217477679252625, "grad_norm": 6.570500193502052, "learning_rate": 1.5792088384733173e-08, "token_acc": 0.8341708779335022, "epoch": 0.926208651399491, "step": 182}, {"loss": 0.43885859847068787, "grad_norm": 7.407647806021225, "learning_rate": 1.3766059272143637e-08, "token_acc": 0.8447564244270325, "epoch": 0.9312977099236641, "step": 183}, {"loss": 0.44787734746932983, "grad_norm": 6.460272598428203, "learning_rate": 1.1877260957459833e-08, "token_acc": 0.8547400832176208, "epoch": 0.9363867684478372, "step": 184}, {"loss": 0.4518064856529236, "grad_norm": 6.9310053806080125, "learning_rate": 1.0126226520086822e-08, "token_acc": 0.8530734777450562, "epoch": 0.9414758269720102, "step": 185}, {"loss": 0.5209862589836121, "grad_norm": 6.767883421032736, "learning_rate": 8.513450158049106e-09, "token_acc": 0.8448415994644165, "epoch": 0.9465648854961832, "step": 186}, {"loss": 0.3923228979110718, "grad_norm": 6.498591495564704, "learning_rate": 7.03938704851248e-09, "token_acc": 0.8665667176246643, "epoch": 0.9516539440203562, "step": 187}, {"loss": 0.47490713000297546, "grad_norm": 6.723397561934564, "learning_rate": 5.704453219318117e-09, "token_acc": 0.8479809761047363, "epoch": 0.9567430025445293, "step": 188}, {"loss": 0.6316651701927185, "grad_norm": 6.47914328663187, "learning_rate": 4.5090254315662824e-09, "token_acc": 0.801150918006897, "epoch": 0.9618320610687023, "step": 189}, {"loss": 0.5491369962692261, "grad_norm": 7.404035910696133, "learning_rate": 3.453441073282548e-09, "token_acc": 0.8261205554008484, "epoch": 0.9669211195928753, "step": 190}, {"loss": 0.6524588465690613, "grad_norm": 7.1169918222728885, "learning_rate": 2.537998064195579e-09, "token_acc": 0.7938342690467834, "epoch": 0.9720101781170484, "step": 191}, {"loss": 0.45887458324432373, "grad_norm": 6.794871377840053, "learning_rate": 1.7629547716550008e-09, "token_acc": 0.8517324924468994, "epoch": 0.9770992366412213, "step": 192}, {"loss": 0.4868624806404114, "grad_norm": 6.450451747589884, "learning_rate": 1.1285299377118972e-09, "token_acc": 0.8433213233947754, "epoch": 0.9821882951653944, "step": 193}, {"loss": 0.47770100831985474, "grad_norm": 6.848316700094573, "learning_rate": 6.349026173824712e-10, "token_acc": 0.8416398763656616, "epoch": 0.9872773536895675, "step": 194}, {"loss": 0.43710124492645264, "grad_norm": 6.317953268328354, "learning_rate": 2.8221212811324613e-10, "token_acc": 0.8562543392181396, "epoch": 0.9923664122137404, "step": 195}, {"loss": 0.46438512206077576, "grad_norm": 6.419967480198675, "learning_rate": 7.05580104611303e-11, "token_acc": 0.8528481125831604, "epoch": 0.9974554707379135, "step": 196}, {"loss": 0.5435823202133179, "grad_norm": 9.590497005590018, "learning_rate": 0.0, "token_acc": 0.8232628107070923, "epoch": 1.0, "step": 197}, {"eval_loss": 0.3275679349899292, "eval_runtime": 3.5597, "eval_samples_per_second": 0.843, "eval_steps_per_second": 0.281, "eval_token_acc": 0.9145161509513855, "epoch": 1.0, "step": 197}, {"eval_loss": 0.3275679349899292, "eval_runtime": 2.8528, "eval_samples_per_second": 1.052, "eval_steps_per_second": 0.351, "eval_token_acc": 0.9145161509513855, "epoch": 1.0, "step": 197}, {"train_runtime": 1261.0874, "train_samples_per_second": 2.496, "train_steps_per_second": 0.156, "total_flos": 18220985847808.0, "train_loss": 0.5864294044257421, "epoch": 1.0, "step": 197}], "memory": 26.109375}