{"lm loss": 5.19616127, "grad_norm": 26.19525909, "learning_rate": 1.6e-07, "elapsed_time_per_iteration": 45.23013473, "memory(GiB)": 27.88, "elapsed_time": "45s", "remaining_time": "6d 15h 32m 57s", "loss_scale": 1.0, "consumed_samples": 256, "global_step/max_steps": "1/12700"}
{"lm loss": 5.24257565, "grad_norm": 26.22320557, "learning_rate": 3.1e-07, "elapsed_time_per_iteration": 4.83327866, "memory(GiB)": 28.78, "elapsed_time": "50s", "remaining_time": "3d 16h 17m 32s", "loss_scale": 1.0, "consumed_samples": 512, "global_step/max_steps": "2/12700"}
{"lm loss": 5.18239927, "grad_norm": 26.18936729, "learning_rate": 4.7e-07, "elapsed_time_per_iteration": 5.03475666, "memory(GiB)": 28.78, "elapsed_time": "55s", "remaining_time": "2d 16h 46m 33s", "loss_scale": 1.0, "consumed_samples": 768, "global_step/max_steps": "3/12700"}
{"lm loss": 5.27391005, "grad_norm": 26.53065491, "learning_rate": 6.3e-07, "elapsed_time_per_iteration": 4.91794205, "memory(GiB)": 28.82, "elapsed_time": "1m 0s", "remaining_time": "2d 4h 54m 51s", "loss_scale": 1.0, "consumed_samples": 1024, "global_step/max_steps": "4/12700"}
{"lm loss": 5.22421265, "grad_norm": 26.49812317, "learning_rate": 7.9e-07, "elapsed_time_per_iteration": 4.87399626, "memory(GiB)": 28.84, "elapsed_time": "1m 4s", "remaining_time": "1d 21h 45m 55s", "loss_scale": 1.0, "consumed_samples": 1280, "global_step/max_steps": "5/12700"}
{"lm loss": 5.21720362, "grad_norm": 26.0544281, "learning_rate": 9.4e-07, "elapsed_time_per_iteration": 4.94187903, "memory(GiB)": 28.84, "elapsed_time": "1m 9s", "remaining_time": "1d 17h 2m 21s", "loss_scale": 1.0, "consumed_samples": 1536, "global_step/max_steps": "6/12700"}
{"lm loss": 5.19490099, "grad_norm": 26.11116409, "learning_rate": 1.1e-06, "elapsed_time_per_iteration": 4.85266948, "memory(GiB)": 28.9, "elapsed_time": "1m 14s", "remaining_time": "1d 13h 37m 4s", "loss_scale": 1.0, "consumed_samples": 1792, "global_step/max_steps": "7/12700"}
{"lm loss": 5.20434713, "grad_norm": 25.84018707, "learning_rate": 1.26e-06, "elapsed_time_per_iteration": 4.86673188, "memory(GiB)": 28.9, "elapsed_time": "1m 19s", "remaining_time": "1d 11h 3m 28s", "loss_scale": 1.0, "consumed_samples": 2048, "global_step/max_steps": "8/12700"}
{"lm loss": 5.20026445, "grad_norm": 24.50351143, "learning_rate": 1.42e-06, "elapsed_time_per_iteration": 4.84348702, "memory(GiB)": 28.9, "elapsed_time": "1m 24s", "remaining_time": "1d 9h 3m 26s", "loss_scale": 1.0, "consumed_samples": 2304, "global_step/max_steps": "9/12700"}
{"lm loss": 5.16860819, "grad_norm": 24.56849289, "learning_rate": 1.57e-06, "elapsed_time_per_iteration": 4.94718409, "memory(GiB)": 28.9, "elapsed_time": "1m 29s", "remaining_time": "1d 7h 29m 35s", "loss_scale": 1.0, "consumed_samples": 2560, "global_step/max_steps": "10/12700"}
{"lm loss": 5.12539577, "grad_norm": 23.77490807, "learning_rate": 1.73e-06, "elapsed_time_per_iteration": 4.85021639, "memory(GiB)": 28.9, "elapsed_time": "1m 34s", "remaining_time": "1d 6h 10m 55s", "loss_scale": 1.0, "consumed_samples": 2816, "global_step/max_steps": "11/12700"}
{"lm loss": 5.08391619, "grad_norm": 20.57336426, "learning_rate": 1.89e-06, "elapsed_time_per_iteration": 4.83086586, "memory(GiB)": 28.9, "elapsed_time": "1m 39s", "remaining_time": "1d 5h 5m 0s", "loss_scale": 1.0, "consumed_samples": 3072, "global_step/max_steps": "12/12700"}
{"lm loss": 4.95792198, "grad_norm": 20.41812325, "learning_rate": 2.05e-06, "elapsed_time_per_iteration": 4.8928349, "memory(GiB)": 28.9, "elapsed_time": "1m 43s", "remaining_time": "1d 4h 10m 14s", "loss_scale": 1.0, "consumed_samples": 3328, "global_step/max_steps": "13/12700"}
{"lm loss": 4.96211433, "grad_norm": 19.20665741, "learning_rate": 2.2e-06, "elapsed_time_per_iteration": 4.85138535, "memory(GiB)": 28.9, "elapsed_time": "1m 48s", "remaining_time": "1d 3h 22m 38s", "loss_scale": 1.0, "consumed_samples": 3584, "global_step/max_steps": "14/12700"}
{"lm loss": 4.9779563, "grad_norm": 19.01006699, "learning_rate": 2.36e-06, "elapsed_time_per_iteration": 4.87382174, "memory(GiB)": 28.9, "elapsed_time": "1m 53s", "remaining_time": "1d 2h 41m 42s", "loss_scale": 1.0, "consumed_samples": 3840, "global_step/max_steps": "15/12700"}
{"lm loss": 4.70719051, "grad_norm": 15.40044975, "learning_rate": 2.52e-06, "elapsed_time_per_iteration": 4.8865664, "memory(GiB)": 28.9, "elapsed_time": "1m 58s", "remaining_time": "1d 2h 6m 2s", "loss_scale": 1.0, "consumed_samples": 4096, "global_step/max_steps": "16/12700"}
{"lm loss": 4.6570015, "grad_norm": 15.28426552, "learning_rate": 2.68e-06, "elapsed_time_per_iteration": 4.84607697, "memory(GiB)": 28.9, "elapsed_time": "2m 3s", "remaining_time": "1d 1h 34m 4s", "loss_scale": 1.0, "consumed_samples": 4352, "global_step/max_steps": "17/12700"}
{"lm loss": 4.66454268, "grad_norm": 15.25510502, "learning_rate": 2.83e-06, "elapsed_time_per_iteration": 4.78034043, "memory(GiB)": 28.9, "elapsed_time": "2m 8s", "remaining_time": "1d 1h 4m 51s", "loss_scale": 1.0, "consumed_samples": 4608, "global_step/max_steps": "18/12700"}
{"lm loss": 4.63700819, "grad_norm": 15.04744434, "learning_rate": 2.99e-06, "elapsed_time_per_iteration": 4.81909394, "memory(GiB)": 28.9, "elapsed_time": "2m 12s", "remaining_time": "1d 0h 39m 9s", "loss_scale": 1.0, "consumed_samples": 4864, "global_step/max_steps": "19/12700"}
{"lm loss": 4.60560369, "grad_norm": 14.78873825, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.85568976, "memory(GiB)": 28.9, "elapsed_time": "2m 17s", "remaining_time": "1d 0h 16m 23s", "loss_scale": 1.0, "consumed_samples": 5120, "global_step/max_steps": "20/12700"}
{"lm loss": 4.56476212, "grad_norm": 14.75919437, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 4.81830215, "memory(GiB)": 28.9, "elapsed_time": "2m 22s", "remaining_time": "23h 55m 24s", "loss_scale": 1.0, "consumed_samples": 5376, "global_step/max_steps": "21/12700"}
{"lm loss": 4.23534727, "grad_norm": 11.24695206, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 4.92143941, "memory(GiB)": 28.9, "elapsed_time": "2m 27s", "remaining_time": "23h 37m 19s", "loss_scale": 1.0, "consumed_samples": 5632, "global_step/max_steps": "22/12700"}
{"lm loss": 4.20618153, "grad_norm": 12.3024826, "learning_rate": 3.62e-06, "elapsed_time_per_iteration": 4.91957092, "memory(GiB)": 28.9, "elapsed_time": "2m 32s", "remaining_time": "23h 20m 47s", "loss_scale": 1.0, "consumed_samples": 5888, "global_step/max_steps": "23/12700"}
{"lm loss": 4.17002058, "grad_norm": 10.72078705, "learning_rate": 3.78e-06, "elapsed_time_per_iteration": 4.81336546, "memory(GiB)": 28.9, "elapsed_time": "2m 37s", "remaining_time": "23h 4m 41s", "loss_scale": 1.0, "consumed_samples": 6144, "global_step/max_steps": "24/12700"}
{"lm loss": 4.13422632, "grad_norm": 10.44974041, "learning_rate": 3.94e-06, "elapsed_time_per_iteration": 4.98258471, "memory(GiB)": 28.94, "elapsed_time": "2m 42s", "remaining_time": "22h 51m 18s", "loss_scale": 1.0, "consumed_samples": 6400, "global_step/max_steps": "25/12700"}
{"lm loss": 4.06996346, "grad_norm": 9.4848423, "learning_rate": 4.09e-06, "elapsed_time_per_iteration": 4.83116698, "memory(GiB)": 28.94, "elapsed_time": "2m 47s", "remaining_time": "22h 37m 42s", "loss_scale": 1.0, "consumed_samples": 6656, "global_step/max_steps": "26/12700"}
{"lm loss": 4.02708864, "grad_norm": 8.89376545, "learning_rate": 4.25e-06, "elapsed_time_per_iteration": 4.75523472, "memory(GiB)": 28.94, "elapsed_time": "2m 51s", "remaining_time": "22h 24m 30s", "loss_scale": 1.0, "consumed_samples": 6912, "global_step/max_steps": "27/12700"}
{"lm loss": 3.9391191, "grad_norm": 8.25422192, "learning_rate": 4.41e-06, "elapsed_time_per_iteration": 4.92101359, "memory(GiB)": 28.94, "elapsed_time": "2m 56s", "remaining_time": "22h 13m 30s", "loss_scale": 1.0, "consumed_samples": 7168, "global_step/max_steps": "28/12700"}
{"lm loss": 3.90188861, "grad_norm": 7.50881767, "learning_rate": 4.57e-06, "elapsed_time_per_iteration": 4.89269876, "memory(GiB)": 28.94, "elapsed_time": "3m 1s", "remaining_time": "22h 3m 3s", "loss_scale": 1.0, "consumed_samples": 7424, "global_step/max_steps": "29/12700"}
{"lm loss": 3.71821761, "grad_norm": 6.48809814, "learning_rate": 4.72e-06, "elapsed_time_per_iteration": 4.82046628, "memory(GiB)": 28.94, "elapsed_time": "3m 6s", "remaining_time": "21h 52m 47s", "loss_scale": 1.0, "consumed_samples": 7680, "global_step/max_steps": "30/12700"}
{"lm loss": 3.62818408, "grad_norm": 6.22333908, "learning_rate": 4.88e-06, "elapsed_time_per_iteration": 5.0033071, "memory(GiB)": 28.94, "elapsed_time": "3m 11s", "remaining_time": "21h 44m 25s", "loss_scale": 1.0, "consumed_samples": 7936, "global_step/max_steps": "31/12700"}
{"lm loss": 3.53534031, "grad_norm": 5.89315271, "learning_rate": 5.04e-06, "elapsed_time_per_iteration": 4.99764729, "memory(GiB)": 28.94, "elapsed_time": "3m 16s", "remaining_time": "21h 36m 31s", "loss_scale": 1.0, "consumed_samples": 8192, "global_step/max_steps": "32/12700"}
{"lm loss": 3.54130483, "grad_norm": 5.28159332, "learning_rate": 5.2e-06, "elapsed_time_per_iteration": 4.93941808, "memory(GiB)": 28.94, "elapsed_time": "3m 21s", "remaining_time": "21h 28m 44s", "loss_scale": 1.0, "consumed_samples": 8448, "global_step/max_steps": "33/12700"}
{"lm loss": 3.51431966, "grad_norm": 4.72132635, "learning_rate": 5.35e-06, "elapsed_time_per_iteration": 4.92578554, "memory(GiB)": 28.94, "elapsed_time": "3m 26s", "remaining_time": "21h 21m 19s", "loss_scale": 1.0, "consumed_samples": 8704, "global_step/max_steps": "34/12700"}
{"lm loss": 3.46335983, "grad_norm": 4.19689178, "learning_rate": 5.51e-06, "elapsed_time_per_iteration": 4.80470228, "memory(GiB)": 28.94, "elapsed_time": "3m 31s", "remaining_time": "21h 13m 35s", "loss_scale": 1.0, "consumed_samples": 8960, "global_step/max_steps": "35/12700"}
{"lm loss": 3.40430355, "grad_norm": 3.7388196, "learning_rate": 5.67e-06, "elapsed_time_per_iteration": 5.06293464, "memory(GiB)": 28.94, "elapsed_time": "3m 36s", "remaining_time": "21h 7m 47s", "loss_scale": 1.0, "consumed_samples": 9216, "global_step/max_steps": "36/12700"}
{"lm loss": 3.41434479, "grad_norm": 3.54125214, "learning_rate": 5.83e-06, "elapsed_time_per_iteration": 4.96062756, "memory(GiB)": 28.94, "elapsed_time": "3m 41s", "remaining_time": "21h 1m 43s", "loss_scale": 1.0, "consumed_samples": 9472, "global_step/max_steps": "37/12700"}
{"lm loss": 3.30352759, "grad_norm": 3.22590327, "learning_rate": 5.98e-06, "elapsed_time_per_iteration": 4.84880209, "memory(GiB)": 28.94, "elapsed_time": "3m 46s", "remaining_time": "20h 55m 21s", "loss_scale": 1.0, "consumed_samples": 9728, "global_step/max_steps": "38/12700"}
{"lm loss": 3.30725813, "grad_norm": 3.04184604, "learning_rate": 6.14e-06, "elapsed_time_per_iteration": 4.90071392, "memory(GiB)": 28.94, "elapsed_time": "3m 50s", "remaining_time": "20h 49m 35s", "loss_scale": 1.0, "consumed_samples": 9984, "global_step/max_steps": "39/12700"}
{"lm loss": 3.28881168, "grad_norm": 2.83914447, "learning_rate": 6.3e-06, "elapsed_time_per_iteration": 4.79071426, "memory(GiB)": 28.94, "elapsed_time": "3m 55s", "remaining_time": "20h 43m 31s", "loss_scale": 1.0, "consumed_samples": 10240, "global_step/max_steps": "40/12700"}
{"lm loss": 3.17692113, "grad_norm": 2.5727458, "learning_rate": 6.46e-06, "elapsed_time_per_iteration": 4.80436778, "memory(GiB)": 28.94, "elapsed_time": "4m 0s", "remaining_time": "20h 37m 49s", "loss_scale": 1.0, "consumed_samples": 10496, "global_step/max_steps": "41/12700"}
{"lm loss": 3.14547253, "grad_norm": 2.38498306, "learning_rate": 6.61e-06, "elapsed_time_per_iteration": 4.80127215, "memory(GiB)": 28.94, "elapsed_time": "4m 5s", "remaining_time": "20h 32m 22s", "loss_scale": 1.0, "consumed_samples": 10752, "global_step/max_steps": "42/12700"}
{"lm loss": 3.13065863, "grad_norm": 2.32394171, "learning_rate": 6.77e-06, "elapsed_time_per_iteration": 4.8945694, "memory(GiB)": 28.94, "elapsed_time": "4m 10s", "remaining_time": "20h 27m 37s", "loss_scale": 1.0, "consumed_samples": 11008, "global_step/max_steps": "43/12700"}
{"lm loss": 3.11279798, "grad_norm": 2.06805897, "learning_rate": 6.93e-06, "elapsed_time_per_iteration": 4.87156034, "memory(GiB)": 28.94, "elapsed_time": "4m 15s", "remaining_time": "20h 22m 59s", "loss_scale": 1.0, "consumed_samples": 11264, "global_step/max_steps": "44/12700"}
{"lm loss": 3.10415173, "grad_norm": 1.94528604, "learning_rate": 7.09e-06, "elapsed_time_per_iteration": 5.07556486, "memory(GiB)": 28.94, "elapsed_time": "4m 20s", "remaining_time": "20h 19m 30s", "loss_scale": 1.0, "consumed_samples": 11520, "global_step/max_steps": "45/12700"}
{"lm loss": 3.06588793, "grad_norm": 1.82524788, "learning_rate": 7.24e-06, "elapsed_time_per_iteration": 4.90617561, "memory(GiB)": 28.94, "elapsed_time": "4m 25s", "remaining_time": "20h 15m 23s", "loss_scale": 1.0, "consumed_samples": 11776, "global_step/max_steps": "46/12700"}
{"lm loss": 2.98701072, "grad_norm": 1.6769352, "learning_rate": 7.4e-06, "elapsed_time_per_iteration": 4.87301302, "memory(GiB)": 28.94, "elapsed_time": "4m 29s", "remaining_time": "20h 11m 18s", "loss_scale": 1.0, "consumed_samples": 12032, "global_step/max_steps": "47/12700"}
{"lm loss": 2.96989155, "grad_norm": 1.49970925, "learning_rate": 7.56e-06, "elapsed_time_per_iteration": 4.88275146, "memory(GiB)": 28.94, "elapsed_time": "4m 34s", "remaining_time": "20h 7m 25s", "loss_scale": 1.0, "consumed_samples": 12288, "global_step/max_steps": "48/12700"}
{"lm loss": 2.97799253, "grad_norm": 1.408741, "learning_rate": 7.72e-06, "elapsed_time_per_iteration": 4.87648344, "memory(GiB)": 28.94, "elapsed_time": "4m 39s", "remaining_time": "20h 3m 40s", "loss_scale": 1.0, "consumed_samples": 12544, "global_step/max_steps": "49/12700"}
{"lm loss": 2.91040754, "grad_norm": 1.36521745, "learning_rate": 7.87e-06, "elapsed_time_per_iteration": 4.86137581, "memory(GiB)": 28.94, "elapsed_time": "4m 44s", "remaining_time": "20h 0m 0s", "loss_scale": 1.0, "consumed_samples": 12800, "global_step/max_steps": "50/12700"}
{"lm loss": 2.90914607, "grad_norm": 1.24150312, "learning_rate": 8.03e-06, "elapsed_time_per_iteration": 4.94052935, "memory(GiB)": 28.94, "elapsed_time": "4m 49s", "remaining_time": "19h 56m 48s", "loss_scale": 1.0, "consumed_samples": 13056, "global_step/max_steps": "51/12700"}
{"lm loss": 2.87544703, "grad_norm": 1.15691829, "learning_rate": 8.19e-06, "elapsed_time_per_iteration": 4.86955667, "memory(GiB)": 28.94, "elapsed_time": "4m 54s", "remaining_time": "19h 53m 26s", "loss_scale": 1.0, "consumed_samples": 13312, "global_step/max_steps": "52/12700"}
{"lm loss": 2.90067291, "grad_norm": 1.02737391, "learning_rate": 8.35e-06, "elapsed_time_per_iteration": 4.89341378, "memory(GiB)": 28.94, "elapsed_time": "4m 59s", "remaining_time": "19h 50m 17s", "loss_scale": 1.0, "consumed_samples": 13568, "global_step/max_steps": "53/12700"}
{"lm loss": 2.8565712, "grad_norm": 0.99616277, "learning_rate": 8.5e-06, "elapsed_time_per_iteration": 4.9383471, "memory(GiB)": 28.94, "elapsed_time": "5m 4s", "remaining_time": "19h 47m 25s", "loss_scale": 1.0, "consumed_samples": 13824, "global_step/max_steps": "54/12700"}
{"lm loss": 2.86297011, "grad_norm": 0.94486207, "learning_rate": 8.66e-06, "elapsed_time_per_iteration": 4.89684558, "memory(GiB)": 28.94, "elapsed_time": "5m 9s", "remaining_time": "19h 44m 30s", "loss_scale": 1.0, "consumed_samples": 14080, "global_step/max_steps": "55/12700"}
{"lm loss": 2.80125856, "grad_norm": 0.88149488, "learning_rate": 8.82e-06, "elapsed_time_per_iteration": 4.92334986, "memory(GiB)": 28.94, "elapsed_time": "5m 14s", "remaining_time": "19h 41m 47s", "loss_scale": 1.0, "consumed_samples": 14336, "global_step/max_steps": "56/12700"}
{"lm loss": 2.84062839, "grad_norm": 0.86097723, "learning_rate": 8.98e-06, "elapsed_time_per_iteration": 4.8246491, "memory(GiB)": 28.94, "elapsed_time": "5m 18s", "remaining_time": "19h 38m 48s", "loss_scale": 1.0, "consumed_samples": 14592, "global_step/max_steps": "57/12700"}
{"lm loss": 2.81301093, "grad_norm": 0.8235172, "learning_rate": 9.13e-06, "elapsed_time_per_iteration": 4.94544721, "memory(GiB)": 28.94, "elapsed_time": "5m 23s", "remaining_time": "19h 36m 21s", "loss_scale": 1.0, "consumed_samples": 14848, "global_step/max_steps": "58/12700"}
{"lm loss": 2.76662421, "grad_norm": 0.82542396, "learning_rate": 9.29e-06, "elapsed_time_per_iteration": 4.92821169, "memory(GiB)": 28.94, "elapsed_time": "5m 28s", "remaining_time": "19h 33m 55s", "loss_scale": 1.0, "consumed_samples": 15104, "global_step/max_steps": "59/12700"}
{"lm loss": 2.76477861, "grad_norm": 0.76145416, "learning_rate": 9.45e-06, "elapsed_time_per_iteration": 4.80902171, "memory(GiB)": 28.94, "elapsed_time": "5m 33s", "remaining_time": "19h 31m 9s", "loss_scale": 1.0, "consumed_samples": 15360, "global_step/max_steps": "60/12700"}
{"lm loss": 2.7724998, "grad_norm": 0.77251953, "learning_rate": 9.61e-06, "elapsed_time_per_iteration": 4.84233522, "memory(GiB)": 28.94, "elapsed_time": "5m 38s", "remaining_time": "19h 28m 35s", "loss_scale": 1.0, "consumed_samples": 15616, "global_step/max_steps": "61/12700"}
{"lm loss": 2.77362823, "grad_norm": 0.7182337, "learning_rate": 9.76e-06, "elapsed_time_per_iteration": 4.89287925, "memory(GiB)": 28.94, "elapsed_time": "5m 43s", "remaining_time": "19h 26m 16s", "loss_scale": 1.0, "consumed_samples": 15872, "global_step/max_steps": "62/12700"}
{"lm loss": 2.73118138, "grad_norm": 0.67100257, "learning_rate": 9.92e-06, "elapsed_time_per_iteration": 4.89152169, "memory(GiB)": 28.94, "elapsed_time": "5m 48s", "remaining_time": "19h 24m 1s", "loss_scale": 1.0, "consumed_samples": 16128, "global_step/max_steps": "63/12700"}
{"lm loss": 2.74579287, "grad_norm": 0.65948969, "learning_rate": 1.008e-05, "elapsed_time_per_iteration": 4.94784522, "memory(GiB)": 28.94, "elapsed_time": "5m 53s", "remaining_time": "19h 22m 1s", "loss_scale": 1.0, "consumed_samples": 16384, "global_step/max_steps": "64/12700"}
{"lm loss": 2.72096992, "grad_norm": 0.65190762, "learning_rate": 1.024e-05, "elapsed_time_per_iteration": 4.78805375, "memory(GiB)": 28.94, "elapsed_time": "5m 57s", "remaining_time": "19h 19m 33s", "loss_scale": 1.0, "consumed_samples": 16640, "global_step/max_steps": "65/12700"}
{"lm loss": 2.71146345, "grad_norm": 0.64727128, "learning_rate": 1.039e-05, "elapsed_time_per_iteration": 5.08752489, "memory(GiB)": 28.94, "elapsed_time": "6m 3s", "remaining_time": "19h 18m 8s", "loss_scale": 1.0, "consumed_samples": 16896, "global_step/max_steps": "66/12700"}
{"lm loss": 2.7245667, "grad_norm": 0.61971879, "learning_rate": 1.055e-05, "elapsed_time_per_iteration": 4.76582098, "memory(GiB)": 28.94, "elapsed_time": "6m 7s", "remaining_time": "19h 15m 44s", "loss_scale": 1.0, "consumed_samples": 17152, "global_step/max_steps": "67/12700"}
{"lm loss": 2.68708992, "grad_norm": 0.60095692, "learning_rate": 1.071e-05, "elapsed_time_per_iteration": 4.94228339, "memory(GiB)": 28.94, "elapsed_time": "6m 12s", "remaining_time": "19h 13m 57s", "loss_scale": 1.0, "consumed_samples": 17408, "global_step/max_steps": "68/12700"}
{"lm loss": 2.69006515, "grad_norm": 0.58981776, "learning_rate": 1.087e-05, "elapsed_time_per_iteration": 4.88278461, "memory(GiB)": 28.94, "elapsed_time": "6m 17s", "remaining_time": "19h 12m 2s", "loss_scale": 1.0, "consumed_samples": 17664, "global_step/max_steps": "69/12700"}
{"lm loss": 2.67610693, "grad_norm": 0.56919521, "learning_rate": 1.102e-05, "elapsed_time_per_iteration": 4.8530333, "memory(GiB)": 28.94, "elapsed_time": "6m 22s", "remaining_time": "19h 10m 4s", "loss_scale": 1.0, "consumed_samples": 17920, "global_step/max_steps": "70/12700"}
{"lm loss": 2.65987897, "grad_norm": 0.55431801, "learning_rate": 1.118e-05, "elapsed_time_per_iteration": 4.81990528, "memory(GiB)": 28.94, "elapsed_time": "6m 27s", "remaining_time": "19h 8m 4s", "loss_scale": 1.0, "consumed_samples": 18176, "global_step/max_steps": "71/12700"}
{"lm loss": 2.64994192, "grad_norm": 0.55459821, "learning_rate": 1.134e-05, "elapsed_time_per_iteration": 5.02015901, "memory(GiB)": 28.94, "elapsed_time": "6m 32s", "remaining_time": "19h 6m 43s", "loss_scale": 1.0, "consumed_samples": 18432, "global_step/max_steps": "72/12700"}
{"lm loss": 2.64847875, "grad_norm": 0.52054286, "learning_rate": 1.15e-05, "elapsed_time_per_iteration": 5.03999233, "memory(GiB)": 28.94, "elapsed_time": "6m 37s", "remaining_time": "19h 5m 27s", "loss_scale": 1.0, "consumed_samples": 18688, "global_step/max_steps": "73/12700"}
{"lm loss": 2.66424274, "grad_norm": 0.55289119, "learning_rate": 1.165e-05, "elapsed_time_per_iteration": 4.80823112, "memory(GiB)": 28.94, "elapsed_time": "6m 42s", "remaining_time": "19h 3m 33s", "loss_scale": 1.0, "consumed_samples": 18944, "global_step/max_steps": "74/12700"}
{"lm loss": 2.65754008, "grad_norm": 0.53095698, "learning_rate": 1.181e-05, "elapsed_time_per_iteration": 4.88060451, "memory(GiB)": 28.94, "elapsed_time": "6m 47s", "remaining_time": "19h 1m 54s", "loss_scale": 1.0, "consumed_samples": 19200, "global_step/max_steps": "75/12700"}
{"lm loss": 2.65580654, "grad_norm": 0.51562184, "learning_rate": 1.197e-05, "elapsed_time_per_iteration": 4.81957507, "memory(GiB)": 28.94, "elapsed_time": "6m 51s", "remaining_time": "19h 0m 8s", "loss_scale": 1.0, "consumed_samples": 19456, "global_step/max_steps": "76/12700"}
{"lm loss": 2.60084748, "grad_norm": 0.52347332, "learning_rate": 1.213e-05, "elapsed_time_per_iteration": 4.92763829, "memory(GiB)": 28.94, "elapsed_time": "6m 56s", "remaining_time": "18h 58m 42s", "loss_scale": 1.0, "consumed_samples": 19712, "global_step/max_steps": "77/12700"}
{"lm loss": 2.62585878, "grad_norm": 0.50275683, "learning_rate": 1.228e-05, "elapsed_time_per_iteration": 4.92676973, "memory(GiB)": 28.94, "elapsed_time": "7m 1s", "remaining_time": "18h 57m 18s", "loss_scale": 1.0, "consumed_samples": 19968, "global_step/max_steps": "78/12700"}
{"lm loss": 2.65551376, "grad_norm": 0.48813939, "learning_rate": 1.244e-05, "elapsed_time_per_iteration": 4.98576784, "memory(GiB)": 28.94, "elapsed_time": "7m 6s", "remaining_time": "18h 56m 5s", "loss_scale": 1.0, "consumed_samples": 20224, "global_step/max_steps": "79/12700"}
{"lm loss": 2.62734866, "grad_norm": 0.49968627, "learning_rate": 1.26e-05, "elapsed_time_per_iteration": 4.84722257, "memory(GiB)": 28.94, "elapsed_time": "7m 11s", "remaining_time": "18h 54m 33s", "loss_scale": 1.0, "consumed_samples": 20480, "global_step/max_steps": "80/12700"}
{"lm loss": 2.62294674, "grad_norm": 0.48087537, "learning_rate": 1.276e-05, "elapsed_time_per_iteration": 5.03689456, "memory(GiB)": 28.94, "elapsed_time": "7m 16s", "remaining_time": "18h 53m 32s", "loss_scale": 1.0, "consumed_samples": 20736, "global_step/max_steps": "81/12700"}
{"lm loss": 2.60919714, "grad_norm": 0.49901521, "learning_rate": 1.291e-05, "elapsed_time_per_iteration": 4.96115947, "memory(GiB)": 28.94, "elapsed_time": "7m 21s", "remaining_time": "18h 52m 20s", "loss_scale": 1.0, "consumed_samples": 20992, "global_step/max_steps": "82/12700"}
{"lm loss": 2.59155536, "grad_norm": 0.50048018, "learning_rate": 1.307e-05, "elapsed_time_per_iteration": 4.89615035, "memory(GiB)": 28.94, "elapsed_time": "7m 26s", "remaining_time": "18h 51m 1s", "loss_scale": 1.0, "consumed_samples": 21248, "global_step/max_steps": "83/12700"}
{"lm loss": 2.6369381, "grad_norm": 0.51027328, "learning_rate": 1.323e-05, "elapsed_time_per_iteration": 4.81388235, "memory(GiB)": 28.94, "elapsed_time": "7m 31s", "remaining_time": "18h 49m 31s", "loss_scale": 1.0, "consumed_samples": 21504, "global_step/max_steps": "84/12700"}
{"lm loss": 2.59259653, "grad_norm": 0.48933446, "learning_rate": 1.339e-05, "elapsed_time_per_iteration": 4.8697331, "memory(GiB)": 28.94, "elapsed_time": "7m 36s", "remaining_time": "18h 48m 11s", "loss_scale": 1.0, "consumed_samples": 21760, "global_step/max_steps": "85/12700"}
{"lm loss": 2.59479785, "grad_norm": 0.52452087, "learning_rate": 1.354e-05, "elapsed_time_per_iteration": 4.78875017, "memory(GiB)": 28.94, "elapsed_time": "7m 40s", "remaining_time": "18h 46m 41s", "loss_scale": 1.0, "consumed_samples": 22016, "global_step/max_steps": "86/12700"}
{"lm loss": 2.61698389, "grad_norm": 0.48736793, "learning_rate": 1.37e-05, "elapsed_time_per_iteration": 4.78233933, "memory(GiB)": 28.94, "elapsed_time": "7m 45s", "remaining_time": "18h 45m 12s", "loss_scale": 1.0, "consumed_samples": 22272, "global_step/max_steps": "87/12700"}
{"lm loss": 2.61445117, "grad_norm": 0.49034017, "learning_rate": 1.386e-05, "elapsed_time_per_iteration": 4.85186696, "memory(GiB)": 28.94, "elapsed_time": "7m 50s", "remaining_time": "18h 43m 55s", "loss_scale": 1.0, "consumed_samples": 22528, "global_step/max_steps": "88/12700"}
{"lm loss": 2.60557413, "grad_norm": 0.52602494, "learning_rate": 1.402e-05, "elapsed_time_per_iteration": 4.84893322, "memory(GiB)": 28.94, "elapsed_time": "7m 55s", "remaining_time": "18h 42m 39s", "loss_scale": 1.0, "consumed_samples": 22784, "global_step/max_steps": "89/12700"}
{"lm loss": 2.58358765, "grad_norm": 0.49475548, "learning_rate": 1.417e-05, "elapsed_time_per_iteration": 4.87488961, "memory(GiB)": 28.94, "elapsed_time": "8m 0s", "remaining_time": "18h 41m 28s", "loss_scale": 1.0, "consumed_samples": 23040, "global_step/max_steps": "90/12700"}
{"lm loss": 2.60914922, "grad_norm": 0.49935845, "learning_rate": 1.433e-05, "elapsed_time_per_iteration": 4.82965469, "memory(GiB)": 28.94, "elapsed_time": "8m 5s", "remaining_time": "18h 40m 12s", "loss_scale": 1.0, "consumed_samples": 23296, "global_step/max_steps": "91/12700"}
{"lm loss": 2.60490346, "grad_norm": 0.46082097, "learning_rate": 1.449e-05, "elapsed_time_per_iteration": 4.90182304, "memory(GiB)": 28.94, "elapsed_time": "8m 9s", "remaining_time": "18h 39m 8s", "loss_scale": 1.0, "consumed_samples": 23552, "global_step/max_steps": "92/12700"}
{"lm loss": 2.5784781, "grad_norm": 0.53864634, "learning_rate": 1.465e-05, "elapsed_time_per_iteration": 4.87003565, "memory(GiB)": 28.94, "elapsed_time": "8m 14s", "remaining_time": "18h 38m 1s", "loss_scale": 1.0, "consumed_samples": 23808, "global_step/max_steps": "93/12700"}
{"lm loss": 2.56999564, "grad_norm": 0.48262033, "learning_rate": 1.48e-05, "elapsed_time_per_iteration": 4.86716747, "memory(GiB)": 28.94, "elapsed_time": "8m 19s", "remaining_time": "18h 36m 55s", "loss_scale": 1.0, "consumed_samples": 24064, "global_step/max_steps": "94/12700"}
{"lm loss": 2.58655453, "grad_norm": 0.48368943, "learning_rate": 1.496e-05, "elapsed_time_per_iteration": 4.88423085, "memory(GiB)": 28.94, "elapsed_time": "8m 24s", "remaining_time": "18h 35m 52s", "loss_scale": 1.0, "consumed_samples": 24320, "global_step/max_steps": "95/12700"}
{"lm loss": 2.58880019, "grad_norm": 0.51666182, "learning_rate": 1.512e-05, "elapsed_time_per_iteration": 4.8336916, "memory(GiB)": 28.94, "elapsed_time": "8m 29s", "remaining_time": "18h 34m 44s", "loss_scale": 1.0, "consumed_samples": 24576, "global_step/max_steps": "96/12700"}
{"lm loss": 2.55882788, "grad_norm": 0.53497505, "learning_rate": 1.528e-05, "elapsed_time_per_iteration": 4.92425466, "memory(GiB)": 28.94, "elapsed_time": "8m 34s", "remaining_time": "18h 33m 49s", "loss_scale": 1.0, "consumed_samples": 24832, "global_step/max_steps": "97/12700"}
{"lm loss": 2.57013249, "grad_norm": 0.43939331, "learning_rate": 1.543e-05, "elapsed_time_per_iteration": 4.9084065, "memory(GiB)": 28.94, "elapsed_time": "8m 39s", "remaining_time": "18h 32m 53s", "loss_scale": 1.0, "consumed_samples": 25088, "global_step/max_steps": "98/12700"}
{"lm loss": 2.56411123, "grad_norm": 0.51699185, "learning_rate": 1.559e-05, "elapsed_time_per_iteration": 4.94009662, "memory(GiB)": 28.94, "elapsed_time": "8m 44s", "remaining_time": "18h 32m 2s", "loss_scale": 1.0, "consumed_samples": 25344, "global_step/max_steps": "99/12700"}
{"lm loss": 2.57513046, "grad_norm": 0.42665392, "learning_rate": 1.575e-05, "elapsed_time_per_iteration": 4.88306689, "memory(GiB)": 28.94, "elapsed_time": "8m 49s", "remaining_time": "18h 31m 5s", "loss_scale": 1.0, "consumed_samples": 25600, "global_step/max_steps": "100/12700"}
{"lm loss": 2.58773494, "grad_norm": 0.49152529, "learning_rate": 1.591e-05, "elapsed_time_per_iteration": 4.81579041, "memory(GiB)": 28.94, "elapsed_time": "8m 53s", "remaining_time": "18h 30m 1s", "loss_scale": 1.0, "consumed_samples": 25856, "global_step/max_steps": "101/12700"}
{"lm loss": 2.48096991, "grad_norm": 0.45763144, "learning_rate": 1.606e-05, "elapsed_time_per_iteration": 4.94537735, "memory(GiB)": 28.94, "elapsed_time": "8m 58s", "remaining_time": "18h 29m 13s", "loss_scale": 1.0, "consumed_samples": 26112, "global_step/max_steps": "102/12700"}
{"lm loss": 2.57628202, "grad_norm": 0.46960667, "learning_rate": 1.622e-05, "elapsed_time_per_iteration": 4.8407588, "memory(GiB)": 28.94, "elapsed_time": "9m 3s", "remaining_time": "18h 28m 14s", "loss_scale": 1.0, "consumed_samples": 26368, "global_step/max_steps": "103/12700"}
{"lm loss": 2.52126527, "grad_norm": 0.47234645, "learning_rate": 1.638e-05, "elapsed_time_per_iteration": 4.85322833, "memory(GiB)": 28.94, "elapsed_time": "9m 8s", "remaining_time": "18h 27m 17s", "loss_scale": 1.0, "consumed_samples": 26624, "global_step/max_steps": "104/12700"}
{"lm loss": 2.5438776, "grad_norm": 0.49206856, "learning_rate": 1.654e-05, "elapsed_time_per_iteration": 4.80610847, "memory(GiB)": 28.94, "elapsed_time": "9m 13s", "remaining_time": "18h 26m 16s", "loss_scale": 1.0, "consumed_samples": 26880, "global_step/max_steps": "105/12700"}
{"lm loss": 2.51331925, "grad_norm": 0.46517044, "learning_rate": 1.669e-05, "elapsed_time_per_iteration": 4.80436516, "memory(GiB)": 28.94, "elapsed_time": "9m 18s", "remaining_time": "18h 25m 15s", "loss_scale": 1.0, "consumed_samples": 27136, "global_step/max_steps": "106/12700"}
{"lm loss": 2.52074742, "grad_norm": 0.47373915, "learning_rate": 1.685e-05, "elapsed_time_per_iteration": 4.85774732, "memory(GiB)": 28.94, "elapsed_time": "9m 23s", "remaining_time": "18h 24m 22s", "loss_scale": 1.0, "consumed_samples": 27392, "global_step/max_steps": "107/12700"}
{"lm loss": 2.51648402, "grad_norm": 0.4608185, "learning_rate": 1.701e-05, "elapsed_time_per_iteration": 4.84178042, "memory(GiB)": 28.94, "elapsed_time": "9m 27s", "remaining_time": "18h 23m 28s", "loss_scale": 1.0, "consumed_samples": 27648, "global_step/max_steps": "108/12700"}
{"lm loss": 2.52166367, "grad_norm": 0.52093428, "learning_rate": 1.717e-05, "elapsed_time_per_iteration": 4.94265389, "memory(GiB)": 28.94, "elapsed_time": "9m 32s", "remaining_time": "18h 22m 46s", "loss_scale": 1.0, "consumed_samples": 27904, "global_step/max_steps": "109/12700"}
{"lm loss": 2.49319625, "grad_norm": 0.49861455, "learning_rate": 1.732e-05, "elapsed_time_per_iteration": 4.98598647, "memory(GiB)": 28.94, "elapsed_time": "9m 37s", "remaining_time": "18h 22m 10s", "loss_scale": 1.0, "consumed_samples": 28160, "global_step/max_steps": "110/12700"}
{"lm loss": 2.51388645, "grad_norm": 0.50083107, "learning_rate": 1.748e-05, "elapsed_time_per_iteration": 4.85486436, "memory(GiB)": 28.94, "elapsed_time": "9m 42s", "remaining_time": "18h 21m 19s", "loss_scale": 1.0, "consumed_samples": 28416, "global_step/max_steps": "111/12700"}
{"lm loss": 2.53923988, "grad_norm": 0.51534653, "learning_rate": 1.764e-05, "elapsed_time_per_iteration": 4.91591668, "memory(GiB)": 28.94, "elapsed_time": "9m 47s", "remaining_time": "18h 20m 37s", "loss_scale": 1.0, "consumed_samples": 28672, "global_step/max_steps": "112/12700"}
{"lm loss": 2.54203367, "grad_norm": 0.5245977, "learning_rate": 1.78e-05, "elapsed_time_per_iteration": 4.93971395, "memory(GiB)": 28.94, "elapsed_time": "9m 52s", "remaining_time": "18h 19m 57s", "loss_scale": 1.0, "consumed_samples": 28928, "global_step/max_steps": "113/12700"}
{"lm loss": 2.54795265, "grad_norm": 0.49032462, "learning_rate": 1.795e-05, "elapsed_time_per_iteration": 4.84861708, "memory(GiB)": 28.94, "elapsed_time": "9m 57s", "remaining_time": "18h 19m 9s", "loss_scale": 1.0, "consumed_samples": 29184, "global_step/max_steps": "114/12700"}
{"lm loss": 2.51103187, "grad_norm": 0.53493953, "learning_rate": 1.811e-05, "elapsed_time_per_iteration": 4.94618392, "memory(GiB)": 28.94, "elapsed_time": "10m 2s", "remaining_time": "18h 18m 31s", "loss_scale": 1.0, "consumed_samples": 29440, "global_step/max_steps": "115/12700"}
{"lm loss": 2.53320098, "grad_norm": 0.51008451, "learning_rate": 1.827e-05, "elapsed_time_per_iteration": 4.78255749, "memory(GiB)": 28.94, "elapsed_time": "10m 7s", "remaining_time": "18h 17m 37s", "loss_scale": 1.0, "consumed_samples": 29696, "global_step/max_steps": "116/12700"}
{"lm loss": 2.50659227, "grad_norm": 0.55899304, "learning_rate": 1.843e-05, "elapsed_time_per_iteration": 5.07553816, "memory(GiB)": 28.94, "elapsed_time": "10m 12s", "remaining_time": "18h 17m 14s", "loss_scale": 1.0, "consumed_samples": 29952, "global_step/max_steps": "117/12700"}
{"lm loss": 2.54044843, "grad_norm": 0.50216895, "learning_rate": 1.858e-05, "elapsed_time_per_iteration": 4.84682322, "memory(GiB)": 28.94, "elapsed_time": "10m 16s", "remaining_time": "18h 16m 28s", "loss_scale": 1.0, "consumed_samples": 30208, "global_step/max_steps": "118/12700"}
{"lm loss": 2.53764987, "grad_norm": 0.57869136, "learning_rate": 1.874e-05, "elapsed_time_per_iteration": 4.86476135, "memory(GiB)": 28.94, "elapsed_time": "10m 21s", "remaining_time": "18h 15m 44s", "loss_scale": 1.0, "consumed_samples": 30464, "global_step/max_steps": "119/12700"}
{"lm loss": 2.50892401, "grad_norm": 0.47920185, "learning_rate": 1.89e-05, "elapsed_time_per_iteration": 4.86656308, "memory(GiB)": 28.94, "elapsed_time": "10m 26s", "remaining_time": "18h 15m 2s", "loss_scale": 1.0, "consumed_samples": 30720, "global_step/max_steps": "120/12700"}
{"lm loss": 2.52442598, "grad_norm": 0.51276493, "learning_rate": 1.906e-05, "elapsed_time_per_iteration": 4.85823631, "memory(GiB)": 28.94, "elapsed_time": "10m 31s", "remaining_time": "18h 14m 18s", "loss_scale": 1.0, "consumed_samples": 30976, "global_step/max_steps": "121/12700"}
{"lm loss": 2.50014663, "grad_norm": 0.58114445, "learning_rate": 1.921e-05, "elapsed_time_per_iteration": 4.84049726, "memory(GiB)": 28.94, "elapsed_time": "10m 36s", "remaining_time": "18h 13m 34s", "loss_scale": 1.0, "consumed_samples": 31232, "global_step/max_steps": "122/12700"}
{"lm loss": 2.51904011, "grad_norm": 0.54123127, "learning_rate": 1.937e-05, "elapsed_time_per_iteration": 4.86352897, "memory(GiB)": 28.94, "elapsed_time": "10m 41s", "remaining_time": "18h 12m 53s", "loss_scale": 1.0, "consumed_samples": 31488, "global_step/max_steps": "123/12700"}
{"lm loss": 2.48992991, "grad_norm": 0.58070546, "learning_rate": 1.953e-05, "elapsed_time_per_iteration": 4.88069868, "memory(GiB)": 28.94, "elapsed_time": "10m 46s", "remaining_time": "18h 12m 14s", "loss_scale": 1.0, "consumed_samples": 31744, "global_step/max_steps": "124/12700"}
{"lm loss": 2.50399303, "grad_norm": 0.56030607, "learning_rate": 1.969e-05, "elapsed_time_per_iteration": 4.8674171, "memory(GiB)": 28.94, "elapsed_time": "10m 51s", "remaining_time": "18h 11m 34s", "loss_scale": 1.0, "consumed_samples": 32000, "global_step/max_steps": "125/12700"}
{"lm loss": 2.48116899, "grad_norm": 0.55188566, "learning_rate": 1.984e-05, "elapsed_time_per_iteration": 4.92431951, "memory(GiB)": 28.94, "elapsed_time": "10m 55s", "remaining_time": "18h 11m 0s", "loss_scale": 1.0, "consumed_samples": 32256, "global_step/max_steps": "126/12700"}
{"lm loss": 2.52251315, "grad_norm": 0.51789373, "learning_rate": 2e-05, "elapsed_time_per_iteration": 4.91892266, "memory(GiB)": 28.94, "elapsed_time": "11m 0s", "remaining_time": "18h 10m 27s", "loss_scale": 1.0, "consumed_samples": 32512, "global_step/max_steps": "127/12700"}
{"lm loss": 2.51275826, "grad_norm": 0.549393, "learning_rate": 2.016e-05, "elapsed_time_per_iteration": 4.79777265, "memory(GiB)": 28.94, "elapsed_time": "11m 5s", "remaining_time": "18h 9m 42s", "loss_scale": 1.0, "consumed_samples": 32768, "global_step/max_steps": "128/12700"}
{"lm loss": 2.48343801, "grad_norm": 0.51092678, "learning_rate": 2.031e-05, "elapsed_time_per_iteration": 4.96551847, "memory(GiB)": 28.94, "elapsed_time": "11m 10s", "remaining_time": "18h 9m 14s", "loss_scale": 1.0, "consumed_samples": 33024, "global_step/max_steps": "129/12700"}
{"lm loss": 2.49348593, "grad_norm": 0.4977434, "learning_rate": 2.047e-05, "elapsed_time_per_iteration": 4.8691287, "memory(GiB)": 28.94, "elapsed_time": "11m 15s", "remaining_time": "18h 8m 37s", "loss_scale": 1.0, "consumed_samples": 33280, "global_step/max_steps": "130/12700"}
{"lm loss": 2.50356579, "grad_norm": 0.55025923, "learning_rate": 2.063e-05, "elapsed_time_per_iteration": 4.86339283, "memory(GiB)": 28.94, "elapsed_time": "11m 20s", "remaining_time": "18h 7m 59s", "loss_scale": 1.0, "consumed_samples": 33536, "global_step/max_steps": "131/12700"}
{"lm loss": 2.51758718, "grad_norm": 0.55216098, "learning_rate": 2.079e-05, "elapsed_time_per_iteration": 4.84691739, "memory(GiB)": 28.94, "elapsed_time": "11m 25s", "remaining_time": "18h 7m 21s", "loss_scale": 1.0, "consumed_samples": 33792, "global_step/max_steps": "132/12700"}
{"lm loss": 2.45912409, "grad_norm": 0.51102495, "learning_rate": 2.094e-05, "elapsed_time_per_iteration": 5.01607251, "memory(GiB)": 28.94, "elapsed_time": "11m 30s", "remaining_time": "18h 6m 59s", "loss_scale": 1.0, "consumed_samples": 34048, "global_step/max_steps": "133/12700"}
{"lm loss": 2.50494051, "grad_norm": 0.59219712, "learning_rate": 2.11e-05, "elapsed_time_per_iteration": 4.94205093, "memory(GiB)": 28.94, "elapsed_time": "11m 35s", "remaining_time": "18h 6m 31s", "loss_scale": 1.0, "consumed_samples": 34304, "global_step/max_steps": "134/12700"}
{"lm loss": 2.48888111, "grad_norm": 0.54183728, "learning_rate": 2.126e-05, "elapsed_time_per_iteration": 4.95022774, "memory(GiB)": 28.94, "elapsed_time": "11m 40s", "remaining_time": "18h 6m 4s", "loss_scale": 1.0, "consumed_samples": 34560, "global_step/max_steps": "135/12700"}
{"lm loss": 2.48203182, "grad_norm": 0.54661745, "learning_rate": 2.142e-05, "elapsed_time_per_iteration": 4.79848003, "memory(GiB)": 28.94, "elapsed_time": "11m 44s", "remaining_time": "18h 5m 23s", "loss_scale": 1.0, "consumed_samples": 34816, "global_step/max_steps": "136/12700"}
{"lm loss": 2.52092576, "grad_norm": 0.55428666, "learning_rate": 2.157e-05, "elapsed_time_per_iteration": 4.77252078, "memory(GiB)": 28.94, "elapsed_time": "11m 49s", "remaining_time": "18h 4m 40s", "loss_scale": 1.0, "consumed_samples": 35072, "global_step/max_steps": "137/12700"}
{"lm loss": 2.49276185, "grad_norm": 0.51685667, "learning_rate": 2.173e-05, "elapsed_time_per_iteration": 4.95086312, "memory(GiB)": 28.94, "elapsed_time": "11m 54s", "remaining_time": "18h 4m 14s", "loss_scale": 1.0, "consumed_samples": 35328, "global_step/max_steps": "138/12700"}
{"lm loss": 2.47240615, "grad_norm": 0.52864134, "learning_rate": 2.189e-05, "elapsed_time_per_iteration": 4.92638707, "memory(GiB)": 28.94, "elapsed_time": "11m 59s", "remaining_time": "18h 3m 46s", "loss_scale": 1.0, "consumed_samples": 35584, "global_step/max_steps": "139/12700"}
{"lm loss": 2.46741462, "grad_norm": 0.559295, "learning_rate": 2.205e-05, "elapsed_time_per_iteration": 4.85197926, "memory(GiB)": 28.94, "elapsed_time": "12m 4s", "remaining_time": "18h 3m 12s", "loss_scale": 1.0, "consumed_samples": 35840, "global_step/max_steps": "140/12700"}
{"lm loss": 2.48293877, "grad_norm": 0.53565657, "learning_rate": 2.22e-05, "elapsed_time_per_iteration": 4.79898834, "memory(GiB)": 28.94, "elapsed_time": "12m 9s", "remaining_time": "18h 2m 33s", "loss_scale": 1.0, "consumed_samples": 36096, "global_step/max_steps": "141/12700"}
{"lm loss": 2.47745395, "grad_norm": 0.49710906, "learning_rate": 2.236e-05, "elapsed_time_per_iteration": 4.86957192, "memory(GiB)": 28.94, "elapsed_time": "12m 14s", "remaining_time": "18h 2m 1s", "loss_scale": 1.0, "consumed_samples": 36352, "global_step/max_steps": "142/12700"}
{"lm loss": 2.50543261, "grad_norm": 0.52521992, "learning_rate": 2.252e-05, "elapsed_time_per_iteration": 4.81345391, "memory(GiB)": 28.94, "elapsed_time": "12m 18s", "remaining_time": "18h 1m 25s", "loss_scale": 1.0, "consumed_samples": 36608, "global_step/max_steps": "143/12700"}
{"lm loss": 2.52495265, "grad_norm": 0.56845856, "learning_rate": 2.268e-05, "elapsed_time_per_iteration": 4.8287766, "memory(GiB)": 28.94, "elapsed_time": "12m 23s", "remaining_time": "18h 0m 50s", "loss_scale": 1.0, "consumed_samples": 36864, "global_step/max_steps": "144/12700"}
{"lm loss": 2.47898746, "grad_norm": 0.52946371, "learning_rate": 2.283e-05, "elapsed_time_per_iteration": 4.78605556, "memory(GiB)": 28.94, "elapsed_time": "12m 28s", "remaining_time": "18h 0m 12s", "loss_scale": 1.0, "consumed_samples": 37120, "global_step/max_steps": "145/12700"}
{"lm loss": 2.45788336, "grad_norm": 0.58292162, "learning_rate": 2.299e-05, "elapsed_time_per_iteration": 4.86015201, "memory(GiB)": 28.94, "elapsed_time": "12m 33s", "remaining_time": "17h 59m 41s", "loss_scale": 1.0, "consumed_samples": 37376, "global_step/max_steps": "146/12700"}
{"lm loss": 2.45417953, "grad_norm": 0.56117034, "learning_rate": 2.315e-05, "elapsed_time_per_iteration": 4.86808562, "memory(GiB)": 28.94, "elapsed_time": "12m 38s", "remaining_time": "17h 59m 11s", "loss_scale": 1.0, "consumed_samples": 37632, "global_step/max_steps": "147/12700"}
{"lm loss": 2.45432878, "grad_norm": 0.60164398, "learning_rate": 2.331e-05, "elapsed_time_per_iteration": 4.82501221, "memory(GiB)": 28.94, "elapsed_time": "12m 43s", "remaining_time": "17h 58m 37s", "loss_scale": 1.0, "consumed_samples": 37888, "global_step/max_steps": "148/12700"}
{"lm loss": 2.49266124, "grad_norm": 0.51082724, "learning_rate": 2.346e-05, "elapsed_time_per_iteration": 4.80124331, "memory(GiB)": 28.94, "elapsed_time": "12m 47s", "remaining_time": "17h 58m 2s", "loss_scale": 1.0, "consumed_samples": 38144, "global_step/max_steps": "149/12700"}
{"lm loss": 2.46753955, "grad_norm": 0.56530708, "learning_rate": 2.362e-05, "elapsed_time_per_iteration": 4.83178687, "memory(GiB)": 28.94, "elapsed_time": "12m 52s", "remaining_time": "17h 57m 30s", "loss_scale": 1.0, "consumed_samples": 38400, "global_step/max_steps": "150/12700"}
{"lm loss": 2.45343995, "grad_norm": 0.53800046, "learning_rate": 2.378e-05, "elapsed_time_per_iteration": 4.83818483, "memory(GiB)": 28.94, "elapsed_time": "12m 57s", "remaining_time": "17h 56m 59s", "loss_scale": 1.0, "consumed_samples": 38656, "global_step/max_steps": "151/12700"}
{"lm loss": 2.44382, "grad_norm": 0.57313442, "learning_rate": 2.394e-05, "elapsed_time_per_iteration": 4.89593339, "memory(GiB)": 28.94, "elapsed_time": "13m 2s", "remaining_time": "17h 56m 33s", "loss_scale": 1.0, "consumed_samples": 38912, "global_step/max_steps": "152/12700"}
{"lm loss": 2.47347593, "grad_norm": 0.53740573, "learning_rate": 2.409e-05, "elapsed_time_per_iteration": 5.02035236, "memory(GiB)": 28.94, "elapsed_time": "13m 7s", "remaining_time": "17h 56m 17s", "loss_scale": 1.0, "consumed_samples": 39168, "global_step/max_steps": "153/12700"}
{"lm loss": 2.48583817, "grad_norm": 0.58266789, "learning_rate": 2.425e-05, "elapsed_time_per_iteration": 4.93319917, "memory(GiB)": 28.94, "elapsed_time": "13m 12s", "remaining_time": "17h 55m 55s", "loss_scale": 1.0, "consumed_samples": 39424, "global_step/max_steps": "154/12700"}
{"lm loss": 2.43361068, "grad_norm": 0.55023164, "learning_rate": 2.441e-05, "elapsed_time_per_iteration": 5.03525186, "memory(GiB)": 28.94, "elapsed_time": "13m 17s", "remaining_time": "17h 55m 41s", "loss_scale": 1.0, "consumed_samples": 39680, "global_step/max_steps": "155/12700"}
{"lm loss": 2.46371317, "grad_norm": 0.57616389, "learning_rate": 2.457e-05, "elapsed_time_per_iteration": 4.94873762, "memory(GiB)": 28.94, "elapsed_time": "13m 22s", "remaining_time": "17h 55m 20s", "loss_scale": 1.0, "consumed_samples": 39936, "global_step/max_steps": "156/12700"}
{"lm loss": 2.44603539, "grad_norm": 0.57850575, "learning_rate": 2.472e-05, "elapsed_time_per_iteration": 4.86808681, "memory(GiB)": 28.94, "elapsed_time": "13m 27s", "remaining_time": "17h 54m 53s", "loss_scale": 1.0, "consumed_samples": 40192, "global_step/max_steps": "157/12700"}
{"lm loss": 2.45513225, "grad_norm": 0.52571225, "learning_rate": 2.488e-05, "elapsed_time_per_iteration": 5.03031397, "memory(GiB)": 28.94, "elapsed_time": "13m 32s", "remaining_time": "17h 54m 39s", "loss_scale": 1.0, "consumed_samples": 40448, "global_step/max_steps": "158/12700"}
{"lm loss": 2.4659493, "grad_norm": 0.59374505, "learning_rate": 2.504e-05, "elapsed_time_per_iteration": 4.83954811, "memory(GiB)": 28.94, "elapsed_time": "13m 37s", "remaining_time": "17h 54m 10s", "loss_scale": 1.0, "consumed_samples": 40704, "global_step/max_steps": "159/12700"}
{"lm loss": 2.45058322, "grad_norm": 0.52911371, "learning_rate": 2.52e-05, "elapsed_time_per_iteration": 4.89657164, "memory(GiB)": 28.94, "elapsed_time": "13m 42s", "remaining_time": "17h 53m 46s", "loss_scale": 1.0, "consumed_samples": 40960, "global_step/max_steps": "160/12700"}
{"lm loss": 2.46569681, "grad_norm": 0.62347394, "learning_rate": 2.535e-05, "elapsed_time_per_iteration": 4.78986287, "memory(GiB)": 28.94, "elapsed_time": "13m 46s", "remaining_time": "17h 53m 13s", "loss_scale": 1.0, "consumed_samples": 41216, "global_step/max_steps": "161/12700"}
{"lm loss": 2.50967216, "grad_norm": 0.56500542, "learning_rate": 2.551e-05, "elapsed_time_per_iteration": 4.97748375, "memory(GiB)": 28.94, "elapsed_time": "13m 51s", "remaining_time": "17h 52m 56s", "loss_scale": 1.0, "consumed_samples": 41472, "global_step/max_steps": "162/12700"}
{"lm loss": 2.43400121, "grad_norm": 0.61487025, "learning_rate": 2.567e-05, "elapsed_time_per_iteration": 4.83141446, "memory(GiB)": 28.94, "elapsed_time": "13m 56s", "remaining_time": "17h 52m 27s", "loss_scale": 1.0, "consumed_samples": 41728, "global_step/max_steps": "163/12700"}
{"lm loss": 2.49472594, "grad_norm": 0.54867655, "learning_rate": 2.583e-05, "elapsed_time_per_iteration": 4.91237044, "memory(GiB)": 28.94, "elapsed_time": "14m 1s", "remaining_time": "17h 52m 6s", "loss_scale": 1.0, "consumed_samples": 41984, "global_step/max_steps": "164/12700"}
{"lm loss": 2.4439292, "grad_norm": 0.66058052, "learning_rate": 2.598e-05, "elapsed_time_per_iteration": 4.85443592, "memory(GiB)": 28.94, "elapsed_time": "14m 6s", "remaining_time": "17h 51m 39s", "loss_scale": 1.0, "consumed_samples": 42240, "global_step/max_steps": "165/12700"}
{"lm loss": 2.43705487, "grad_norm": 0.56611997, "learning_rate": 2.614e-05, "elapsed_time_per_iteration": 4.89758682, "memory(GiB)": 28.94, "elapsed_time": "14m 11s", "remaining_time": "17h 51m 17s", "loss_scale": 1.0, "consumed_samples": 42496, "global_step/max_steps": "166/12700"}
{"lm loss": 2.47441888, "grad_norm": 0.66274595, "learning_rate": 2.63e-05, "elapsed_time_per_iteration": 4.90696478, "memory(GiB)": 28.94, "elapsed_time": "14m 16s", "remaining_time": "17h 50m 55s", "loss_scale": 1.0, "consumed_samples": 42752, "global_step/max_steps": "167/12700"}
{"lm loss": 2.45400643, "grad_norm": 0.5291124, "learning_rate": 2.646e-05, "elapsed_time_per_iteration": 4.85907698, "memory(GiB)": 28.94, "elapsed_time": "14m 21s", "remaining_time": "17h 50m 30s", "loss_scale": 1.0, "consumed_samples": 43008, "global_step/max_steps": "168/12700"}
{"lm loss": 2.42938495, "grad_norm": 0.62641126, "learning_rate": 2.661e-05, "elapsed_time_per_iteration": 4.94363475, "memory(GiB)": 28.94, "elapsed_time": "14m 25s", "remaining_time": "17h 50m 11s", "loss_scale": 1.0, "consumed_samples": 43264, "global_step/max_steps": "169/12700"}
{"lm loss": 2.42302036, "grad_norm": 0.56373721, "learning_rate": 2.677e-05, "elapsed_time_per_iteration": 4.92818904, "memory(GiB)": 28.94, "elapsed_time": "14m 30s", "remaining_time": "17h 49m 52s", "loss_scale": 1.0, "consumed_samples": 43520, "global_step/max_steps": "170/12700"}
{"lm loss": 2.4621675, "grad_norm": 0.64327967, "learning_rate": 2.693e-05, "elapsed_time_per_iteration": 4.86227894, "memory(GiB)": 28.94, "elapsed_time": "14m 35s", "remaining_time": "17h 49m 27s", "loss_scale": 1.0, "consumed_samples": 43776, "global_step/max_steps": "171/12700"}
{"lm loss": 2.45445275, "grad_norm": 0.67324865, "learning_rate": 2.709e-05, "elapsed_time_per_iteration": 4.81098914, "memory(GiB)": 28.94, "elapsed_time": "14m 40s", "remaining_time": "17h 49m 0s", "loss_scale": 1.0, "consumed_samples": 44032, "global_step/max_steps": "172/12700"}
{"lm loss": 2.45632553, "grad_norm": 0.54893321, "learning_rate": 2.724e-05, "elapsed_time_per_iteration": 4.88576388, "memory(GiB)": 28.94, "elapsed_time": "14m 45s", "remaining_time": "17h 48m 38s", "loss_scale": 1.0, "consumed_samples": 44288, "global_step/max_steps": "173/12700"}
{"lm loss": 2.44339108, "grad_norm": 0.68347114, "learning_rate": 2.74e-05, "elapsed_time_per_iteration": 4.89120364, "memory(GiB)": 28.94, "elapsed_time": "14m 50s", "remaining_time": "17h 48m 16s", "loss_scale": 1.0, "consumed_samples": 44544, "global_step/max_steps": "174/12700"}
{"lm loss": 2.46412039, "grad_norm": 0.59461302, "learning_rate": 2.756e-05, "elapsed_time_per_iteration": 4.80698681, "memory(GiB)": 28.94, "elapsed_time": "14m 55s", "remaining_time": "17h 47m 49s", "loss_scale": 1.0, "consumed_samples": 44800, "global_step/max_steps": "175/12700"}
{"lm loss": 2.44775343, "grad_norm": 0.6075235, "learning_rate": 2.772e-05, "elapsed_time_per_iteration": 4.96797037, "memory(GiB)": 28.94, "elapsed_time": "15m 0s", "remaining_time": "17h 47m 33s", "loss_scale": 1.0, "consumed_samples": 45056, "global_step/max_steps": "176/12700"}
{"lm loss": 2.46845269, "grad_norm": 0.63131821, "learning_rate": 2.787e-05, "elapsed_time_per_iteration": 4.94286585, "memory(GiB)": 28.94, "elapsed_time": "15m 5s", "remaining_time": "17h 47m 16s", "loss_scale": 1.0, "consumed_samples": 45312, "global_step/max_steps": "177/12700"}
{"lm loss": 2.45835137, "grad_norm": 0.57093656, "learning_rate": 2.803e-05, "elapsed_time_per_iteration": 4.89417458, "memory(GiB)": 28.94, "elapsed_time": "15m 9s", "remaining_time": "17h 46m 55s", "loss_scale": 1.0, "consumed_samples": 45568, "global_step/max_steps": "178/12700"}
{"lm loss": 2.45998144, "grad_norm": 0.60784084, "learning_rate": 2.819e-05, "elapsed_time_per_iteration": 4.84803438, "memory(GiB)": 28.94, "elapsed_time": "15m 14s", "remaining_time": "17h 46m 32s", "loss_scale": 1.0, "consumed_samples": 45824, "global_step/max_steps": "179/12700"}
{"lm loss": 2.43663597, "grad_norm": 0.55298853, "learning_rate": 2.835e-05, "elapsed_time_per_iteration": 4.95537257, "memory(GiB)": 28.94, "elapsed_time": "15m 19s", "remaining_time": "17h 46m 16s", "loss_scale": 1.0, "consumed_samples": 46080, "global_step/max_steps": "180/12700"}
{"lm loss": 2.39820623, "grad_norm": 0.60187608, "learning_rate": 2.85e-05, "elapsed_time_per_iteration": 4.96743298, "memory(GiB)": 28.94, "elapsed_time": "15m 24s", "remaining_time": "17h 46m 1s", "loss_scale": 1.0, "consumed_samples": 46336, "global_step/max_steps": "181/12700"}
{"lm loss": 2.44680095, "grad_norm": 0.56300145, "learning_rate": 2.866e-05, "elapsed_time_per_iteration": 4.86827326, "memory(GiB)": 28.94, "elapsed_time": "15m 29s", "remaining_time": "17h 45m 39s", "loss_scale": 1.0, "consumed_samples": 46592, "global_step/max_steps": "182/12700"}
{"lm loss": 2.47856903, "grad_norm": 0.56232578, "learning_rate": 2.882e-05, "elapsed_time_per_iteration": 4.80028296, "memory(GiB)": 28.94, "elapsed_time": "15m 34s", "remaining_time": "17h 45m 13s", "loss_scale": 1.0, "consumed_samples": 46848, "global_step/max_steps": "183/12700"}
{"lm loss": 2.45039868, "grad_norm": 0.61694032, "learning_rate": 2.898e-05, "elapsed_time_per_iteration": 5.01088095, "memory(GiB)": 28.94, "elapsed_time": "15m 39s", "remaining_time": "17h 45m 2s", "loss_scale": 1.0, "consumed_samples": 47104, "global_step/max_steps": "184/12700"}
{"lm loss": 2.46257305, "grad_norm": 0.50947106, "learning_rate": 2.913e-05, "elapsed_time_per_iteration": 4.82116795, "memory(GiB)": 28.94, "elapsed_time": "15m 44s", "remaining_time": "17h 44m 37s", "loss_scale": 1.0, "consumed_samples": 47360, "global_step/max_steps": "185/12700"}
{"lm loss": 2.44221139, "grad_norm": 0.63336492, "learning_rate": 2.929e-05, "elapsed_time_per_iteration": 4.92557669, "memory(GiB)": 28.94, "elapsed_time": "15m 49s", "remaining_time": "17h 44m 20s", "loss_scale": 1.0, "consumed_samples": 47616, "global_step/max_steps": "186/12700"}
{"lm loss": 2.42178035, "grad_norm": 0.55902237, "learning_rate": 2.945e-05, "elapsed_time_per_iteration": 4.77496696, "memory(GiB)": 28.94, "elapsed_time": "15m 53s", "remaining_time": "17h 43m 53s", "loss_scale": 1.0, "consumed_samples": 47872, "global_step/max_steps": "187/12700"}
{"lm loss": 2.48195148, "grad_norm": 0.64192498, "learning_rate": 2.961e-05, "elapsed_time_per_iteration": 4.91031957, "memory(GiB)": 28.94, "elapsed_time": "15m 58s", "remaining_time": "17h 43m 35s", "loss_scale": 1.0, "consumed_samples": 48128, "global_step/max_steps": "188/12700"}
{"lm loss": 2.43618155, "grad_norm": 0.56757694, "learning_rate": 2.976e-05, "elapsed_time_per_iteration": 4.90820718, "memory(GiB)": 28.94, "elapsed_time": "16m 3s", "remaining_time": "17h 43m 17s", "loss_scale": 1.0, "consumed_samples": 48384, "global_step/max_steps": "189/12700"}
{"lm loss": 2.42088771, "grad_norm": 0.60702354, "learning_rate": 2.992e-05, "elapsed_time_per_iteration": 4.88683033, "memory(GiB)": 28.94, "elapsed_time": "16m 8s", "remaining_time": "17h 42m 58s", "loss_scale": 1.0, "consumed_samples": 48640, "global_step/max_steps": "190/12700"}
{"lm loss": 2.46028447, "grad_norm": 0.56140351, "learning_rate": 3.008e-05, "elapsed_time_per_iteration": 4.92822433, "memory(GiB)": 28.94, "elapsed_time": "16m 13s", "remaining_time": "17h 42m 42s", "loss_scale": 1.0, "consumed_samples": 48896, "global_step/max_steps": "191/12700"}
{"lm loss": 2.44827509, "grad_norm": 0.63551217, "learning_rate": 3.024e-05, "elapsed_time_per_iteration": 5.1789639, "memory(GiB)": 28.94, "elapsed_time": "16m 18s", "remaining_time": "17h 42m 42s", "loss_scale": 1.0, "consumed_samples": 49152, "global_step/max_steps": "192/12700"}
{"lm loss": 2.4397974, "grad_norm": 0.57281536, "learning_rate": 3.039e-05, "elapsed_time_per_iteration": 4.97034097, "memory(GiB)": 28.94, "elapsed_time": "16m 23s", "remaining_time": "17h 42m 29s", "loss_scale": 1.0, "consumed_samples": 49408, "global_step/max_steps": "193/12700"}
{"lm loss": 2.42315197, "grad_norm": 0.62529522, "learning_rate": 3.055e-05, "elapsed_time_per_iteration": 4.85864592, "memory(GiB)": 28.94, "elapsed_time": "16m 28s", "remaining_time": "17h 42m 8s", "loss_scale": 1.0, "consumed_samples": 49664, "global_step/max_steps": "194/12700"}
{"lm loss": 2.43388605, "grad_norm": 0.5274232, "learning_rate": 3.071e-05, "elapsed_time_per_iteration": 4.95447874, "memory(GiB)": 28.94, "elapsed_time": "16m 33s", "remaining_time": "17h 41m 54s", "loss_scale": 1.0, "consumed_samples": 49920, "global_step/max_steps": "195/12700"}
{"lm loss": 2.46525884, "grad_norm": 0.67327613, "learning_rate": 3.087e-05, "elapsed_time_per_iteration": 4.9034512, "memory(GiB)": 28.94, "elapsed_time": "16m 38s", "remaining_time": "17h 41m 37s", "loss_scale": 1.0, "consumed_samples": 50176, "global_step/max_steps": "196/12700"}
{"lm loss": 2.44175363, "grad_norm": 0.57620555, "learning_rate": 3.102e-05, "elapsed_time_per_iteration": 4.80821609, "memory(GiB)": 28.94, "elapsed_time": "16m 43s", "remaining_time": "17h 41m 14s", "loss_scale": 1.0, "consumed_samples": 50432, "global_step/max_steps": "197/12700"}
{"lm loss": 2.45994735, "grad_norm": 0.66677254, "learning_rate": 3.118e-05, "elapsed_time_per_iteration": 4.79254317, "memory(GiB)": 28.94, "elapsed_time": "16m 48s", "remaining_time": "17h 40m 50s", "loss_scale": 1.0, "consumed_samples": 50688, "global_step/max_steps": "198/12700"}
{"lm loss": 2.42346787, "grad_norm": 0.60832566, "learning_rate": 3.134e-05, "elapsed_time_per_iteration": 4.87227798, "memory(GiB)": 28.94, "elapsed_time": "16m 52s", "remaining_time": "17h 40m 31s", "loss_scale": 1.0, "consumed_samples": 50944, "global_step/max_steps": "199/12700"}
{"lm loss": 2.43431902, "grad_norm": 0.62337363, "learning_rate": 3.15e-05, "elapsed_time_per_iteration": 4.80030012, "memory(GiB)": 28.94, "elapsed_time": "16m 57s", "remaining_time": "17h 40m 8s", "loss_scale": 1.0, "consumed_samples": 51200, "global_step/max_steps": "200/12700"}
{"lm loss": 2.42348456, "grad_norm": 0.58690399, "learning_rate": 3.165e-05, "elapsed_time_per_iteration": 4.75538874, "memory(GiB)": 28.94, "elapsed_time": "17m 2s", "remaining_time": "17h 39m 42s", "loss_scale": 1.0, "consumed_samples": 51456, "global_step/max_steps": "201/12700"}
{"lm loss": 2.44386911, "grad_norm": 0.67323625, "learning_rate": 3.181e-05, "elapsed_time_per_iteration": 4.92200541, "memory(GiB)": 28.94, "elapsed_time": "17m 7s", "remaining_time": "17h 39m 27s", "loss_scale": 1.0, "consumed_samples": 51712, "global_step/max_steps": "202/12700"}
{"lm loss": 2.45446777, "grad_norm": 0.69151026, "learning_rate": 3.197e-05, "elapsed_time_per_iteration": 4.87538457, "memory(GiB)": 28.94, "elapsed_time": "17m 12s", "remaining_time": "17h 39m 8s", "loss_scale": 1.0, "consumed_samples": 51968, "global_step/max_steps": "203/12700"}
{"lm loss": 2.45612216, "grad_norm": 0.56634367, "learning_rate": 3.213e-05, "elapsed_time_per_iteration": 5.12083435, "memory(GiB)": 28.94, "elapsed_time": "17m 17s", "remaining_time": "17h 39m 6s", "loss_scale": 1.0, "consumed_samples": 52224, "global_step/max_steps": "204/12700"}
{"lm loss": 2.43920302, "grad_norm": 0.67715043, "learning_rate": 3.228e-05, "elapsed_time_per_iteration": 4.89376831, "memory(GiB)": 28.94, "elapsed_time": "17m 22s", "remaining_time": "17h 38m 49s", "loss_scale": 1.0, "consumed_samples": 52480, "global_step/max_steps": "205/12700"}
{"lm loss": 2.4613893, "grad_norm": 0.73398346, "learning_rate": 3.244e-05, "elapsed_time_per_iteration": 4.92024922, "memory(GiB)": 28.94, "elapsed_time": "17m 27s", "remaining_time": "17h 38m 34s", "loss_scale": 1.0, "consumed_samples": 52736, "global_step/max_steps": "206/12700"}
{"lm loss": 2.41066408, "grad_norm": 0.58317959, "learning_rate": 3.26e-05, "elapsed_time_per_iteration": 4.92597914, "memory(GiB)": 28.94, "elapsed_time": "17m 32s", "remaining_time": "17h 38m 19s", "loss_scale": 1.0, "consumed_samples": 52992, "global_step/max_steps": "207/12700"}
{"lm loss": 2.4357655, "grad_norm": 0.65080351, "learning_rate": 3.276e-05, "elapsed_time_per_iteration": 4.87156916, "memory(GiB)": 28.94, "elapsed_time": "17m 37s", "remaining_time": "17h 38m 1s", "loss_scale": 1.0, "consumed_samples": 53248, "global_step/max_steps": "208/12700"}
{"lm loss": 2.42316222, "grad_norm": 0.70368683, "learning_rate": 3.291e-05, "elapsed_time_per_iteration": 4.81514263, "memory(GiB)": 28.94, "elapsed_time": "17m 41s", "remaining_time": "17h 37m 40s", "loss_scale": 1.0, "consumed_samples": 53504, "global_step/max_steps": "209/12700"}
{"lm loss": 2.41000628, "grad_norm": 0.63528675, "learning_rate": 3.307e-05, "elapsed_time_per_iteration": 4.77695322, "memory(GiB)": 28.94, "elapsed_time": "17m 46s", "remaining_time": "17h 37m 17s", "loss_scale": 1.0, "consumed_samples": 53760, "global_step/max_steps": "210/12700"}
{"lm loss": 2.42186427, "grad_norm": 0.74376601, "learning_rate": 3.323e-05, "elapsed_time_per_iteration": 4.88238811, "memory(GiB)": 28.94, "elapsed_time": "17m 51s", "remaining_time": "17h 37m 1s", "loss_scale": 1.0, "consumed_samples": 54016, "global_step/max_steps": "211/12700"}
{"lm loss": 2.41355228, "grad_norm": 0.57381088, "learning_rate": 3.339e-05, "elapsed_time_per_iteration": 4.8837285, "memory(GiB)": 28.94, "elapsed_time": "17m 56s", "remaining_time": "17h 36m 44s", "loss_scale": 1.0, "consumed_samples": 54272, "global_step/max_steps": "212/12700"}
{"lm loss": 2.42078805, "grad_norm": 0.64451468, "learning_rate": 3.354e-05, "elapsed_time_per_iteration": 4.79187679, "memory(GiB)": 28.94, "elapsed_time": "18m 1s", "remaining_time": "17h 36m 22s", "loss_scale": 1.0, "consumed_samples": 54528, "global_step/max_steps": "213/12700"}
{"lm loss": 2.41186428, "grad_norm": 0.65386909, "learning_rate": 3.37e-05, "elapsed_time_per_iteration": 4.85656643, "memory(GiB)": 28.94, "elapsed_time": "18m 6s", "remaining_time": "17h 36m 4s", "loss_scale": 1.0, "consumed_samples": 54784, "global_step/max_steps": "214/12700"}
{"lm loss": 2.42404485, "grad_norm": 0.60975134, "learning_rate": 3.386e-05, "elapsed_time_per_iteration": 4.92805624, "memory(GiB)": 28.94, "elapsed_time": "18m 10s", "remaining_time": "17h 35m 51s", "loss_scale": 1.0, "consumed_samples": 55040, "global_step/max_steps": "215/12700"}
{"lm loss": 2.43197131, "grad_norm": 0.56983882, "learning_rate": 3.402e-05, "elapsed_time_per_iteration": 4.92077351, "memory(GiB)": 28.94, "elapsed_time": "18m 15s", "remaining_time": "17h 35m 37s", "loss_scale": 1.0, "consumed_samples": 55296, "global_step/max_steps": "216/12700"}
{"lm loss": 2.39397264, "grad_norm": 0.56776392, "learning_rate": 3.417e-05, "elapsed_time_per_iteration": 4.88870859, "memory(GiB)": 28.94, "elapsed_time": "18m 20s", "remaining_time": "17h 35m 21s", "loss_scale": 1.0, "consumed_samples": 55552, "global_step/max_steps": "217/12700"}
{"lm loss": 2.43097711, "grad_norm": 0.63057256, "learning_rate": 3.433e-05, "elapsed_time_per_iteration": 4.85287213, "memory(GiB)": 28.94, "elapsed_time": "18m 25s", "remaining_time": "17h 35m 3s", "loss_scale": 1.0, "consumed_samples": 55808, "global_step/max_steps": "218/12700"}
{"lm loss": 2.43440557, "grad_norm": 0.55448735, "learning_rate": 3.449e-05, "elapsed_time_per_iteration": 4.84512067, "memory(GiB)": 28.94, "elapsed_time": "18m 30s", "remaining_time": "17h 34m 45s", "loss_scale": 1.0, "consumed_samples": 56064, "global_step/max_steps": "219/12700"}
{"lm loss": 2.4000833, "grad_norm": 0.61956835, "learning_rate": 3.465e-05, "elapsed_time_per_iteration": 4.95165205, "memory(GiB)": 28.94, "elapsed_time": "18m 35s", "remaining_time": "17h 34m 34s", "loss_scale": 1.0, "consumed_samples": 56320, "global_step/max_steps": "220/12700"}
{"lm loss": 2.40184617, "grad_norm": 0.56433618, "learning_rate": 3.48e-05, "elapsed_time_per_iteration": 4.88702345, "memory(GiB)": 28.94, "elapsed_time": "18m 40s", "remaining_time": "17h 34m 18s", "loss_scale": 1.0, "consumed_samples": 56576, "global_step/max_steps": "221/12700"}
{"lm loss": 2.4138267, "grad_norm": 0.59193945, "learning_rate": 3.496e-05, "elapsed_time_per_iteration": 4.90370989, "memory(GiB)": 28.94, "elapsed_time": "18m 45s", "remaining_time": "17h 34m 4s", "loss_scale": 1.0, "consumed_samples": 56832, "global_step/max_steps": "222/12700"}
{"lm loss": 2.38827729, "grad_norm": 0.59360874, "learning_rate": 3.512e-05, "elapsed_time_per_iteration": 4.92868781, "memory(GiB)": 28.94, "elapsed_time": "18m 50s", "remaining_time": "17h 33m 51s", "loss_scale": 1.0, "consumed_samples": 57088, "global_step/max_steps": "223/12700"}
{"lm loss": 2.42671204, "grad_norm": 0.54195517, "learning_rate": 3.528e-05, "elapsed_time_per_iteration": 4.84508681, "memory(GiB)": 28.94, "elapsed_time": "18m 54s", "remaining_time": "17h 33m 34s", "loss_scale": 1.0, "consumed_samples": 57344, "global_step/max_steps": "224/12700"}
{"lm loss": 2.37320805, "grad_norm": 0.59568161, "learning_rate": 3.543e-05, "elapsed_time_per_iteration": 4.84484649, "memory(GiB)": 28.94, "elapsed_time": "18m 59s", "remaining_time": "17h 33m 16s", "loss_scale": 1.0, "consumed_samples": 57600, "global_step/max_steps": "225/12700"}
{"lm loss": 2.43714714, "grad_norm": 0.61713713, "learning_rate": 3.559e-05, "elapsed_time_per_iteration": 4.86789966, "memory(GiB)": 28.94, "elapsed_time": "19m 4s", "remaining_time": "17h 33m 0s", "loss_scale": 1.0, "consumed_samples": 57856, "global_step/max_steps": "226/12700"}
{"lm loss": 2.40958405, "grad_norm": 0.61818552, "learning_rate": 3.575e-05, "elapsed_time_per_iteration": 4.87278962, "memory(GiB)": 28.94, "elapsed_time": "19m 9s", "remaining_time": "17h 32m 45s", "loss_scale": 1.0, "consumed_samples": 58112, "global_step/max_steps": "227/12700"}
{"lm loss": 2.43098426, "grad_norm": 0.60048395, "learning_rate": 3.591e-05, "elapsed_time_per_iteration": 4.85456324, "memory(GiB)": 28.94, "elapsed_time": "19m 14s", "remaining_time": "17h 32m 28s", "loss_scale": 1.0, "consumed_samples": 58368, "global_step/max_steps": "228/12700"}
{"lm loss": 2.43294358, "grad_norm": 0.60552859, "learning_rate": 3.606e-05, "elapsed_time_per_iteration": 5.01428461, "memory(GiB)": 28.94, "elapsed_time": "19m 19s", "remaining_time": "17h 32m 20s", "loss_scale": 1.0, "consumed_samples": 58624, "global_step/max_steps": "229/12700"}
{"lm loss": 2.43618417, "grad_norm": 0.57248861, "learning_rate": 3.622e-05, "elapsed_time_per_iteration": 4.82107043, "memory(GiB)": 28.94, "elapsed_time": "19m 24s", "remaining_time": "17h 32m 2s", "loss_scale": 1.0, "consumed_samples": 58880, "global_step/max_steps": "230/12700"}
{"lm loss": 2.43805599, "grad_norm": 0.73541862, "learning_rate": 3.638e-05, "elapsed_time_per_iteration": 4.8598268, "memory(GiB)": 28.94, "elapsed_time": "19m 29s", "remaining_time": "17h 31m 46s", "loss_scale": 1.0, "consumed_samples": 59136, "global_step/max_steps": "231/12700"}
{"lm loss": 2.44402266, "grad_norm": 0.60516667, "learning_rate": 3.654e-05, "elapsed_time_per_iteration": 4.90055346, "memory(GiB)": 28.94, "elapsed_time": "19m 34s", "remaining_time": "17h 31m 32s", "loss_scale": 1.0, "consumed_samples": 59392, "global_step/max_steps": "232/12700"}
{"lm loss": 2.44714332, "grad_norm": 0.62093002, "learning_rate": 3.669e-05, "elapsed_time_per_iteration": 4.76740646, "memory(GiB)": 28.94, "elapsed_time": "19m 38s", "remaining_time": "17h 31m 12s", "loss_scale": 1.0, "consumed_samples": 59648, "global_step/max_steps": "233/12700"}
{"lm loss": 2.42851114, "grad_norm": 0.72740602, "learning_rate": 3.685e-05, "elapsed_time_per_iteration": 4.72640562, "memory(GiB)": 28.94, "elapsed_time": "19m 43s", "remaining_time": "17h 30m 49s", "loss_scale": 1.0, "consumed_samples": 59904, "global_step/max_steps": "234/12700"}
{"lm loss": 2.41130447, "grad_norm": 0.75707471, "learning_rate": 3.701e-05, "elapsed_time_per_iteration": 4.84545732, "memory(GiB)": 28.94, "elapsed_time": "19m 48s", "remaining_time": "17h 30m 33s", "loss_scale": 1.0, "consumed_samples": 60160, "global_step/max_steps": "235/12700"}
{"lm loss": 2.37680054, "grad_norm": 0.74921232, "learning_rate": 3.717e-05, "elapsed_time_per_iteration": 4.88725448, "memory(GiB)": 28.94, "elapsed_time": "19m 53s", "remaining_time": "17h 30m 19s", "loss_scale": 1.0, "consumed_samples": 60416, "global_step/max_steps": "236/12700"}
{"lm loss": 2.41392684, "grad_norm": 0.67753035, "learning_rate": 3.732e-05, "elapsed_time_per_iteration": 4.92224669, "memory(GiB)": 28.94, "elapsed_time": "19m 58s", "remaining_time": "17h 30m 6s", "loss_scale": 1.0, "consumed_samples": 60672, "global_step/max_steps": "237/12700"}
{"lm loss": 2.4209578, "grad_norm": 0.71492422, "learning_rate": 3.748e-05, "elapsed_time_per_iteration": 4.90461254, "memory(GiB)": 28.94, "elapsed_time": "20m 3s", "remaining_time": "17h 29m 54s", "loss_scale": 1.0, "consumed_samples": 60928, "global_step/max_steps": "238/12700"}
{"lm loss": 2.39631104, "grad_norm": 0.67818391, "learning_rate": 3.764e-05, "elapsed_time_per_iteration": 4.90994048, "memory(GiB)": 28.94, "elapsed_time": "20m 7s", "remaining_time": "17h 29m 41s", "loss_scale": 1.0, "consumed_samples": 61184, "global_step/max_steps": "239/12700"}
{"lm loss": 2.41344595, "grad_norm": 0.67244774, "learning_rate": 3.78e-05, "elapsed_time_per_iteration": 4.79380345, "memory(GiB)": 28.94, "elapsed_time": "20m 12s", "remaining_time": "17h 29m 22s", "loss_scale": 1.0, "consumed_samples": 61440, "global_step/max_steps": "240/12700"}
{"lm loss": 2.43213654, "grad_norm": 0.67403328, "learning_rate": 3.795e-05, "elapsed_time_per_iteration": 4.83409405, "memory(GiB)": 28.94, "elapsed_time": "20m 17s", "remaining_time": "17h 29m 6s", "loss_scale": 1.0, "consumed_samples": 61696, "global_step/max_steps": "241/12700"}
{"lm loss": 2.39325237, "grad_norm": 0.65393752, "learning_rate": 3.811e-05, "elapsed_time_per_iteration": 4.91094041, "memory(GiB)": 28.94, "elapsed_time": "20m 22s", "remaining_time": "17h 28m 54s", "loss_scale": 1.0, "consumed_samples": 61952, "global_step/max_steps": "242/12700"}
{"lm loss": 2.3858757, "grad_norm": 0.67043418, "learning_rate": 3.827e-05, "elapsed_time_per_iteration": 4.93298006, "memory(GiB)": 28.94, "elapsed_time": "20m 27s", "remaining_time": "17h 28m 42s", "loss_scale": 1.0, "consumed_samples": 62208, "global_step/max_steps": "243/12700"}
{"lm loss": 2.35886645, "grad_norm": 0.5483045, "learning_rate": 3.843e-05, "elapsed_time_per_iteration": 4.89996886, "memory(GiB)": 28.94, "elapsed_time": "20m 32s", "remaining_time": "17h 28m 30s", "loss_scale": 1.0, "consumed_samples": 62464, "global_step/max_steps": "244/12700"}
{"lm loss": 2.38035274, "grad_norm": 0.60215211, "learning_rate": 3.858e-05, "elapsed_time_per_iteration": 4.98195577, "memory(GiB)": 28.94, "elapsed_time": "20m 37s", "remaining_time": "17h 28m 21s", "loss_scale": 1.0, "consumed_samples": 62720, "global_step/max_steps": "245/12700"}
{"lm loss": 2.40488219, "grad_norm": 0.69449955, "learning_rate": 3.874e-05, "elapsed_time_per_iteration": 5.02545571, "memory(GiB)": 28.94, "elapsed_time": "20m 42s", "remaining_time": "17h 28m 15s", "loss_scale": 1.0, "consumed_samples": 62976, "global_step/max_steps": "246/12700"}
{"lm loss": 2.40072799, "grad_norm": 0.61095351, "learning_rate": 3.89e-05, "elapsed_time_per_iteration": 4.90252733, "memory(GiB)": 28.94, "elapsed_time": "20m 47s", "remaining_time": "17h 28m 2s", "loss_scale": 1.0, "consumed_samples": 63232, "global_step/max_steps": "247/12700"}
{"lm loss": 2.41529846, "grad_norm": 0.66596818, "learning_rate": 3.906e-05, "elapsed_time_per_iteration": 4.85640192, "memory(GiB)": 28.94, "elapsed_time": "20m 52s", "remaining_time": "17h 27m 48s", "loss_scale": 1.0, "consumed_samples": 63488, "global_step/max_steps": "248/12700"}
{"lm loss": 2.42047334, "grad_norm": 0.70327115, "learning_rate": 3.921e-05, "elapsed_time_per_iteration": 4.90466213, "memory(GiB)": 28.94, "elapsed_time": "20m 57s", "remaining_time": "17h 27m 35s", "loss_scale": 1.0, "consumed_samples": 63744, "global_step/max_steps": "249/12700"}
{"lm loss": 2.40917158, "grad_norm": 0.62021422, "learning_rate": 3.937e-05, "elapsed_time_per_iteration": 4.93741012, "memory(GiB)": 28.94, "elapsed_time": "21m 1s", "remaining_time": "17h 27m 25s", "loss_scale": 1.0, "consumed_samples": 64000, "global_step/max_steps": "250/12700"}
{"lm loss": 2.42946649, "grad_norm": 0.70063126, "learning_rate": 3.953e-05, "elapsed_time_per_iteration": 4.91802692, "memory(GiB)": 28.94, "elapsed_time": "21m 6s", "remaining_time": "17h 27m 13s", "loss_scale": 1.0, "consumed_samples": 64256, "global_step/max_steps": "251/12700"}
{"lm loss": 2.37210917, "grad_norm": 0.68852836, "learning_rate": 3.969e-05, "elapsed_time_per_iteration": 4.78963733, "memory(GiB)": 28.94, "elapsed_time": "21m 11s", "remaining_time": "17h 26m 56s", "loss_scale": 1.0, "consumed_samples": 64512, "global_step/max_steps": "252/12700"}
{"lm loss": 2.37076974, "grad_norm": 0.61444122, "learning_rate": 3.984e-05, "elapsed_time_per_iteration": 4.93393445, "memory(GiB)": 28.94, "elapsed_time": "21m 16s", "remaining_time": "17h 26m 45s", "loss_scale": 1.0, "consumed_samples": 64768, "global_step/max_steps": "253/12700"}
{"lm loss": 2.42043519, "grad_norm": 0.67927545, "learning_rate": 4e-05, "elapsed_time_per_iteration": 4.84204793, "memory(GiB)": 28.94, "elapsed_time": "21m 21s", "remaining_time": "17h 26m 30s", "loss_scale": 1.0, "consumed_samples": 65024, "global_step/max_steps": "254/12700"}
{"lm loss": 2.4200201, "grad_norm": 0.5829618, "learning_rate": 4.016e-05, "elapsed_time_per_iteration": 4.87527061, "memory(GiB)": 28.94, "elapsed_time": "21m 26s", "remaining_time": "17h 26m 17s", "loss_scale": 1.0, "consumed_samples": 65280, "global_step/max_steps": "255/12700"}
{"lm loss": 2.41658378, "grad_norm": 0.67648321, "learning_rate": 4.031e-05, "elapsed_time_per_iteration": 4.86476517, "memory(GiB)": 28.94, "elapsed_time": "21m 31s", "remaining_time": "17h 26m 3s", "loss_scale": 1.0, "consumed_samples": 65536, "global_step/max_steps": "256/12700"}
{"lm loss": 2.38753295, "grad_norm": 0.72057134, "learning_rate": 4.047e-05, "elapsed_time_per_iteration": 4.8063252, "memory(GiB)": 28.94, "elapsed_time": "21m 35s", "remaining_time": "17h 25m 46s", "loss_scale": 1.0, "consumed_samples": 65792, "global_step/max_steps": "257/12700"}
{"lm loss": 2.3676281, "grad_norm": 0.70208228, "learning_rate": 4.063e-05, "elapsed_time_per_iteration": 4.86637425, "memory(GiB)": 28.94, "elapsed_time": "21m 40s", "remaining_time": "17h 25m 33s", "loss_scale": 1.0, "consumed_samples": 66048, "global_step/max_steps": "258/12700"}
{"lm loss": 2.39189267, "grad_norm": 0.60199302, "learning_rate": 4.079e-05, "elapsed_time_per_iteration": 4.81322598, "memory(GiB)": 28.94, "elapsed_time": "21m 45s", "remaining_time": "17h 25m 17s", "loss_scale": 1.0, "consumed_samples": 66304, "global_step/max_steps": "259/12700"}
{"lm loss": 2.36392879, "grad_norm": 0.74149734, "learning_rate": 4.094e-05, "elapsed_time_per_iteration": 4.90841126, "memory(GiB)": 28.94, "elapsed_time": "21m 50s", "remaining_time": "17h 25m 5s", "loss_scale": 1.0, "consumed_samples": 66560, "global_step/max_steps": "260/12700"}
{"lm loss": 2.39032006, "grad_norm": 0.7569899, "learning_rate": 4.11e-05, "elapsed_time_per_iteration": 4.93587327, "memory(GiB)": 28.94, "elapsed_time": "21m 55s", "remaining_time": "17h 24m 55s", "loss_scale": 1.0, "consumed_samples": 66816, "global_step/max_steps": "261/12700"}
{"lm loss": 2.38630009, "grad_norm": 0.63188171, "learning_rate": 4.126e-05, "elapsed_time_per_iteration": 4.91991425, "memory(GiB)": 28.94, "elapsed_time": "22m 0s", "remaining_time": "17h 24m 45s", "loss_scale": 1.0, "consumed_samples": 67072, "global_step/max_steps": "262/12700"}
{"lm loss": 2.40703344, "grad_norm": 0.72419471, "learning_rate": 4.142e-05, "elapsed_time_per_iteration": 4.87090874, "memory(GiB)": 28.94, "elapsed_time": "22m 5s", "remaining_time": "17h 24m 31s", "loss_scale": 1.0, "consumed_samples": 67328, "global_step/max_steps": "263/12700"}
{"lm loss": 2.42677355, "grad_norm": 0.69345105, "learning_rate": 4.157e-05, "elapsed_time_per_iteration": 4.79175997, "memory(GiB)": 28.94, "elapsed_time": "22m 10s", "remaining_time": "17h 24m 15s", "loss_scale": 1.0, "consumed_samples": 67584, "global_step/max_steps": "264/12700"}
{"lm loss": 2.41152573, "grad_norm": 0.61184013, "learning_rate": 4.173e-05, "elapsed_time_per_iteration": 4.88398075, "memory(GiB)": 28.94, "elapsed_time": "22m 14s", "remaining_time": "17h 24m 3s", "loss_scale": 1.0, "consumed_samples": 67840, "global_step/max_steps": "265/12700"}
{"lm loss": 2.36012983, "grad_norm": 0.70354164, "learning_rate": 4.189e-05, "elapsed_time_per_iteration": 4.87847066, "memory(GiB)": 28.94, "elapsed_time": "22m 19s", "remaining_time": "17h 23m 50s", "loss_scale": 1.0, "consumed_samples": 68096, "global_step/max_steps": "266/12700"}
{"lm loss": 2.39945507, "grad_norm": 0.6223951, "learning_rate": 4.205e-05, "elapsed_time_per_iteration": 4.89280558, "memory(GiB)": 28.94, "elapsed_time": "22m 24s", "remaining_time": "17h 23m 38s", "loss_scale": 1.0, "consumed_samples": 68352, "global_step/max_steps": "267/12700"}
{"lm loss": 2.39408112, "grad_norm": 0.60510975, "learning_rate": 4.22e-05, "elapsed_time_per_iteration": 4.82733035, "memory(GiB)": 28.94, "elapsed_time": "22m 29s", "remaining_time": "17h 23m 24s", "loss_scale": 1.0, "consumed_samples": 68608, "global_step/max_steps": "268/12700"}
{"lm loss": 2.3931098, "grad_norm": 0.60103142, "learning_rate": 4.236e-05, "elapsed_time_per_iteration": 4.78771639, "memory(GiB)": 28.94, "elapsed_time": "22m 34s", "remaining_time": "17h 23m 7s", "loss_scale": 1.0, "consumed_samples": 68864, "global_step/max_steps": "269/12700"}
{"lm loss": 2.37091017, "grad_norm": 0.59475666, "learning_rate": 4.252e-05, "elapsed_time_per_iteration": 4.8548038, "memory(GiB)": 28.94, "elapsed_time": "22m 39s", "remaining_time": "17h 22m 54s", "loss_scale": 1.0, "consumed_samples": 69120, "global_step/max_steps": "270/12700"}
{"lm loss": 2.37200594, "grad_norm": 0.70842803, "learning_rate": 4.268e-05, "elapsed_time_per_iteration": 4.98797083, "memory(GiB)": 28.94, "elapsed_time": "22m 44s", "remaining_time": "17h 22m 47s", "loss_scale": 1.0, "consumed_samples": 69376, "global_step/max_steps": "271/12700"}
{"lm loss": 2.39446926, "grad_norm": 0.73492736, "learning_rate": 4.283e-05, "elapsed_time_per_iteration": 4.87395549, "memory(GiB)": 28.94, "elapsed_time": "22m 49s", "remaining_time": "17h 22m 34s", "loss_scale": 1.0, "consumed_samples": 69632, "global_step/max_steps": "272/12700"}
{"lm loss": 2.39591694, "grad_norm": 0.65348333, "learning_rate": 4.299e-05, "elapsed_time_per_iteration": 4.82398319, "memory(GiB)": 28.94, "elapsed_time": "22m 53s", "remaining_time": "17h 22m 20s", "loss_scale": 1.0, "consumed_samples": 69888, "global_step/max_steps": "273/12700"}
{"lm loss": 2.3927362, "grad_norm": 0.67077714, "learning_rate": 4.315e-05, "elapsed_time_per_iteration": 4.88621187, "memory(GiB)": 28.94, "elapsed_time": "22m 58s", "remaining_time": "17h 22m 8s", "loss_scale": 1.0, "consumed_samples": 70144, "global_step/max_steps": "274/12700"}
{"lm loss": 2.42553353, "grad_norm": 0.75140023, "learning_rate": 4.331e-05, "elapsed_time_per_iteration": 4.94220924, "memory(GiB)": 28.94, "elapsed_time": "23m 3s", "remaining_time": "17h 21m 59s", "loss_scale": 1.0, "consumed_samples": 70400, "global_step/max_steps": "275/12700"}
{"lm loss": 2.38514519, "grad_norm": 0.67663896, "learning_rate": 4.346e-05, "elapsed_time_per_iteration": 4.9326973, "memory(GiB)": 28.94, "elapsed_time": "23m 8s", "remaining_time": "17h 21m 49s", "loss_scale": 1.0, "consumed_samples": 70656, "global_step/max_steps": "276/12700"}
{"lm loss": 2.3831532, "grad_norm": 0.64591074, "learning_rate": 4.362e-05, "elapsed_time_per_iteration": 4.8587327, "memory(GiB)": 28.94, "elapsed_time": "23m 13s", "remaining_time": "17h 21m 37s", "loss_scale": 1.0, "consumed_samples": 70912, "global_step/max_steps": "277/12700"}
{"lm loss": 2.42298698, "grad_norm": 0.81329924, "learning_rate": 4.378e-05, "elapsed_time_per_iteration": 4.82984757, "memory(GiB)": 28.94, "elapsed_time": "23m 18s", "remaining_time": "17h 21m 23s", "loss_scale": 1.0, "consumed_samples": 71168, "global_step/max_steps": "278/12700"}
{"lm loss": 2.39917707, "grad_norm": 0.61949885, "learning_rate": 4.394e-05, "elapsed_time_per_iteration": 4.95666242, "memory(GiB)": 28.94, "elapsed_time": "23m 23s", "remaining_time": "17h 21m 14s", "loss_scale": 1.0, "consumed_samples": 71424, "global_step/max_steps": "279/12700"}
{"lm loss": 2.40777516, "grad_norm": 0.78878164, "learning_rate": 4.409e-05, "elapsed_time_per_iteration": 4.83458471, "memory(GiB)": 28.94, "elapsed_time": "23m 28s", "remaining_time": "17h 21m 1s", "loss_scale": 1.0, "consumed_samples": 71680, "global_step/max_steps": "280/12700"}
{"lm loss": 2.37722659, "grad_norm": 0.59620166, "learning_rate": 4.425e-05, "elapsed_time_per_iteration": 4.82169151, "memory(GiB)": 28.94, "elapsed_time": "23m 32s", "remaining_time": "17h 20m 46s", "loss_scale": 1.0, "consumed_samples": 71936, "global_step/max_steps": "281/12700"}
{"lm loss": 2.36755753, "grad_norm": 0.65091723, "learning_rate": 4.441e-05, "elapsed_time_per_iteration": 4.90167928, "memory(GiB)": 28.94, "elapsed_time": "23m 37s", "remaining_time": "17h 20m 36s", "loss_scale": 1.0, "consumed_samples": 72192, "global_step/max_steps": "282/12700"}
{"lm loss": 2.39073133, "grad_norm": 0.69094402, "learning_rate": 4.457e-05, "elapsed_time_per_iteration": 4.83843374, "memory(GiB)": 28.94, "elapsed_time": "23m 42s", "remaining_time": "17h 20m 23s", "loss_scale": 1.0, "consumed_samples": 72448, "global_step/max_steps": "283/12700"}
{"lm loss": 2.37747192, "grad_norm": 0.75722039, "learning_rate": 4.472e-05, "elapsed_time_per_iteration": 4.88137841, "memory(GiB)": 28.94, "elapsed_time": "23m 47s", "remaining_time": "17h 20m 11s", "loss_scale": 1.0, "consumed_samples": 72704, "global_step/max_steps": "284/12700"}
{"lm loss": 2.37661767, "grad_norm": 0.65372914, "learning_rate": 4.488e-05, "elapsed_time_per_iteration": 4.8649168, "memory(GiB)": 28.94, "elapsed_time": "23m 52s", "remaining_time": "17h 19m 59s", "loss_scale": 1.0, "consumed_samples": 72960, "global_step/max_steps": "285/12700"}
{"lm loss": 2.39318967, "grad_norm": 0.64250183, "learning_rate": 4.504e-05, "elapsed_time_per_iteration": 4.90403438, "memory(GiB)": 28.94, "elapsed_time": "23m 57s", "remaining_time": "17h 19m 49s", "loss_scale": 1.0, "consumed_samples": 73216, "global_step/max_steps": "286/12700"}
{"lm loss": 2.36454391, "grad_norm": 0.68085778, "learning_rate": 4.52e-05, "elapsed_time_per_iteration": 4.88062811, "memory(GiB)": 28.94, "elapsed_time": "24m 2s", "remaining_time": "17h 19m 37s", "loss_scale": 1.0, "consumed_samples": 73472, "global_step/max_steps": "287/12700"}
{"lm loss": 2.39278483, "grad_norm": 0.69338119, "learning_rate": 4.535e-05, "elapsed_time_per_iteration": 4.84856534, "memory(GiB)": 28.94, "elapsed_time": "24m 7s", "remaining_time": "17h 19m 25s", "loss_scale": 1.0, "consumed_samples": 73728, "global_step/max_steps": "288/12700"}
{"lm loss": 2.38235879, "grad_norm": 0.61022782, "learning_rate": 4.551e-05, "elapsed_time_per_iteration": 4.88925838, "memory(GiB)": 28.94, "elapsed_time": "24m 11s", "remaining_time": "17h 19m 14s", "loss_scale": 1.0, "consumed_samples": 73984, "global_step/max_steps": "289/12700"}
{"lm loss": 2.43951154, "grad_norm": 0.75185359, "learning_rate": 4.567e-05, "elapsed_time_per_iteration": 4.80210853, "memory(GiB)": 28.94, "elapsed_time": "24m 16s", "remaining_time": "17h 18m 59s", "loss_scale": 1.0, "consumed_samples": 74240, "global_step/max_steps": "290/12700"}
{"lm loss": 2.38985252, "grad_norm": 0.70012879, "learning_rate": 4.583e-05, "elapsed_time_per_iteration": 4.89303088, "memory(GiB)": 28.94, "elapsed_time": "24m 21s", "remaining_time": "17h 18m 49s", "loss_scale": 1.0, "consumed_samples": 74496, "global_step/max_steps": "291/12700"}
{"lm loss": 2.42294455, "grad_norm": 0.62765342, "learning_rate": 4.598e-05, "elapsed_time_per_iteration": 4.7971158, "memory(GiB)": 28.94, "elapsed_time": "24m 26s", "remaining_time": "17h 18m 34s", "loss_scale": 1.0, "consumed_samples": 74752, "global_step/max_steps": "292/12700"}
{"lm loss": 2.37130332, "grad_norm": 0.6414572, "learning_rate": 4.614e-05, "elapsed_time_per_iteration": 4.87422705, "memory(GiB)": 28.94, "elapsed_time": "24m 31s", "remaining_time": "17h 18m 23s", "loss_scale": 1.0, "consumed_samples": 75008, "global_step/max_steps": "293/12700"}
{"lm loss": 2.38651538, "grad_norm": 0.8516345, "learning_rate": 4.63e-05, "elapsed_time_per_iteration": 4.84298396, "memory(GiB)": 28.94, "elapsed_time": "24m 36s", "remaining_time": "17h 18m 10s", "loss_scale": 1.0, "consumed_samples": 75264, "global_step/max_steps": "294/12700"}
{"lm loss": 2.41765857, "grad_norm": 0.75628459, "learning_rate": 4.646e-05, "elapsed_time_per_iteration": 4.94631839, "memory(GiB)": 28.94, "elapsed_time": "24m 41s", "remaining_time": "17h 18m 2s", "loss_scale": 1.0, "consumed_samples": 75520, "global_step/max_steps": "295/12700"}
{"lm loss": 2.42067194, "grad_norm": 0.6020667, "learning_rate": 4.661e-05, "elapsed_time_per_iteration": 4.86228561, "memory(GiB)": 28.94, "elapsed_time": "24m 45s", "remaining_time": "17h 17m 51s", "loss_scale": 1.0, "consumed_samples": 75776, "global_step/max_steps": "296/12700"}
{"lm loss": 2.36299229, "grad_norm": 0.84983212, "learning_rate": 4.677e-05, "elapsed_time_per_iteration": 4.92455053, "memory(GiB)": 28.94, "elapsed_time": "24m 50s", "remaining_time": "17h 17m 42s", "loss_scale": 1.0, "consumed_samples": 76032, "global_step/max_steps": "297/12700"}
{"lm loss": 2.40455818, "grad_norm": 0.67311257, "learning_rate": 4.693e-05, "elapsed_time_per_iteration": 4.77777028, "memory(GiB)": 28.94, "elapsed_time": "24m 55s", "remaining_time": "17h 17m 26s", "loss_scale": 1.0, "consumed_samples": 76288, "global_step/max_steps": "298/12700"}
{"lm loss": 2.39217782, "grad_norm": 0.66966009, "learning_rate": 4.709e-05, "elapsed_time_per_iteration": 4.86107898, "memory(GiB)": 28.94, "elapsed_time": "25m 0s", "remaining_time": "17h 17m 15s", "loss_scale": 1.0, "consumed_samples": 76544, "global_step/max_steps": "299/12700"}
{"lm loss": 2.37647533, "grad_norm": 0.80896926, "learning_rate": 4.724e-05, "elapsed_time_per_iteration": 4.86563444, "memory(GiB)": 28.94, "elapsed_time": "25m 5s", "remaining_time": "17h 17m 4s", "loss_scale": 1.0, "consumed_samples": 76800, "global_step/max_steps": "300/12700"}
{"lm loss": 2.35896111, "grad_norm": 0.77465099, "learning_rate": 4.74e-05, "elapsed_time_per_iteration": 4.86660719, "memory(GiB)": 28.94, "elapsed_time": "25m 10s", "remaining_time": "17h 16m 52s", "loss_scale": 1.0, "consumed_samples": 77056, "global_step/max_steps": "301/12700"}
{"lm loss": 2.3940661, "grad_norm": 0.58585614, "learning_rate": 4.756e-05, "elapsed_time_per_iteration": 4.85840368, "memory(GiB)": 28.94, "elapsed_time": "25m 15s", "remaining_time": "17h 16m 41s", "loss_scale": 1.0, "consumed_samples": 77312, "global_step/max_steps": "302/12700"}
{"lm loss": 2.35060596, "grad_norm": 0.75661057, "learning_rate": 4.772e-05, "elapsed_time_per_iteration": 4.85002828, "memory(GiB)": 28.94, "elapsed_time": "25m 19s", "remaining_time": "17h 16m 29s", "loss_scale": 1.0, "consumed_samples": 77568, "global_step/max_steps": "303/12700"}
{"lm loss": 2.38918495, "grad_norm": 0.64372939, "learning_rate": 4.787e-05, "elapsed_time_per_iteration": 4.80146384, "memory(GiB)": 28.94, "elapsed_time": "25m 24s", "remaining_time": "17h 16m 15s", "loss_scale": 1.0, "consumed_samples": 77824, "global_step/max_steps": "304/12700"}
{"lm loss": 2.39342999, "grad_norm": 0.64651948, "learning_rate": 4.803e-05, "elapsed_time_per_iteration": 4.83545113, "memory(GiB)": 28.94, "elapsed_time": "25m 29s", "remaining_time": "17h 16m 3s", "loss_scale": 1.0, "consumed_samples": 78080, "global_step/max_steps": "305/12700"}
{"lm loss": 2.39130974, "grad_norm": 0.56714112, "learning_rate": 4.819e-05, "elapsed_time_per_iteration": 4.98205185, "memory(GiB)": 28.94, "elapsed_time": "25m 34s", "remaining_time": "17h 15m 56s", "loss_scale": 1.0, "consumed_samples": 78336, "global_step/max_steps": "306/12700"}
{"lm loss": 2.37381649, "grad_norm": 0.62671626, "learning_rate": 4.835e-05, "elapsed_time_per_iteration": 4.85432148, "memory(GiB)": 28.94, "elapsed_time": "25m 39s", "remaining_time": "17h 15m 45s", "loss_scale": 1.0, "consumed_samples": 78592, "global_step/max_steps": "307/12700"}
{"lm loss": 2.37993288, "grad_norm": 0.61369038, "learning_rate": 4.85e-05, "elapsed_time_per_iteration": 4.83403349, "memory(GiB)": 28.94, "elapsed_time": "25m 44s", "remaining_time": "17h 15m 33s", "loss_scale": 1.0, "consumed_samples": 78848, "global_step/max_steps": "308/12700"}
{"lm loss": 2.38983083, "grad_norm": 0.60424542, "learning_rate": 4.866e-05, "elapsed_time_per_iteration": 4.81778479, "memory(GiB)": 28.94, "elapsed_time": "25m 49s", "remaining_time": "17h 15m 20s", "loss_scale": 1.0, "consumed_samples": 79104, "global_step/max_steps": "309/12700"}
{"lm loss": 2.37335801, "grad_norm": 0.61990947, "learning_rate": 4.882e-05, "elapsed_time_per_iteration": 4.844594, "memory(GiB)": 28.94, "elapsed_time": "25m 53s", "remaining_time": "17h 15m 8s", "loss_scale": 1.0, "consumed_samples": 79360, "global_step/max_steps": "310/12700"}
{"lm loss": 2.38488531, "grad_norm": 0.68063092, "learning_rate": 4.898e-05, "elapsed_time_per_iteration": 4.83537245, "memory(GiB)": 28.94, "elapsed_time": "25m 58s", "remaining_time": "17h 14m 56s", "loss_scale": 1.0, "consumed_samples": 79616, "global_step/max_steps": "311/12700"}
{"lm loss": 2.41908073, "grad_norm": 0.63795096, "learning_rate": 4.913e-05, "elapsed_time_per_iteration": 4.79362893, "memory(GiB)": 28.94, "elapsed_time": "26m 3s", "remaining_time": "17h 14m 42s", "loss_scale": 1.0, "consumed_samples": 79872, "global_step/max_steps": "312/12700"}
{"lm loss": 2.4009397, "grad_norm": 0.67415404, "learning_rate": 4.929e-05, "elapsed_time_per_iteration": 4.8598814, "memory(GiB)": 28.94, "elapsed_time": "26m 8s", "remaining_time": "17h 14m 31s", "loss_scale": 1.0, "consumed_samples": 80128, "global_step/max_steps": "313/12700"}
{"lm loss": 2.39920616, "grad_norm": 0.65515912, "learning_rate": 4.945e-05, "elapsed_time_per_iteration": 4.82959318, "memory(GiB)": 28.94, "elapsed_time": "26m 13s", "remaining_time": "17h 14m 19s", "loss_scale": 1.0, "consumed_samples": 80384, "global_step/max_steps": "314/12700"}
{"lm loss": 2.39891458, "grad_norm": 0.68036973, "learning_rate": 4.961e-05, "elapsed_time_per_iteration": 4.88257027, "memory(GiB)": 28.94, "elapsed_time": "26m 18s", "remaining_time": "17h 14m 9s", "loss_scale": 1.0, "consumed_samples": 80640, "global_step/max_steps": "315/12700"}
{"lm loss": 2.40400767, "grad_norm": 0.67776078, "learning_rate": 4.976e-05, "elapsed_time_per_iteration": 4.9318819, "memory(GiB)": 28.94, "elapsed_time": "26m 23s", "remaining_time": "17h 14m 1s", "loss_scale": 1.0, "consumed_samples": 80896, "global_step/max_steps": "316/12700"}
{"lm loss": 2.40372705, "grad_norm": 0.60751021, "learning_rate": 4.992e-05, "elapsed_time_per_iteration": 4.83297133, "memory(GiB)": 28.94, "elapsed_time": "26m 27s", "remaining_time": "17h 13m 49s", "loss_scale": 1.0, "consumed_samples": 81152, "global_step/max_steps": "317/12700"}
{"lm loss": 2.39522791, "grad_norm": 0.63259089, "learning_rate": 5.008e-05, "elapsed_time_per_iteration": 4.94570374, "memory(GiB)": 28.94, "elapsed_time": "26m 32s", "remaining_time": "17h 13m 41s", "loss_scale": 1.0, "consumed_samples": 81408, "global_step/max_steps": "318/12700"}
{"lm loss": 2.37985492, "grad_norm": 0.58561379, "learning_rate": 5.024e-05, "elapsed_time_per_iteration": 4.83257198, "memory(GiB)": 28.94, "elapsed_time": "26m 37s", "remaining_time": "17h 13m 30s", "loss_scale": 1.0, "consumed_samples": 81664, "global_step/max_steps": "319/12700"}
{"lm loss": 2.3615303, "grad_norm": 0.74921805, "learning_rate": 5.039e-05, "elapsed_time_per_iteration": 4.77604508, "memory(GiB)": 28.94, "elapsed_time": "26m 42s", "remaining_time": "17h 13m 16s", "loss_scale": 1.0, "consumed_samples": 81920, "global_step/max_steps": "320/12700"}
{"lm loss": 2.36281872, "grad_norm": 0.72295368, "learning_rate": 5.055e-05, "elapsed_time_per_iteration": 5.00847125, "memory(GiB)": 28.94, "elapsed_time": "26m 47s", "remaining_time": "17h 13m 11s", "loss_scale": 1.0, "consumed_samples": 82176, "global_step/max_steps": "321/12700"}
{"lm loss": 2.36587763, "grad_norm": 0.68968552, "learning_rate": 5.071e-05, "elapsed_time_per_iteration": 4.88857388, "memory(GiB)": 28.94, "elapsed_time": "26m 52s", "remaining_time": "17h 13m 1s", "loss_scale": 1.0, "consumed_samples": 82432, "global_step/max_steps": "322/12700"}
{"lm loss": 2.37920904, "grad_norm": 0.65527463, "learning_rate": 5.087e-05, "elapsed_time_per_iteration": 4.85148478, "memory(GiB)": 28.94, "elapsed_time": "26m 57s", "remaining_time": "17h 12m 50s", "loss_scale": 1.0, "consumed_samples": 82688, "global_step/max_steps": "323/12700"}
{"lm loss": 2.40885448, "grad_norm": 0.74912, "learning_rate": 5.102e-05, "elapsed_time_per_iteration": 4.83306694, "memory(GiB)": 28.94, "elapsed_time": "27m 2s", "remaining_time": "17h 12m 38s", "loss_scale": 1.0, "consumed_samples": 82944, "global_step/max_steps": "324/12700"}
{"lm loss": 2.35083723, "grad_norm": 0.81609738, "learning_rate": 5.118e-05, "elapsed_time_per_iteration": 5.10948515, "memory(GiB)": 28.94, "elapsed_time": "27m 7s", "remaining_time": "17h 12m 37s", "loss_scale": 1.0, "consumed_samples": 83200, "global_step/max_steps": "325/12700"}
{"lm loss": 2.38898301, "grad_norm": 0.67311871, "learning_rate": 5.134e-05, "elapsed_time_per_iteration": 4.9992702, "memory(GiB)": 28.94, "elapsed_time": "27m 12s", "remaining_time": "17h 12m 32s", "loss_scale": 1.0, "consumed_samples": 83456, "global_step/max_steps": "326/12700"}
{"lm loss": 2.37369061, "grad_norm": 0.71890086, "learning_rate": 5.15e-05, "elapsed_time_per_iteration": 4.84467387, "memory(GiB)": 28.94, "elapsed_time": "27m 17s", "remaining_time": "17h 12m 21s", "loss_scale": 1.0, "consumed_samples": 83712, "global_step/max_steps": "327/12700"}
{"lm loss": 2.38948417, "grad_norm": 0.84498817, "learning_rate": 5.165e-05, "elapsed_time_per_iteration": 4.83833981, "memory(GiB)": 28.94, "elapsed_time": "27m 21s", "remaining_time": "17h 12m 10s", "loss_scale": 1.0, "consumed_samples": 83968, "global_step/max_steps": "328/12700"}
{"lm loss": 2.41702747, "grad_norm": 0.81016469, "learning_rate": 5.181e-05, "elapsed_time_per_iteration": 4.87062526, "memory(GiB)": 28.94, "elapsed_time": "27m 26s", "remaining_time": "17h 11m 59s", "loss_scale": 1.0, "consumed_samples": 84224, "global_step/max_steps": "329/12700"}
{"lm loss": 2.36189103, "grad_norm": 0.82335091, "learning_rate": 5.197e-05, "elapsed_time_per_iteration": 4.89599109, "memory(GiB)": 28.94, "elapsed_time": "27m 31s", "remaining_time": "17h 11m 50s", "loss_scale": 1.0, "consumed_samples": 84480, "global_step/max_steps": "330/12700"}
{"lm loss": 2.35780501, "grad_norm": 0.65166134, "learning_rate": 5.213e-05, "elapsed_time_per_iteration": 4.86072016, "memory(GiB)": 28.94, "elapsed_time": "27m 36s", "remaining_time": "17h 11m 40s", "loss_scale": 1.0, "consumed_samples": 84736, "global_step/max_steps": "331/12700"}
{"lm loss": 2.36301231, "grad_norm": 0.69154006, "learning_rate": 5.228e-05, "elapsed_time_per_iteration": 4.89425778, "memory(GiB)": 28.94, "elapsed_time": "27m 41s", "remaining_time": "17h 11m 31s", "loss_scale": 1.0, "consumed_samples": 84992, "global_step/max_steps": "332/12700"}
{"lm loss": 2.41706419, "grad_norm": 0.71456856, "learning_rate": 5.244e-05, "elapsed_time_per_iteration": 4.89909029, "memory(GiB)": 28.94, "elapsed_time": "27m 46s", "remaining_time": "17h 11m 22s", "loss_scale": 1.0, "consumed_samples": 85248, "global_step/max_steps": "333/12700"}
{"lm loss": 2.37968016, "grad_norm": 0.68648452, "learning_rate": 5.26e-05, "elapsed_time_per_iteration": 4.850214, "memory(GiB)": 28.94, "elapsed_time": "27m 51s", "remaining_time": "17h 11m 11s", "loss_scale": 1.0, "consumed_samples": 85504, "global_step/max_steps": "334/12700"}
{"lm loss": 2.41319609, "grad_norm": 0.67396933, "learning_rate": 5.276e-05, "elapsed_time_per_iteration": 4.89462543, "memory(GiB)": 28.94, "elapsed_time": "27m 56s", "remaining_time": "17h 11m 2s", "loss_scale": 1.0, "consumed_samples": 85760, "global_step/max_steps": "335/12700"}
{"lm loss": 2.39224839, "grad_norm": 0.62694758, "learning_rate": 5.291e-05, "elapsed_time_per_iteration": 4.87222719, "memory(GiB)": 28.94, "elapsed_time": "28m 0s", "remaining_time": "17h 10m 52s", "loss_scale": 1.0, "consumed_samples": 86016, "global_step/max_steps": "336/12700"}
{"lm loss": 2.32586384, "grad_norm": 0.63902861, "learning_rate": 5.307e-05, "elapsed_time_per_iteration": 4.91927552, "memory(GiB)": 28.94, "elapsed_time": "28m 5s", "remaining_time": "17h 10m 44s", "loss_scale": 1.0, "consumed_samples": 86272, "global_step/max_steps": "337/12700"}
{"lm loss": 2.40782046, "grad_norm": 0.65922123, "learning_rate": 5.323e-05, "elapsed_time_per_iteration": 4.91350961, "memory(GiB)": 28.94, "elapsed_time": "28m 10s", "remaining_time": "17h 10m 36s", "loss_scale": 1.0, "consumed_samples": 86528, "global_step/max_steps": "338/12700"}
{"lm loss": 2.38920164, "grad_norm": 0.64302826, "learning_rate": 5.339e-05, "elapsed_time_per_iteration": 4.85828257, "memory(GiB)": 28.94, "elapsed_time": "28m 15s", "remaining_time": "17h 10m 26s", "loss_scale": 1.0, "consumed_samples": 86784, "global_step/max_steps": "339/12700"}
{"lm loss": 2.35770345, "grad_norm": 0.66660124, "learning_rate": 5.354e-05, "elapsed_time_per_iteration": 4.95991898, "memory(GiB)": 28.94, "elapsed_time": "28m 20s", "remaining_time": "17h 10m 19s", "loss_scale": 1.0, "consumed_samples": 87040, "global_step/max_steps": "340/12700"}
{"lm loss": 2.38245845, "grad_norm": 0.70409286, "learning_rate": 5.37e-05, "elapsed_time_per_iteration": 4.93015909, "memory(GiB)": 28.94, "elapsed_time": "28m 25s", "remaining_time": "17h 10m 12s", "loss_scale": 1.0, "consumed_samples": 87296, "global_step/max_steps": "341/12700"}
{"lm loss": 2.3466301, "grad_norm": 0.58536667, "learning_rate": 5.386e-05, "elapsed_time_per_iteration": 4.86013198, "memory(GiB)": 28.94, "elapsed_time": "28m 30s", "remaining_time": "17h 10m 2s", "loss_scale": 1.0, "consumed_samples": 87552, "global_step/max_steps": "342/12700"}
{"lm loss": 2.37934828, "grad_norm": 0.69923621, "learning_rate": 5.402e-05, "elapsed_time_per_iteration": 4.86424589, "memory(GiB)": 28.94, "elapsed_time": "28m 35s", "remaining_time": "17h 9m 52s", "loss_scale": 1.0, "consumed_samples": 87808, "global_step/max_steps": "343/12700"}
{"lm loss": 2.36196733, "grad_norm": 0.71161455, "learning_rate": 5.417e-05, "elapsed_time_per_iteration": 4.95565391, "memory(GiB)": 28.94, "elapsed_time": "28m 40s", "remaining_time": "17h 9m 45s", "loss_scale": 1.0, "consumed_samples": 88064, "global_step/max_steps": "344/12700"}
{"lm loss": 2.39563346, "grad_norm": 0.62622029, "learning_rate": 5.433e-05, "elapsed_time_per_iteration": 4.78231907, "memory(GiB)": 28.94, "elapsed_time": "28m 44s", "remaining_time": "17h 9m 32s", "loss_scale": 1.0, "consumed_samples": 88320, "global_step/max_steps": "345/12700"}
{"lm loss": 2.33829117, "grad_norm": 0.64028007, "learning_rate": 5.449e-05, "elapsed_time_per_iteration": 4.96392083, "memory(GiB)": 28.94, "elapsed_time": "28m 49s", "remaining_time": "17h 9m 26s", "loss_scale": 1.0, "consumed_samples": 88576, "global_step/max_steps": "346/12700"}
{"lm loss": 2.35631371, "grad_norm": 0.6605553, "learning_rate": 5.465e-05, "elapsed_time_per_iteration": 5.12579393, "memory(GiB)": 28.94, "elapsed_time": "28m 55s", "remaining_time": "17h 9m 26s", "loss_scale": 1.0, "consumed_samples": 88832, "global_step/max_steps": "347/12700"}
{"lm loss": 2.35723329, "grad_norm": 0.75713772, "learning_rate": 5.48e-05, "elapsed_time_per_iteration": 4.98720336, "memory(GiB)": 28.94, "elapsed_time": "29m 0s", "remaining_time": "17h 9m 20s", "loss_scale": 1.0, "consumed_samples": 89088, "global_step/max_steps": "348/12700"}
{"lm loss": 2.36512256, "grad_norm": 0.68446523, "learning_rate": 5.496e-05, "elapsed_time_per_iteration": 4.86196613, "memory(GiB)": 28.94, "elapsed_time": "29m 4s", "remaining_time": "17h 9m 10s", "loss_scale": 1.0, "consumed_samples": 89344, "global_step/max_steps": "349/12700"}
{"lm loss": 2.38045311, "grad_norm": 0.70977747, "learning_rate": 5.512e-05, "elapsed_time_per_iteration": 4.95456505, "memory(GiB)": 28.94, "elapsed_time": "29m 9s", "remaining_time": "17h 9m 4s", "loss_scale": 1.0, "consumed_samples": 89600, "global_step/max_steps": "350/12700"}
{"lm loss": 2.34448147, "grad_norm": 0.68544161, "learning_rate": 5.528e-05, "elapsed_time_per_iteration": 4.84849405, "memory(GiB)": 28.94, "elapsed_time": "29m 14s", "remaining_time": "17h 8m 53s", "loss_scale": 1.0, "consumed_samples": 89856, "global_step/max_steps": "351/12700"}
{"lm loss": 2.40481257, "grad_norm": 0.66941273, "learning_rate": 5.543e-05, "elapsed_time_per_iteration": 4.91903186, "memory(GiB)": 28.94, "elapsed_time": "29m 19s", "remaining_time": "17h 8m 45s", "loss_scale": 1.0, "consumed_samples": 90112, "global_step/max_steps": "352/12700"}
{"lm loss": 2.36402941, "grad_norm": 0.8429141, "learning_rate": 5.559e-05, "elapsed_time_per_iteration": 4.95059371, "memory(GiB)": 28.94, "elapsed_time": "29m 24s", "remaining_time": "17h 8m 39s", "loss_scale": 1.0, "consumed_samples": 90368, "global_step/max_steps": "353/12700"}
{"lm loss": 2.3613174, "grad_norm": 0.73810929, "learning_rate": 5.575e-05, "elapsed_time_per_iteration": 4.82300735, "memory(GiB)": 28.94, "elapsed_time": "29m 29s", "remaining_time": "17h 8m 28s", "loss_scale": 1.0, "consumed_samples": 90624, "global_step/max_steps": "354/12700"}
{"lm loss": 2.36638236, "grad_norm": 0.6867975, "learning_rate": 5.591e-05, "elapsed_time_per_iteration": 4.91682458, "memory(GiB)": 28.94, "elapsed_time": "29m 34s", "remaining_time": "17h 8m 20s", "loss_scale": 1.0, "consumed_samples": 90880, "global_step/max_steps": "355/12700"}
{"lm loss": 2.39598966, "grad_norm": 0.61990964, "learning_rate": 5.606e-05, "elapsed_time_per_iteration": 4.80655456, "memory(GiB)": 28.94, "elapsed_time": "29m 39s", "remaining_time": "17h 8m 8s", "loss_scale": 1.0, "consumed_samples": 91136, "global_step/max_steps": "356/12700"}
{"lm loss": 2.35336185, "grad_norm": 0.6723364, "learning_rate": 5.622e-05, "elapsed_time_per_iteration": 4.88263941, "memory(GiB)": 28.94, "elapsed_time": "29m 43s", "remaining_time": "17h 7m 59s", "loss_scale": 1.0, "consumed_samples": 91392, "global_step/max_steps": "357/12700"}
{"lm loss": 2.38707519, "grad_norm": 0.75187749, "learning_rate": 5.638e-05, "elapsed_time_per_iteration": 4.80027986, "memory(GiB)": 28.94, "elapsed_time": "29m 48s", "remaining_time": "17h 7m 47s", "loss_scale": 1.0, "consumed_samples": 91648, "global_step/max_steps": "358/12700"}
{"lm loss": 2.38746762, "grad_norm": 0.69494337, "learning_rate": 5.654e-05, "elapsed_time_per_iteration": 4.80145764, "memory(GiB)": 28.94, "elapsed_time": "29m 53s", "remaining_time": "17h 7m 36s", "loss_scale": 1.0, "consumed_samples": 91904, "global_step/max_steps": "359/12700"}
{"lm loss": 2.35237026, "grad_norm": 0.61748636, "learning_rate": 5.669e-05, "elapsed_time_per_iteration": 4.83819246, "memory(GiB)": 28.94, "elapsed_time": "29m 58s", "remaining_time": "17h 7m 25s", "loss_scale": 1.0, "consumed_samples": 92160, "global_step/max_steps": "360/12700"}
{"lm loss": 2.37933779, "grad_norm": 0.65968758, "learning_rate": 5.685e-05, "elapsed_time_per_iteration": 4.78309631, "memory(GiB)": 28.94, "elapsed_time": "30m 3s", "remaining_time": "17h 7m 13s", "loss_scale": 1.0, "consumed_samples": 92416, "global_step/max_steps": "361/12700"}
{"lm loss": 2.3577857, "grad_norm": 0.91652036, "learning_rate": 5.701e-05, "elapsed_time_per_iteration": 4.85421896, "memory(GiB)": 28.94, "elapsed_time": "30m 8s", "remaining_time": "17h 7m 3s", "loss_scale": 1.0, "consumed_samples": 92672, "global_step/max_steps": "362/12700"}
{"lm loss": 2.38903999, "grad_norm": 0.9187727, "learning_rate": 5.717e-05, "elapsed_time_per_iteration": 4.91782546, "memory(GiB)": 28.94, "elapsed_time": "30m 12s", "remaining_time": "17h 6m 56s", "loss_scale": 1.0, "consumed_samples": 92928, "global_step/max_steps": "363/12700"}
{"lm loss": 2.34016776, "grad_norm": 0.68214852, "learning_rate": 5.732e-05, "elapsed_time_per_iteration": 4.81368375, "memory(GiB)": 28.94, "elapsed_time": "30m 17s", "remaining_time": "17h 6m 45s", "loss_scale": 1.0, "consumed_samples": 93184, "global_step/max_steps": "364/12700"}
{"lm loss": 2.4152379, "grad_norm": 0.72349936, "learning_rate": 5.748e-05, "elapsed_time_per_iteration": 4.79645538, "memory(GiB)": 28.94, "elapsed_time": "30m 22s", "remaining_time": "17h 6m 33s", "loss_scale": 1.0, "consumed_samples": 93440, "global_step/max_steps": "365/12700"}
{"lm loss": 2.39057803, "grad_norm": 0.86182636, "learning_rate": 5.764e-05, "elapsed_time_per_iteration": 4.8809514, "memory(GiB)": 28.94, "elapsed_time": "30m 27s", "remaining_time": "17h 6m 24s", "loss_scale": 1.0, "consumed_samples": 93696, "global_step/max_steps": "366/12700"}
{"lm loss": 2.40475535, "grad_norm": 0.83724493, "learning_rate": 5.78e-05, "elapsed_time_per_iteration": 4.94820833, "memory(GiB)": 28.94, "elapsed_time": "30m 32s", "remaining_time": "17h 6m 18s", "loss_scale": 1.0, "consumed_samples": 93952, "global_step/max_steps": "367/12700"}
{"lm loss": 2.39047766, "grad_norm": 0.6203118, "learning_rate": 5.795e-05, "elapsed_time_per_iteration": 4.88105869, "memory(GiB)": 28.94, "elapsed_time": "30m 37s", "remaining_time": "17h 6m 9s", "loss_scale": 1.0, "consumed_samples": 94208, "global_step/max_steps": "368/12700"}
{"lm loss": 2.3433063, "grad_norm": 0.69890296, "learning_rate": 5.811e-05, "elapsed_time_per_iteration": 4.85303187, "memory(GiB)": 28.94, "elapsed_time": "30m 42s", "remaining_time": "17h 5m 59s", "loss_scale": 1.0, "consumed_samples": 94464, "global_step/max_steps": "369/12700"}
{"lm loss": 2.35652471, "grad_norm": 0.72078001, "learning_rate": 5.827e-05, "elapsed_time_per_iteration": 4.86730409, "memory(GiB)": 28.94, "elapsed_time": "30m 47s", "remaining_time": "17h 5m 50s", "loss_scale": 1.0, "consumed_samples": 94720, "global_step/max_steps": "370/12700"}
{"lm loss": 2.3315022, "grad_norm": 0.58585262, "learning_rate": 5.843e-05, "elapsed_time_per_iteration": 4.80976892, "memory(GiB)": 28.94, "elapsed_time": "30m 51s", "remaining_time": "17h 5m 39s", "loss_scale": 1.0, "consumed_samples": 94976, "global_step/max_steps": "371/12700"}
{"lm loss": 2.34840512, "grad_norm": 0.69141406, "learning_rate": 5.858e-05, "elapsed_time_per_iteration": 4.94032931, "memory(GiB)": 28.94, "elapsed_time": "30m 56s", "remaining_time": "17h 5m 32s", "loss_scale": 1.0, "consumed_samples": 95232, "global_step/max_steps": "372/12700"}
{"lm loss": 2.41388774, "grad_norm": 0.67348111, "learning_rate": 5.874e-05, "elapsed_time_per_iteration": 4.84643483, "memory(GiB)": 28.94, "elapsed_time": "31m 1s", "remaining_time": "17h 5m 23s", "loss_scale": 1.0, "consumed_samples": 95488, "global_step/max_steps": "373/12700"}
{"lm loss": 2.35596085, "grad_norm": 0.64129013, "learning_rate": 5.89e-05, "elapsed_time_per_iteration": 4.89946175, "memory(GiB)": 28.94, "elapsed_time": "31m 6s", "remaining_time": "17h 5m 15s", "loss_scale": 1.0, "consumed_samples": 95744, "global_step/max_steps": "374/12700"}
{"lm loss": 2.39178753, "grad_norm": 0.60661674, "learning_rate": 5.906e-05, "elapsed_time_per_iteration": 4.87792015, "memory(GiB)": 28.94, "elapsed_time": "31m 11s", "remaining_time": "17h 5m 6s", "loss_scale": 1.0, "consumed_samples": 96000, "global_step/max_steps": "375/12700"}
{"lm loss": 2.34658265, "grad_norm": 0.73940766, "learning_rate": 5.921e-05, "elapsed_time_per_iteration": 4.817132, "memory(GiB)": 28.94, "elapsed_time": "31m 16s", "remaining_time": "17h 4m 55s", "loss_scale": 1.0, "consumed_samples": 96256, "global_step/max_steps": "376/12700"}
{"lm loss": 2.3794136, "grad_norm": 0.73383582, "learning_rate": 5.937e-05, "elapsed_time_per_iteration": 4.88339901, "memory(GiB)": 28.94, "elapsed_time": "31m 21s", "remaining_time": "17h 4m 47s", "loss_scale": 1.0, "consumed_samples": 96512, "global_step/max_steps": "377/12700"}
{"lm loss": 2.34582829, "grad_norm": 0.64200288, "learning_rate": 5.953e-05, "elapsed_time_per_iteration": 4.80454445, "memory(GiB)": 28.94, "elapsed_time": "31m 25s", "remaining_time": "17h 4m 36s", "loss_scale": 1.0, "consumed_samples": 96768, "global_step/max_steps": "378/12700"}
{"lm loss": 2.32917881, "grad_norm": 0.64407915, "learning_rate": 5.969e-05, "elapsed_time_per_iteration": 4.87830353, "memory(GiB)": 28.94, "elapsed_time": "31m 30s", "remaining_time": "17h 4m 27s", "loss_scale": 1.0, "consumed_samples": 97024, "global_step/max_steps": "379/12700"}
{"lm loss": 2.34079814, "grad_norm": 0.74195772, "learning_rate": 5.984e-05, "elapsed_time_per_iteration": 4.93123055, "memory(GiB)": 28.94, "elapsed_time": "31m 35s", "remaining_time": "17h 4m 20s", "loss_scale": 1.0, "consumed_samples": 97280, "global_step/max_steps": "380/12700"}
{"lm loss": 2.36257648, "grad_norm": 0.83417767, "learning_rate": 6e-05, "elapsed_time_per_iteration": 4.95700145, "memory(GiB)": 28.94, "elapsed_time": "31m 40s", "remaining_time": "17h 4m 14s", "loss_scale": 1.0, "consumed_samples": 97536, "global_step/max_steps": "381/12700"}
{"lm loss": 2.36289811, "grad_norm": 0.7028361, "learning_rate": 6.016e-05, "elapsed_time_per_iteration": 4.90181684, "memory(GiB)": 28.94, "elapsed_time": "31m 45s", "remaining_time": "17h 4m 6s", "loss_scale": 1.0, "consumed_samples": 97792, "global_step/max_steps": "382/12700"}
{"lm loss": 2.3515687, "grad_norm": 0.73541701, "learning_rate": 6.031e-05, "elapsed_time_per_iteration": 4.82798696, "memory(GiB)": 28.94, "elapsed_time": "31m 50s", "remaining_time": "17h 3m 56s", "loss_scale": 1.0, "consumed_samples": 98048, "global_step/max_steps": "383/12700"}
{"lm loss": 2.35540676, "grad_norm": 0.72903895, "learning_rate": 6.047e-05, "elapsed_time_per_iteration": 4.82859826, "memory(GiB)": 28.94, "elapsed_time": "31m 55s", "remaining_time": "17h 3m 46s", "loss_scale": 1.0, "consumed_samples": 98304, "global_step/max_steps": "384/12700"}
{"lm loss": 2.38958478, "grad_norm": 0.69779152, "learning_rate": 6.063e-05, "elapsed_time_per_iteration": 4.85349154, "memory(GiB)": 28.94, "elapsed_time": "32m 0s", "remaining_time": "17h 3m 37s", "loss_scale": 1.0, "consumed_samples": 98560, "global_step/max_steps": "385/12700"}
{"lm loss": 2.31670427, "grad_norm": 0.69582021, "learning_rate": 6.079e-05, "elapsed_time_per_iteration": 4.82266212, "memory(GiB)": 28.94, "elapsed_time": "32m 4s", "remaining_time": "17h 3m 27s", "loss_scale": 1.0, "consumed_samples": 98816, "global_step/max_steps": "386/12700"}
{"lm loss": 2.33727193, "grad_norm": 0.82185322, "learning_rate": 6.094e-05, "elapsed_time_per_iteration": 4.82316351, "memory(GiB)": 28.94, "elapsed_time": "32m 9s", "remaining_time": "17h 3m 16s", "loss_scale": 1.0, "consumed_samples": 99072, "global_step/max_steps": "387/12700"}
{"lm loss": 2.40785122, "grad_norm": 0.78757739, "learning_rate": 6.11e-05, "elapsed_time_per_iteration": 5.03119397, "memory(GiB)": 28.94, "elapsed_time": "32m 14s", "remaining_time": "17h 3m 13s", "loss_scale": 1.0, "consumed_samples": 99328, "global_step/max_steps": "388/12700"}
{"lm loss": 2.36048579, "grad_norm": 0.63729137, "learning_rate": 6.126e-05, "elapsed_time_per_iteration": 4.89135194, "memory(GiB)": 28.94, "elapsed_time": "32m 19s", "remaining_time": "17h 3m 5s", "loss_scale": 1.0, "consumed_samples": 99584, "global_step/max_steps": "389/12700"}
{"lm loss": 2.35598373, "grad_norm": 0.79874295, "learning_rate": 6.142e-05, "elapsed_time_per_iteration": 4.89691591, "memory(GiB)": 28.94, "elapsed_time": "32m 24s", "remaining_time": "17h 2m 57s", "loss_scale": 1.0, "consumed_samples": 99840, "global_step/max_steps": "390/12700"}
{"lm loss": 2.35025072, "grad_norm": 0.68151891, "learning_rate": 6.157e-05, "elapsed_time_per_iteration": 4.88387728, "memory(GiB)": 28.94, "elapsed_time": "32m 29s", "remaining_time": "17h 2m 49s", "loss_scale": 1.0, "consumed_samples": 100096, "global_step/max_steps": "391/12700"}
{"lm loss": 2.35053968, "grad_norm": 0.60073602, "learning_rate": 6.173e-05, "elapsed_time_per_iteration": 4.87330103, "memory(GiB)": 28.94, "elapsed_time": "32m 34s", "remaining_time": "17h 2m 40s", "loss_scale": 1.0, "consumed_samples": 100352, "global_step/max_steps": "392/12700"}
{"lm loss": 2.34942269, "grad_norm": 0.76616758, "learning_rate": 6.189e-05, "elapsed_time_per_iteration": 4.87985849, "memory(GiB)": 28.94, "elapsed_time": "32m 39s", "remaining_time": "17h 2m 32s", "loss_scale": 1.0, "consumed_samples": 100608, "global_step/max_steps": "393/12700"}
{"lm loss": 2.35909104, "grad_norm": 0.7531302, "learning_rate": 6.205e-05, "elapsed_time_per_iteration": 4.9537406, "memory(GiB)": 28.94, "elapsed_time": "32m 44s", "remaining_time": "17h 2m 26s", "loss_scale": 1.0, "consumed_samples": 100864, "global_step/max_steps": "394/12700"}
{"lm loss": 2.34199166, "grad_norm": 0.72657216, "learning_rate": 6.22e-05, "elapsed_time_per_iteration": 4.79494739, "memory(GiB)": 28.94, "elapsed_time": "32m 48s", "remaining_time": "17h 2m 15s", "loss_scale": 1.0, "consumed_samples": 101120, "global_step/max_steps": "395/12700"}
{"lm loss": 2.36305285, "grad_norm": 0.65589523, "learning_rate": 6.236e-05, "elapsed_time_per_iteration": 4.87428379, "memory(GiB)": 28.94, "elapsed_time": "32m 53s", "remaining_time": "17h 2m 7s", "loss_scale": 1.0, "consumed_samples": 101376, "global_step/max_steps": "396/12700"}
{"lm loss": 2.39512682, "grad_norm": 0.62228584, "learning_rate": 6.252e-05, "elapsed_time_per_iteration": 4.91416121, "memory(GiB)": 28.94, "elapsed_time": "32m 58s", "remaining_time": "17h 2m 0s", "loss_scale": 1.0, "consumed_samples": 101632, "global_step/max_steps": "397/12700"}
{"lm loss": 2.33823943, "grad_norm": 0.69214803, "learning_rate": 6.268e-05, "elapsed_time_per_iteration": 4.79067087, "memory(GiB)": 28.94, "elapsed_time": "33m 3s", "remaining_time": "17h 1m 49s", "loss_scale": 1.0, "consumed_samples": 101888, "global_step/max_steps": "398/12700"}
{"lm loss": 2.35067534, "grad_norm": 0.69492018, "learning_rate": 6.283e-05, "elapsed_time_per_iteration": 4.90664411, "memory(GiB)": 28.94, "elapsed_time": "33m 8s", "remaining_time": "17h 1m 41s", "loss_scale": 1.0, "consumed_samples": 102144, "global_step/max_steps": "399/12700"}
{"lm loss": 2.33343363, "grad_norm": 0.60211802, "learning_rate": 6.299e-05, "elapsed_time_per_iteration": 4.82423282, "memory(GiB)": 28.94, "elapsed_time": "33m 13s", "remaining_time": "17h 1m 31s", "loss_scale": 1.0, "consumed_samples": 102400, "global_step/max_steps": "400/12700"}
{"lm loss": 2.36843991, "grad_norm": 0.74541664, "learning_rate": 6.315e-05, "elapsed_time_per_iteration": 4.79928017, "memory(GiB)": 28.94, "elapsed_time": "33m 18s", "remaining_time": "17h 1m 21s", "loss_scale": 1.0, "consumed_samples": 102656, "global_step/max_steps": "401/12700"}
{"lm loss": 2.35178494, "grad_norm": 0.67919129, "learning_rate": 6.331e-05, "elapsed_time_per_iteration": 4.93005109, "memory(GiB)": 28.94, "elapsed_time": "33m 22s", "remaining_time": "17h 1m 14s", "loss_scale": 1.0, "consumed_samples": 102912, "global_step/max_steps": "402/12700"}
{"lm loss": 2.36392498, "grad_norm": 0.63195443, "learning_rate": 6.346e-05, "elapsed_time_per_iteration": 5.02485847, "memory(GiB)": 28.94, "elapsed_time": "33m 27s", "remaining_time": "17h 1m 11s", "loss_scale": 1.0, "consumed_samples": 103168, "global_step/max_steps": "403/12700"}
{"lm loss": 2.35645509, "grad_norm": 0.75307083, "learning_rate": 6.362e-05, "elapsed_time_per_iteration": 4.89342165, "memory(GiB)": 28.94, "elapsed_time": "33m 32s", "remaining_time": "17h 1m 3s", "loss_scale": 1.0, "consumed_samples": 103424, "global_step/max_steps": "404/12700"}
{"lm loss": 2.37661886, "grad_norm": 0.76598203, "learning_rate": 6.378e-05, "elapsed_time_per_iteration": 4.85386109, "memory(GiB)": 28.94, "elapsed_time": "33m 37s", "remaining_time": "17h 0m 54s", "loss_scale": 1.0, "consumed_samples": 103680, "global_step/max_steps": "405/12700"}
{"lm loss": 2.34702873, "grad_norm": 0.79927093, "learning_rate": 6.394e-05, "elapsed_time_per_iteration": 4.93518305, "memory(GiB)": 28.94, "elapsed_time": "33m 42s", "remaining_time": "17h 0m 48s", "loss_scale": 1.0, "consumed_samples": 103936, "global_step/max_steps": "406/12700"}
{"lm loss": 2.33050632, "grad_norm": 0.68523669, "learning_rate": 6.409e-05, "elapsed_time_per_iteration": 4.80698395, "memory(GiB)": 28.94, "elapsed_time": "33m 47s", "remaining_time": "17h 0m 37s", "loss_scale": 1.0, "consumed_samples": 104192, "global_step/max_steps": "407/12700"}
{"lm loss": 2.34503794, "grad_norm": 0.5875324, "learning_rate": 6.425e-05, "elapsed_time_per_iteration": 4.96222401, "memory(GiB)": 28.94, "elapsed_time": "33m 52s", "remaining_time": "17h 0m 32s", "loss_scale": 1.0, "consumed_samples": 104448, "global_step/max_steps": "408/12700"}
{"lm loss": 2.35784054, "grad_norm": 0.66445434, "learning_rate": 6.441e-05, "elapsed_time_per_iteration": 4.89844203, "memory(GiB)": 28.94, "elapsed_time": "33m 57s", "remaining_time": "17h 0m 24s", "loss_scale": 1.0, "consumed_samples": 104704, "global_step/max_steps": "409/12700"}
{"lm loss": 2.33789325, "grad_norm": 0.66477221, "learning_rate": 6.457e-05, "elapsed_time_per_iteration": 4.87662721, "memory(GiB)": 28.94, "elapsed_time": "34m 2s", "remaining_time": "17h 0m 16s", "loss_scale": 1.0, "consumed_samples": 104960, "global_step/max_steps": "410/12700"}
{"lm loss": 2.35113525, "grad_norm": 0.7044242, "learning_rate": 6.472e-05, "elapsed_time_per_iteration": 4.86465859, "memory(GiB)": 28.94, "elapsed_time": "34m 7s", "remaining_time": "17h 0m 8s", "loss_scale": 1.0, "consumed_samples": 105216, "global_step/max_steps": "411/12700"}
{"lm loss": 2.33832335, "grad_norm": 0.77290535, "learning_rate": 6.488e-05, "elapsed_time_per_iteration": 4.89416003, "memory(GiB)": 28.94, "elapsed_time": "34m 11s", "remaining_time": "17h 0m 0s", "loss_scale": 1.0, "consumed_samples": 105472, "global_step/max_steps": "412/12700"}
{"lm loss": 2.37166214, "grad_norm": 0.67283899, "learning_rate": 6.504e-05, "elapsed_time_per_iteration": 4.96748543, "memory(GiB)": 28.94, "elapsed_time": "34m 16s", "remaining_time": "16h 59m 55s", "loss_scale": 1.0, "consumed_samples": 105728, "global_step/max_steps": "413/12700"}
{"lm loss": 2.33004475, "grad_norm": 0.72108656, "learning_rate": 6.52e-05, "elapsed_time_per_iteration": 4.96985388, "memory(GiB)": 28.94, "elapsed_time": "34m 21s", "remaining_time": "16h 59m 49s", "loss_scale": 1.0, "consumed_samples": 105984, "global_step/max_steps": "414/12700"}
{"lm loss": 2.36194229, "grad_norm": 0.68792069, "learning_rate": 6.535e-05, "elapsed_time_per_iteration": 4.86631489, "memory(GiB)": 28.94, "elapsed_time": "34m 26s", "remaining_time": "16h 59m 41s", "loss_scale": 1.0, "consumed_samples": 106240, "global_step/max_steps": "415/12700"}
{"lm loss": 2.34198737, "grad_norm": 0.59048051, "learning_rate": 6.551e-05, "elapsed_time_per_iteration": 4.9085114, "memory(GiB)": 28.94, "elapsed_time": "34m 31s", "remaining_time": "16h 59m 34s", "loss_scale": 1.0, "consumed_samples": 106496, "global_step/max_steps": "416/12700"}
{"lm loss": 2.36576009, "grad_norm": 0.65983999, "learning_rate": 6.567e-05, "elapsed_time_per_iteration": 4.92039967, "memory(GiB)": 28.94, "elapsed_time": "34m 36s", "remaining_time": "16h 59m 27s", "loss_scale": 1.0, "consumed_samples": 106752, "global_step/max_steps": "417/12700"}
{"lm loss": 2.34953427, "grad_norm": 0.7294116, "learning_rate": 6.583e-05, "elapsed_time_per_iteration": 4.92397404, "memory(GiB)": 28.94, "elapsed_time": "34m 41s", "remaining_time": "16h 59m 21s", "loss_scale": 1.0, "consumed_samples": 107008, "global_step/max_steps": "418/12700"}
{"lm loss": 2.35092449, "grad_norm": 0.79955351, "learning_rate": 6.598e-05, "elapsed_time_per_iteration": 4.93158722, "memory(GiB)": 28.94, "elapsed_time": "34m 46s", "remaining_time": "16h 59m 14s", "loss_scale": 1.0, "consumed_samples": 107264, "global_step/max_steps": "419/12700"}
{"lm loss": 2.3991158, "grad_norm": 0.8109253, "learning_rate": 6.614e-05, "elapsed_time_per_iteration": 4.7939899, "memory(GiB)": 28.94, "elapsed_time": "34m 51s", "remaining_time": "16h 59m 4s", "loss_scale": 1.0, "consumed_samples": 107520, "global_step/max_steps": "420/12700"}
{"lm loss": 2.35027742, "grad_norm": 0.73746091, "learning_rate": 6.63e-05, "elapsed_time_per_iteration": 4.92758942, "memory(GiB)": 28.94, "elapsed_time": "34m 56s", "remaining_time": "16h 58m 57s", "loss_scale": 1.0, "consumed_samples": 107776, "global_step/max_steps": "421/12700"}
{"lm loss": 2.35727119, "grad_norm": 0.73755515, "learning_rate": 6.646e-05, "elapsed_time_per_iteration": 5.0459938, "memory(GiB)": 28.94, "elapsed_time": "35m 1s", "remaining_time": "16h 58m 54s", "loss_scale": 1.0, "consumed_samples": 108032, "global_step/max_steps": "422/12700"}
{"lm loss": 2.36312914, "grad_norm": 0.73369968, "learning_rate": 6.661e-05, "elapsed_time_per_iteration": 4.97711444, "memory(GiB)": 28.94, "elapsed_time": "35m 6s", "remaining_time": "16h 58m 49s", "loss_scale": 1.0, "consumed_samples": 108288, "global_step/max_steps": "423/12700"}
{"lm loss": 2.36712766, "grad_norm": 0.72051615, "learning_rate": 6.677e-05, "elapsed_time_per_iteration": 4.88181591, "memory(GiB)": 28.94, "elapsed_time": "35m 11s", "remaining_time": "16h 58m 41s", "loss_scale": 1.0, "consumed_samples": 108544, "global_step/max_steps": "424/12700"}
{"lm loss": 2.34124708, "grad_norm": 0.6737048, "learning_rate": 6.693e-05, "elapsed_time_per_iteration": 4.87126851, "memory(GiB)": 28.94, "elapsed_time": "35m 15s", "remaining_time": "16h 58m 33s", "loss_scale": 1.0, "consumed_samples": 108800, "global_step/max_steps": "425/12700"}
{"lm loss": 2.34688187, "grad_norm": 0.73572677, "learning_rate": 6.709e-05, "elapsed_time_per_iteration": 4.91488886, "memory(GiB)": 28.94, "elapsed_time": "35m 20s", "remaining_time": "16h 58m 27s", "loss_scale": 1.0, "consumed_samples": 109056, "global_step/max_steps": "426/12700"}
{"lm loss": 2.3477571, "grad_norm": 0.64933008, "learning_rate": 6.724e-05, "elapsed_time_per_iteration": 4.83443713, "memory(GiB)": 28.94, "elapsed_time": "35m 25s", "remaining_time": "16h 58m 17s", "loss_scale": 1.0, "consumed_samples": 109312, "global_step/max_steps": "427/12700"}
{"lm loss": 2.36876559, "grad_norm": 0.74708045, "learning_rate": 6.74e-05, "elapsed_time_per_iteration": 4.90611076, "memory(GiB)": 28.94, "elapsed_time": "35m 30s", "remaining_time": "16h 58m 10s", "loss_scale": 1.0, "consumed_samples": 109568, "global_step/max_steps": "428/12700"}
{"lm loss": 2.343189, "grad_norm": 0.73589754, "learning_rate": 6.756e-05, "elapsed_time_per_iteration": 4.9154644, "memory(GiB)": 28.94, "elapsed_time": "35m 35s", "remaining_time": "16h 58m 4s", "loss_scale": 1.0, "consumed_samples": 109824, "global_step/max_steps": "429/12700"}
{"lm loss": 2.34251833, "grad_norm": 0.68808895, "learning_rate": 6.772e-05, "elapsed_time_per_iteration": 4.87768888, "memory(GiB)": 28.94, "elapsed_time": "35m 40s", "remaining_time": "16h 57m 56s", "loss_scale": 1.0, "consumed_samples": 110080, "global_step/max_steps": "430/12700"}
{"lm loss": 2.32176065, "grad_norm": 0.68986905, "learning_rate": 6.787e-05, "elapsed_time_per_iteration": 4.86813807, "memory(GiB)": 28.94, "elapsed_time": "35m 45s", "remaining_time": "16h 57m 48s", "loss_scale": 1.0, "consumed_samples": 110336, "global_step/max_steps": "431/12700"}
{"lm loss": 2.35772181, "grad_norm": 0.6351009, "learning_rate": 6.803e-05, "elapsed_time_per_iteration": 4.82428265, "memory(GiB)": 28.94, "elapsed_time": "35m 50s", "remaining_time": "16h 57m 38s", "loss_scale": 1.0, "consumed_samples": 110592, "global_step/max_steps": "432/12700"}
{"lm loss": 2.35965371, "grad_norm": 0.65796918, "learning_rate": 6.819e-05, "elapsed_time_per_iteration": 4.92675066, "memory(GiB)": 28.94, "elapsed_time": "35m 55s", "remaining_time": "16h 57m 32s", "loss_scale": 1.0, "consumed_samples": 110848, "global_step/max_steps": "433/12700"}
{"lm loss": 2.3711338, "grad_norm": 0.6794849, "learning_rate": 6.835e-05, "elapsed_time_per_iteration": 4.92545676, "memory(GiB)": 28.94, "elapsed_time": "35m 59s", "remaining_time": "16h 57m 26s", "loss_scale": 1.0, "consumed_samples": 111104, "global_step/max_steps": "434/12700"}
{"lm loss": 2.38334465, "grad_norm": 0.83115506, "learning_rate": 6.85e-05, "elapsed_time_per_iteration": 4.82932067, "memory(GiB)": 28.94, "elapsed_time": "36m 4s", "remaining_time": "16h 57m 16s", "loss_scale": 1.0, "consumed_samples": 111360, "global_step/max_steps": "435/12700"}
{"lm loss": 2.34060001, "grad_norm": 0.75397104, "learning_rate": 6.866e-05, "elapsed_time_per_iteration": 4.82079005, "memory(GiB)": 28.94, "elapsed_time": "36m 9s", "remaining_time": "16h 57m 7s", "loss_scale": 1.0, "consumed_samples": 111616, "global_step/max_steps": "436/12700"}
{"lm loss": 2.31200743, "grad_norm": 0.66596556, "learning_rate": 6.882e-05, "elapsed_time_per_iteration": 4.74748349, "memory(GiB)": 28.94, "elapsed_time": "36m 14s", "remaining_time": "16h 56m 56s", "loss_scale": 1.0, "consumed_samples": 111872, "global_step/max_steps": "437/12700"}
{"lm loss": 2.32763338, "grad_norm": 0.68702555, "learning_rate": 6.898e-05, "elapsed_time_per_iteration": 4.81753945, "memory(GiB)": 28.94, "elapsed_time": "36m 19s", "remaining_time": "16h 56m 46s", "loss_scale": 1.0, "consumed_samples": 112128, "global_step/max_steps": "438/12700"}
{"lm loss": 2.37052155, "grad_norm": 0.85486078, "learning_rate": 6.913e-05, "elapsed_time_per_iteration": 4.94345689, "memory(GiB)": 28.94, "elapsed_time": "36m 24s", "remaining_time": "16h 56m 40s", "loss_scale": 1.0, "consumed_samples": 112384, "global_step/max_steps": "439/12700"}
{"lm loss": 2.33315444, "grad_norm": 0.97359312, "learning_rate": 6.929e-05, "elapsed_time_per_iteration": 4.77939916, "memory(GiB)": 28.94, "elapsed_time": "36m 28s", "remaining_time": "16h 56m 30s", "loss_scale": 1.0, "consumed_samples": 112640, "global_step/max_steps": "440/12700"}
{"lm loss": 2.38103008, "grad_norm": 0.88175291, "learning_rate": 6.945e-05, "elapsed_time_per_iteration": 4.85601974, "memory(GiB)": 28.94, "elapsed_time": "36m 33s", "remaining_time": "16h 56m 22s", "loss_scale": 1.0, "consumed_samples": 112896, "global_step/max_steps": "441/12700"}
{"lm loss": 2.31570077, "grad_norm": 0.69977117, "learning_rate": 6.961e-05, "elapsed_time_per_iteration": 4.77491593, "memory(GiB)": 28.94, "elapsed_time": "36m 38s", "remaining_time": "16h 56m 11s", "loss_scale": 1.0, "consumed_samples": 113152, "global_step/max_steps": "442/12700"}
{"lm loss": 2.31562424, "grad_norm": 0.78740746, "learning_rate": 6.976e-05, "elapsed_time_per_iteration": 4.9518559, "memory(GiB)": 28.94, "elapsed_time": "36m 43s", "remaining_time": "16h 56m 6s", "loss_scale": 1.0, "consumed_samples": 113408, "global_step/max_steps": "443/12700"}
{"lm loss": 2.33170366, "grad_norm": 0.83710337, "learning_rate": 6.992e-05, "elapsed_time_per_iteration": 4.90226102, "memory(GiB)": 28.94, "elapsed_time": "36m 48s", "remaining_time": "16h 55m 59s", "loss_scale": 1.0, "consumed_samples": 113664, "global_step/max_steps": "444/12700"}
{"lm loss": 2.31005287, "grad_norm": 0.82523942, "learning_rate": 7.008e-05, "elapsed_time_per_iteration": 4.80010843, "memory(GiB)": 28.94, "elapsed_time": "36m 53s", "remaining_time": "16h 55m 49s", "loss_scale": 1.0, "consumed_samples": 113920, "global_step/max_steps": "445/12700"}
{"lm loss": 2.33846831, "grad_norm": 0.67078382, "learning_rate": 7.024e-05, "elapsed_time_per_iteration": 4.83590317, "memory(GiB)": 28.94, "elapsed_time": "36m 58s", "remaining_time": "16h 55m 40s", "loss_scale": 1.0, "consumed_samples": 114176, "global_step/max_steps": "446/12700"}
{"lm loss": 2.32047653, "grad_norm": 0.69517684, "learning_rate": 7.039e-05, "elapsed_time_per_iteration": 4.82700205, "memory(GiB)": 28.94, "elapsed_time": "37m 2s", "remaining_time": "16h 55m 31s", "loss_scale": 1.0, "consumed_samples": 114432, "global_step/max_steps": "447/12700"}
{"lm loss": 2.31987238, "grad_norm": 0.65898496, "learning_rate": 7.055e-05, "elapsed_time_per_iteration": 4.8944447, "memory(GiB)": 28.94, "elapsed_time": "37m 7s", "remaining_time": "16h 55m 24s", "loss_scale": 1.0, "consumed_samples": 114688, "global_step/max_steps": "448/12700"}
{"lm loss": 2.35562277, "grad_norm": 0.60425633, "learning_rate": 7.071e-05, "elapsed_time_per_iteration": 4.83606172, "memory(GiB)": 28.94, "elapsed_time": "37m 12s", "remaining_time": "16h 55m 15s", "loss_scale": 1.0, "consumed_samples": 114944, "global_step/max_steps": "449/12700"}
{"lm loss": 2.33663154, "grad_norm": 0.60875022, "learning_rate": 7.087e-05, "elapsed_time_per_iteration": 4.85644984, "memory(GiB)": 28.94, "elapsed_time": "37m 17s", "remaining_time": "16h 55m 7s", "loss_scale": 1.0, "consumed_samples": 115200, "global_step/max_steps": "450/12700"}
{"lm loss": 2.32924247, "grad_norm": 0.62745261, "learning_rate": 7.102e-05, "elapsed_time_per_iteration": 4.86374736, "memory(GiB)": 28.94, "elapsed_time": "37m 22s", "remaining_time": "16h 54m 59s", "loss_scale": 1.0, "consumed_samples": 115456, "global_step/max_steps": "451/12700"}
{"lm loss": 2.32920289, "grad_norm": 0.59024119, "learning_rate": 7.118e-05, "elapsed_time_per_iteration": 4.85904765, "memory(GiB)": 28.94, "elapsed_time": "37m 27s", "remaining_time": "16h 54m 51s", "loss_scale": 1.0, "consumed_samples": 115712, "global_step/max_steps": "452/12700"}
{"lm loss": 2.34833908, "grad_norm": 0.63388956, "learning_rate": 7.134e-05, "elapsed_time_per_iteration": 4.82470846, "memory(GiB)": 28.94, "elapsed_time": "37m 31s", "remaining_time": "16h 54m 42s", "loss_scale": 1.0, "consumed_samples": 115968, "global_step/max_steps": "453/12700"}
{"lm loss": 2.34463406, "grad_norm": 0.58344185, "learning_rate": 7.15e-05, "elapsed_time_per_iteration": 4.89987898, "memory(GiB)": 28.94, "elapsed_time": "37m 36s", "remaining_time": "16h 54m 35s", "loss_scale": 1.0, "consumed_samples": 116224, "global_step/max_steps": "454/12700"}
{"lm loss": 2.34407854, "grad_norm": 0.65000403, "learning_rate": 7.165e-05, "elapsed_time_per_iteration": 4.91466737, "memory(GiB)": 28.94, "elapsed_time": "37m 41s", "remaining_time": "16h 54m 29s", "loss_scale": 1.0, "consumed_samples": 116480, "global_step/max_steps": "455/12700"}
{"lm loss": 2.33782029, "grad_norm": 0.71189564, "learning_rate": 7.181e-05, "elapsed_time_per_iteration": 4.89639521, "memory(GiB)": 28.94, "elapsed_time": "37m 46s", "remaining_time": "16h 54m 22s", "loss_scale": 1.0, "consumed_samples": 116736, "global_step/max_steps": "456/12700"}
{"lm loss": 2.3367846, "grad_norm": 0.74335307, "learning_rate": 7.197e-05, "elapsed_time_per_iteration": 4.86057925, "memory(GiB)": 28.94, "elapsed_time": "37m 51s", "remaining_time": "16h 54m 14s", "loss_scale": 1.0, "consumed_samples": 116992, "global_step/max_steps": "457/12700"}
{"lm loss": 2.31903601, "grad_norm": 0.65663737, "learning_rate": 7.213e-05, "elapsed_time_per_iteration": 4.97659731, "memory(GiB)": 28.94, "elapsed_time": "37m 56s", "remaining_time": "16h 54m 9s", "loss_scale": 1.0, "consumed_samples": 117248, "global_step/max_steps": "458/12700"}
{"lm loss": 2.35881996, "grad_norm": 0.6730265, "learning_rate": 7.228e-05, "elapsed_time_per_iteration": 4.90238833, "memory(GiB)": 28.94, "elapsed_time": "38m 1s", "remaining_time": "16h 54m 2s", "loss_scale": 1.0, "consumed_samples": 117504, "global_step/max_steps": "459/12700"}
{"lm loss": 2.37052035, "grad_norm": 0.63768917, "learning_rate": 7.244e-05, "elapsed_time_per_iteration": 4.9805553, "memory(GiB)": 28.94, "elapsed_time": "38m 6s", "remaining_time": "16h 53m 58s", "loss_scale": 1.0, "consumed_samples": 117760, "global_step/max_steps": "460/12700"}
{"lm loss": 2.34410739, "grad_norm": 0.67014134, "learning_rate": 7.26e-05, "elapsed_time_per_iteration": 5.03091812, "memory(GiB)": 28.94, "elapsed_time": "38m 11s", "remaining_time": "16h 53m 54s", "loss_scale": 1.0, "consumed_samples": 118016, "global_step/max_steps": "461/12700"}
{"lm loss": 2.36220837, "grad_norm": 0.65947151, "learning_rate": 7.276e-05, "elapsed_time_per_iteration": 4.88732076, "memory(GiB)": 28.94, "elapsed_time": "38m 16s", "remaining_time": "16h 53m 47s", "loss_scale": 1.0, "consumed_samples": 118272, "global_step/max_steps": "462/12700"}
{"lm loss": 2.33276224, "grad_norm": 0.64684671, "learning_rate": 7.291e-05, "elapsed_time_per_iteration": 4.85835147, "memory(GiB)": 28.94, "elapsed_time": "38m 21s", "remaining_time": "16h 53m 39s", "loss_scale": 1.0, "consumed_samples": 118528, "global_step/max_steps": "463/12700"}
{"lm loss": 2.35649157, "grad_norm": 0.68561715, "learning_rate": 7.307e-05, "elapsed_time_per_iteration": 4.79124975, "memory(GiB)": 28.94, "elapsed_time": "38m 25s", "remaining_time": "16h 53m 30s", "loss_scale": 1.0, "consumed_samples": 118784, "global_step/max_steps": "464/12700"}
{"lm loss": 2.31852818, "grad_norm": 0.7159965, "learning_rate": 7.323e-05, "elapsed_time_per_iteration": 4.9393208, "memory(GiB)": 28.94, "elapsed_time": "38m 30s", "remaining_time": "16h 53m 24s", "loss_scale": 1.0, "consumed_samples": 119040, "global_step/max_steps": "465/12700"}
{"lm loss": 2.33898902, "grad_norm": 0.7365815, "learning_rate": 7.339e-05, "elapsed_time_per_iteration": 4.79439497, "memory(GiB)": 28.94, "elapsed_time": "38m 35s", "remaining_time": "16h 53m 14s", "loss_scale": 1.0, "consumed_samples": 119296, "global_step/max_steps": "466/12700"}
{"lm loss": 2.33501267, "grad_norm": 0.64770621, "learning_rate": 7.354e-05, "elapsed_time_per_iteration": 4.85825181, "memory(GiB)": 28.94, "elapsed_time": "38m 40s", "remaining_time": "16h 53m 6s", "loss_scale": 1.0, "consumed_samples": 119552, "global_step/max_steps": "467/12700"}
{"lm loss": 2.34475803, "grad_norm": 0.73665482, "learning_rate": 7.37e-05, "elapsed_time_per_iteration": 4.86142921, "memory(GiB)": 28.94, "elapsed_time": "38m 45s", "remaining_time": "16h 52m 59s", "loss_scale": 1.0, "consumed_samples": 119808, "global_step/max_steps": "468/12700"}
{"lm loss": 2.34056211, "grad_norm": 0.81913882, "learning_rate": 7.386e-05, "elapsed_time_per_iteration": 4.87867069, "memory(GiB)": 28.94, "elapsed_time": "38m 50s", "remaining_time": "16h 52m 51s", "loss_scale": 1.0, "consumed_samples": 120064, "global_step/max_steps": "469/12700"}
{"lm loss": 2.31650114, "grad_norm": 0.85782325, "learning_rate": 7.402e-05, "elapsed_time_per_iteration": 4.96231174, "memory(GiB)": 28.94, "elapsed_time": "38m 55s", "remaining_time": "16h 52m 46s", "loss_scale": 1.0, "consumed_samples": 120320, "global_step/max_steps": "470/12700"}
{"lm loss": 2.35998416, "grad_norm": 0.72742742, "learning_rate": 7.417e-05, "elapsed_time_per_iteration": 4.9407258, "memory(GiB)": 28.94, "elapsed_time": "39m 0s", "remaining_time": "16h 52m 40s", "loss_scale": 1.0, "consumed_samples": 120576, "global_step/max_steps": "471/12700"}
{"lm loss": 2.34757781, "grad_norm": 0.6865142, "learning_rate": 7.433e-05, "elapsed_time_per_iteration": 4.94585681, "memory(GiB)": 28.94, "elapsed_time": "39m 5s", "remaining_time": "16h 52m 35s", "loss_scale": 1.0, "consumed_samples": 120832, "global_step/max_steps": "472/12700"}
{"lm loss": 2.34643221, "grad_norm": 0.78528643, "learning_rate": 7.449e-05, "elapsed_time_per_iteration": 4.84301996, "memory(GiB)": 28.94, "elapsed_time": "39m 9s", "remaining_time": "16h 52m 27s", "loss_scale": 1.0, "consumed_samples": 121088, "global_step/max_steps": "473/12700"}
{"lm loss": 2.33249068, "grad_norm": 0.70164043, "learning_rate": 7.465e-05, "elapsed_time_per_iteration": 4.90866828, "memory(GiB)": 28.94, "elapsed_time": "39m 14s", "remaining_time": "16h 52m 20s", "loss_scale": 1.0, "consumed_samples": 121344, "global_step/max_steps": "474/12700"}
{"lm loss": 2.33854723, "grad_norm": 0.67885756, "learning_rate": 7.48e-05, "elapsed_time_per_iteration": 4.80183244, "memory(GiB)": 28.94, "elapsed_time": "39m 19s", "remaining_time": "16h 52m 11s", "loss_scale": 1.0, "consumed_samples": 121600, "global_step/max_steps": "475/12700"}
{"lm loss": 2.34028697, "grad_norm": 0.70974171, "learning_rate": 7.496e-05, "elapsed_time_per_iteration": 4.92035556, "memory(GiB)": 28.94, "elapsed_time": "39m 24s", "remaining_time": "16h 52m 5s", "loss_scale": 1.0, "consumed_samples": 121856, "global_step/max_steps": "476/12700"}
{"lm loss": 2.36131692, "grad_norm": 0.60026163, "learning_rate": 7.512e-05, "elapsed_time_per_iteration": 4.86061645, "memory(GiB)": 28.94, "elapsed_time": "39m 29s", "remaining_time": "16h 51m 57s", "loss_scale": 1.0, "consumed_samples": 122112, "global_step/max_steps": "477/12700"}
{"lm loss": 2.31961107, "grad_norm": 0.6719377, "learning_rate": 7.528e-05, "elapsed_time_per_iteration": 4.82325244, "memory(GiB)": 28.94, "elapsed_time": "39m 34s", "remaining_time": "16h 51m 48s", "loss_scale": 1.0, "consumed_samples": 122368, "global_step/max_steps": "478/12700"}
{"lm loss": 2.35049963, "grad_norm": 0.68608618, "learning_rate": 7.543e-05, "elapsed_time_per_iteration": 4.83252788, "memory(GiB)": 28.94, "elapsed_time": "39m 39s", "remaining_time": "16h 51m 40s", "loss_scale": 1.0, "consumed_samples": 122624, "global_step/max_steps": "479/12700"}
{"lm loss": 2.34278107, "grad_norm": 0.69431269, "learning_rate": 7.559e-05, "elapsed_time_per_iteration": 4.84670758, "memory(GiB)": 28.94, "elapsed_time": "39m 43s", "remaining_time": "16h 51m 32s", "loss_scale": 1.0, "consumed_samples": 122880, "global_step/max_steps": "480/12700"}
{"lm loss": 2.31973529, "grad_norm": 0.60516369, "learning_rate": 7.575e-05, "elapsed_time_per_iteration": 4.85795498, "memory(GiB)": 28.94, "elapsed_time": "39m 48s", "remaining_time": "16h 51m 24s", "loss_scale": 1.0, "consumed_samples": 123136, "global_step/max_steps": "481/12700"}
{"lm loss": 2.33316088, "grad_norm": 0.62289995, "learning_rate": 7.591e-05, "elapsed_time_per_iteration": 4.79256558, "memory(GiB)": 28.94, "elapsed_time": "39m 53s", "remaining_time": "16h 51m 15s", "loss_scale": 1.0, "consumed_samples": 123392, "global_step/max_steps": "482/12700"}
{"lm loss": 2.31341076, "grad_norm": 0.70005125, "learning_rate": 7.606e-05, "elapsed_time_per_iteration": 4.82068133, "memory(GiB)": 28.94, "elapsed_time": "39m 58s", "remaining_time": "16h 51m 6s", "loss_scale": 1.0, "consumed_samples": 123648, "global_step/max_steps": "483/12700"}
{"lm loss": 2.35658073, "grad_norm": 0.64623594, "learning_rate": 7.622e-05, "elapsed_time_per_iteration": 4.95391679, "memory(GiB)": 28.94, "elapsed_time": "40m 3s", "remaining_time": "16h 51m 1s", "loss_scale": 1.0, "consumed_samples": 123904, "global_step/max_steps": "484/12700"}
{"lm loss": 2.32261324, "grad_norm": 0.67777824, "learning_rate": 7.638e-05, "elapsed_time_per_iteration": 4.92703104, "memory(GiB)": 28.94, "elapsed_time": "40m 8s", "remaining_time": "16h 50m 55s", "loss_scale": 1.0, "consumed_samples": 124160, "global_step/max_steps": "485/12700"}
{"lm loss": 2.3425312, "grad_norm": 0.66423655, "learning_rate": 7.654e-05, "elapsed_time_per_iteration": 4.80804372, "memory(GiB)": 28.94, "elapsed_time": "40m 13s", "remaining_time": "16h 50m 46s", "loss_scale": 1.0, "consumed_samples": 124416, "global_step/max_steps": "486/12700"}
{"lm loss": 2.35378218, "grad_norm": 0.62035835, "learning_rate": 7.669e-05, "elapsed_time_per_iteration": 4.89294529, "memory(GiB)": 28.94, "elapsed_time": "40m 18s", "remaining_time": "16h 50m 39s", "loss_scale": 1.0, "consumed_samples": 124672, "global_step/max_steps": "487/12700"}
{"lm loss": 2.33987808, "grad_norm": 0.65238094, "learning_rate": 7.685e-05, "elapsed_time_per_iteration": 4.84698987, "memory(GiB)": 28.94, "elapsed_time": "40m 22s", "remaining_time": "16h 50m 31s", "loss_scale": 1.0, "consumed_samples": 124928, "global_step/max_steps": "488/12700"}
{"lm loss": 2.37035489, "grad_norm": 0.6721251, "learning_rate": 7.701e-05, "elapsed_time_per_iteration": 4.79912853, "memory(GiB)": 28.94, "elapsed_time": "40m 27s", "remaining_time": "16h 50m 22s", "loss_scale": 1.0, "consumed_samples": 125184, "global_step/max_steps": "489/12700"}
{"lm loss": 2.3896482, "grad_norm": 0.77675992, "learning_rate": 7.717e-05, "elapsed_time_per_iteration": 4.91187644, "memory(GiB)": 28.94, "elapsed_time": "40m 32s", "remaining_time": "16h 50m 16s", "loss_scale": 1.0, "consumed_samples": 125440, "global_step/max_steps": "490/12700"}
{"lm loss": 2.31850791, "grad_norm": 0.70808357, "learning_rate": 7.732e-05, "elapsed_time_per_iteration": 4.93656659, "memory(GiB)": 28.94, "elapsed_time": "40m 37s", "remaining_time": "16h 50m 10s", "loss_scale": 1.0, "consumed_samples": 125696, "global_step/max_steps": "491/12700"}
{"lm loss": 2.30784369, "grad_norm": 0.75948977, "learning_rate": 7.748e-05, "elapsed_time_per_iteration": 4.9227953, "memory(GiB)": 28.94, "elapsed_time": "40m 42s", "remaining_time": "16h 50m 4s", "loss_scale": 1.0, "consumed_samples": 125952, "global_step/max_steps": "492/12700"}
{"lm loss": 2.3569901, "grad_norm": 0.73574114, "learning_rate": 7.764e-05, "elapsed_time_per_iteration": 4.9475143, "memory(GiB)": 28.94, "elapsed_time": "40m 47s", "remaining_time": "16h 49m 59s", "loss_scale": 1.0, "consumed_samples": 126208, "global_step/max_steps": "493/12700"}
{"lm loss": 2.34846091, "grad_norm": 0.73697662, "learning_rate": 7.78e-05, "elapsed_time_per_iteration": 4.82627773, "memory(GiB)": 28.94, "elapsed_time": "40m 52s", "remaining_time": "16h 49m 51s", "loss_scale": 1.0, "consumed_samples": 126464, "global_step/max_steps": "494/12700"}
{"lm loss": 2.34365511, "grad_norm": 0.69320643, "learning_rate": 7.795e-05, "elapsed_time_per_iteration": 4.86817956, "memory(GiB)": 28.94, "elapsed_time": "40m 57s", "remaining_time": "16h 49m 43s", "loss_scale": 1.0, "consumed_samples": 126720, "global_step/max_steps": "495/12700"}
{"lm loss": 2.34275389, "grad_norm": 0.76113242, "learning_rate": 7.811e-05, "elapsed_time_per_iteration": 5.00638509, "memory(GiB)": 28.94, "elapsed_time": "41m 2s", "remaining_time": "16h 49m 39s", "loss_scale": 1.0, "consumed_samples": 126976, "global_step/max_steps": "496/12700"}
{"lm loss": 2.31627297, "grad_norm": 0.82712191, "learning_rate": 7.827e-05, "elapsed_time_per_iteration": 4.91817689, "memory(GiB)": 28.94, "elapsed_time": "41m 7s", "remaining_time": "16h 49m 33s", "loss_scale": 1.0, "consumed_samples": 127232, "global_step/max_steps": "497/12700"}
{"lm loss": 2.31986713, "grad_norm": 0.73691219, "learning_rate": 7.843e-05, "elapsed_time_per_iteration": 4.87124944, "memory(GiB)": 28.94, "elapsed_time": "41m 11s", "remaining_time": "16h 49m 26s", "loss_scale": 1.0, "consumed_samples": 127488, "global_step/max_steps": "498/12700"}
{"lm loss": 2.32090187, "grad_norm": 0.75753474, "learning_rate": 7.858e-05, "elapsed_time_per_iteration": 4.94370556, "memory(GiB)": 28.94, "elapsed_time": "41m 16s", "remaining_time": "16h 49m 21s", "loss_scale": 1.0, "consumed_samples": 127744, "global_step/max_steps": "499/12700"}
{"lm loss": 2.35975218, "grad_norm": 0.80559927, "learning_rate": 7.874e-05, "elapsed_time_per_iteration": 4.79541659, "memory(GiB)": 28.94, "elapsed_time": "41m 21s", "remaining_time": "16h 49m 11s", "loss_scale": 1.0, "consumed_samples": 128000, "global_step/max_steps": "500/12700"}
{"lm loss": 2.32950044, "grad_norm": 0.66021186, "learning_rate": 7.89e-05, "elapsed_time_per_iteration": 4.82045078, "memory(GiB)": 28.94, "elapsed_time": "41m 26s", "remaining_time": "16h 49m 3s", "loss_scale": 1.0, "consumed_samples": 128256, "global_step/max_steps": "501/12700"}
{"lm loss": 2.33676434, "grad_norm": 0.64805585, "learning_rate": 7.906e-05, "elapsed_time_per_iteration": 4.78803635, "memory(GiB)": 28.94, "elapsed_time": "41m 31s", "remaining_time": "16h 48m 54s", "loss_scale": 1.0, "consumed_samples": 128512, "global_step/max_steps": "502/12700"}
{"lm loss": 2.31310844, "grad_norm": 0.6793555, "learning_rate": 7.921e-05, "elapsed_time_per_iteration": 4.90531063, "memory(GiB)": 28.94, "elapsed_time": "41m 36s", "remaining_time": "16h 48m 47s", "loss_scale": 1.0, "consumed_samples": 128768, "global_step/max_steps": "503/12700"}
{"lm loss": 2.35204959, "grad_norm": 0.75622833, "learning_rate": 7.937e-05, "elapsed_time_per_iteration": 4.86159372, "memory(GiB)": 28.94, "elapsed_time": "41m 41s", "remaining_time": "16h 48m 40s", "loss_scale": 1.0, "consumed_samples": 129024, "global_step/max_steps": "504/12700"}
{"lm loss": 2.31890321, "grad_norm": 0.6882332, "learning_rate": 7.953e-05, "elapsed_time_per_iteration": 4.9048326, "memory(GiB)": 28.94, "elapsed_time": "41m 45s", "remaining_time": "16h 48m 34s", "loss_scale": 1.0, "consumed_samples": 129280, "global_step/max_steps": "505/12700"}
{"lm loss": 2.30782819, "grad_norm": 0.72390509, "learning_rate": 7.969e-05, "elapsed_time_per_iteration": 4.94556284, "memory(GiB)": 28.94, "elapsed_time": "41m 50s", "remaining_time": "16h 48m 28s", "loss_scale": 1.0, "consumed_samples": 129536, "global_step/max_steps": "506/12700"}
{"lm loss": 2.30441117, "grad_norm": 0.72939575, "learning_rate": 7.984e-05, "elapsed_time_per_iteration": 4.85559654, "memory(GiB)": 28.94, "elapsed_time": "41m 55s", "remaining_time": "16h 48m 21s", "loss_scale": 1.0, "consumed_samples": 129792, "global_step/max_steps": "507/12700"}
{"lm loss": 2.3226862, "grad_norm": 0.80611694, "learning_rate": 8e-05, "elapsed_time_per_iteration": 4.84649467, "memory(GiB)": 28.94, "elapsed_time": "42m 0s", "remaining_time": "16h 48m 13s", "loss_scale": 1.0, "consumed_samples": 130048, "global_step/max_steps": "508/12700"}
{"lm loss": 2.30633998, "grad_norm": 0.76987422, "learning_rate": 8.016e-05, "elapsed_time_per_iteration": 4.88955307, "memory(GiB)": 28.94, "elapsed_time": "42m 5s", "remaining_time": "16h 48m 6s", "loss_scale": 1.0, "consumed_samples": 130304, "global_step/max_steps": "509/12700"}
{"lm loss": 2.32302904, "grad_norm": 0.62463289, "learning_rate": 8.031e-05, "elapsed_time_per_iteration": 4.84774113, "memory(GiB)": 28.94, "elapsed_time": "42m 10s", "remaining_time": "16h 47m 59s", "loss_scale": 1.0, "consumed_samples": 130560, "global_step/max_steps": "510/12700"}
{"lm loss": 2.30755115, "grad_norm": 0.59855127, "learning_rate": 8.047e-05, "elapsed_time_per_iteration": 4.81875992, "memory(GiB)": 28.94, "elapsed_time": "42m 15s", "remaining_time": "16h 47m 50s", "loss_scale": 1.0, "consumed_samples": 130816, "global_step/max_steps": "511/12700"}
{"lm loss": 2.30416369, "grad_norm": 0.63610572, "learning_rate": 8.063e-05, "elapsed_time_per_iteration": 4.85882521, "memory(GiB)": 28.94, "elapsed_time": "42m 19s", "remaining_time": "16h 47m 43s", "loss_scale": 1.0, "consumed_samples": 131072, "global_step/max_steps": "512/12700"}
{"lm loss": 2.31817579, "grad_norm": 0.69493902, "learning_rate": 8.079e-05, "elapsed_time_per_iteration": 4.94590926, "memory(GiB)": 28.94, "elapsed_time": "42m 24s", "remaining_time": "16h 47m 38s", "loss_scale": 1.0, "consumed_samples": 131328, "global_step/max_steps": "513/12700"}
{"lm loss": 2.30101991, "grad_norm": 0.73887873, "learning_rate": 8.094e-05, "elapsed_time_per_iteration": 4.82731247, "memory(GiB)": 28.94, "elapsed_time": "42m 29s", "remaining_time": "16h 47m 29s", "loss_scale": 1.0, "consumed_samples": 131584, "global_step/max_steps": "514/12700"}
{"lm loss": 2.34671712, "grad_norm": 0.68339962, "learning_rate": 8.11e-05, "elapsed_time_per_iteration": 4.88270473, "memory(GiB)": 28.94, "elapsed_time": "42m 34s", "remaining_time": "16h 47m 23s", "loss_scale": 1.0, "consumed_samples": 131840, "global_step/max_steps": "515/12700"}
{"lm loss": 2.30798316, "grad_norm": 0.67531431, "learning_rate": 8.126e-05, "elapsed_time_per_iteration": 4.92468691, "memory(GiB)": 28.94, "elapsed_time": "42m 39s", "remaining_time": "16h 47m 17s", "loss_scale": 1.0, "consumed_samples": 132096, "global_step/max_steps": "516/12700"}
{"lm loss": 2.33230996, "grad_norm": 0.66988325, "learning_rate": 8.142e-05, "elapsed_time_per_iteration": 4.98242116, "memory(GiB)": 28.94, "elapsed_time": "42m 44s", "remaining_time": "16h 47m 12s", "loss_scale": 1.0, "consumed_samples": 132352, "global_step/max_steps": "517/12700"}
{"lm loss": 2.34034896, "grad_norm": 0.69617671, "learning_rate": 8.157e-05, "elapsed_time_per_iteration": 4.84527278, "memory(GiB)": 28.94, "elapsed_time": "42m 49s", "remaining_time": "16h 47m 5s", "loss_scale": 1.0, "consumed_samples": 132608, "global_step/max_steps": "518/12700"}
{"lm loss": 2.31280088, "grad_norm": 0.7090295, "learning_rate": 8.173e-05, "elapsed_time_per_iteration": 4.90461874, "memory(GiB)": 28.94, "elapsed_time": "42m 54s", "remaining_time": "16h 46m 59s", "loss_scale": 1.0, "consumed_samples": 132864, "global_step/max_steps": "519/12700"}
{"lm loss": 2.32359576, "grad_norm": 0.69793957, "learning_rate": 8.189e-05, "elapsed_time_per_iteration": 4.84558749, "memory(GiB)": 28.94, "elapsed_time": "42m 59s", "remaining_time": "16h 46m 51s", "loss_scale": 1.0, "consumed_samples": 133120, "global_step/max_steps": "520/12700"}
{"lm loss": 2.32213473, "grad_norm": 0.66893762, "learning_rate": 8.205e-05, "elapsed_time_per_iteration": 5.08541059, "memory(GiB)": 28.94, "elapsed_time": "43m 4s", "remaining_time": "16h 46m 49s", "loss_scale": 1.0, "consumed_samples": 133376, "global_step/max_steps": "521/12700"}
{"lm loss": 2.33589721, "grad_norm": 0.72165173, "learning_rate": 8.22e-05, "elapsed_time_per_iteration": 4.89459586, "memory(GiB)": 28.94, "elapsed_time": "43m 9s", "remaining_time": "16h 46m 42s", "loss_scale": 1.0, "consumed_samples": 133632, "global_step/max_steps": "522/12700"}
{"lm loss": 2.34198165, "grad_norm": 0.7719081, "learning_rate": 8.236e-05, "elapsed_time_per_iteration": 4.87802148, "memory(GiB)": 28.94, "elapsed_time": "43m 13s", "remaining_time": "16h 46m 35s", "loss_scale": 1.0, "consumed_samples": 133888, "global_step/max_steps": "523/12700"}
{"lm loss": 2.32830048, "grad_norm": 0.72545063, "learning_rate": 8.252e-05, "elapsed_time_per_iteration": 4.89792466, "memory(GiB)": 28.94, "elapsed_time": "43m 18s", "remaining_time": "16h 46m 29s", "loss_scale": 1.0, "consumed_samples": 134144, "global_step/max_steps": "524/12700"}
{"lm loss": 2.33969259, "grad_norm": 0.58540547, "learning_rate": 8.268e-05, "elapsed_time_per_iteration": 4.85272837, "memory(GiB)": 28.94, "elapsed_time": "43m 23s", "remaining_time": "16h 46m 22s", "loss_scale": 1.0, "consumed_samples": 134400, "global_step/max_steps": "525/12700"}
{"lm loss": 2.33783412, "grad_norm": 0.7431677, "learning_rate": 8.283e-05, "elapsed_time_per_iteration": 4.85158539, "memory(GiB)": 28.94, "elapsed_time": "43m 28s", "remaining_time": "16h 46m 14s", "loss_scale": 1.0, "consumed_samples": 134656, "global_step/max_steps": "526/12700"}
{"lm loss": 2.2983768, "grad_norm": 0.70894587, "learning_rate": 8.299e-05, "elapsed_time_per_iteration": 4.88578248, "memory(GiB)": 28.94, "elapsed_time": "43m 33s", "remaining_time": "16h 46m 8s", "loss_scale": 1.0, "consumed_samples": 134912, "global_step/max_steps": "527/12700"}
{"lm loss": 2.3172698, "grad_norm": 0.5659318, "learning_rate": 8.315e-05, "elapsed_time_per_iteration": 4.83622241, "memory(GiB)": 28.94, "elapsed_time": "43m 38s", "remaining_time": "16h 46m 0s", "loss_scale": 1.0, "consumed_samples": 135168, "global_step/max_steps": "528/12700"}
{"lm loss": 2.34104753, "grad_norm": 0.71339142, "learning_rate": 8.331e-05, "elapsed_time_per_iteration": 4.9168067, "memory(GiB)": 28.94, "elapsed_time": "43m 43s", "remaining_time": "16h 45m 54s", "loss_scale": 1.0, "consumed_samples": 135424, "global_step/max_steps": "529/12700"}
{"lm loss": 2.30392075, "grad_norm": 0.67625344, "learning_rate": 8.346e-05, "elapsed_time_per_iteration": 4.79611325, "memory(GiB)": 28.94, "elapsed_time": "43m 48s", "remaining_time": "16h 45m 45s", "loss_scale": 1.0, "consumed_samples": 135680, "global_step/max_steps": "530/12700"}
{"lm loss": 2.35077929, "grad_norm": 0.59790397, "learning_rate": 8.362e-05, "elapsed_time_per_iteration": 4.90197039, "memory(GiB)": 28.94, "elapsed_time": "43m 52s", "remaining_time": "16h 45m 39s", "loss_scale": 1.0, "consumed_samples": 135936, "global_step/max_steps": "531/12700"}
{"lm loss": 2.31975079, "grad_norm": 0.6724999, "learning_rate": 8.378e-05, "elapsed_time_per_iteration": 4.82266068, "memory(GiB)": 28.94, "elapsed_time": "43m 57s", "remaining_time": "16h 45m 31s", "loss_scale": 1.0, "consumed_samples": 136192, "global_step/max_steps": "532/12700"}
{"lm loss": 2.30420184, "grad_norm": 0.71625477, "learning_rate": 8.394e-05, "elapsed_time_per_iteration": 4.86641026, "memory(GiB)": 28.94, "elapsed_time": "44m 2s", "remaining_time": "16h 45m 24s", "loss_scale": 1.0, "consumed_samples": 136448, "global_step/max_steps": "533/12700"}
{"lm loss": 2.3657155, "grad_norm": 0.67073715, "learning_rate": 8.409e-05, "elapsed_time_per_iteration": 4.76588535, "memory(GiB)": 28.94, "elapsed_time": "44m 7s", "remaining_time": "16h 45m 14s", "loss_scale": 1.0, "consumed_samples": 136704, "global_step/max_steps": "534/12700"}
{"lm loss": 2.29045773, "grad_norm": 0.66014236, "learning_rate": 8.425e-05, "elapsed_time_per_iteration": 4.85007215, "memory(GiB)": 28.94, "elapsed_time": "44m 12s", "remaining_time": "16h 45m 7s", "loss_scale": 1.0, "consumed_samples": 136960, "global_step/max_steps": "535/12700"}
{"lm loss": 2.28984499, "grad_norm": 0.77254927, "learning_rate": 8.441e-05, "elapsed_time_per_iteration": 4.94917989, "memory(GiB)": 28.94, "elapsed_time": "44m 17s", "remaining_time": "16h 45m 2s", "loss_scale": 1.0, "consumed_samples": 137216, "global_step/max_steps": "536/12700"}
{"lm loss": 2.30674505, "grad_norm": 0.77907962, "learning_rate": 8.457e-05, "elapsed_time_per_iteration": 5.06579638, "memory(GiB)": 28.94, "elapsed_time": "44m 22s", "remaining_time": "16h 44m 59s", "loss_scale": 1.0, "consumed_samples": 137472, "global_step/max_steps": "537/12700"}
{"lm loss": 2.33819604, "grad_norm": 0.72782201, "learning_rate": 8.472e-05, "elapsed_time_per_iteration": 4.85430789, "memory(GiB)": 28.94, "elapsed_time": "44m 27s", "remaining_time": "16h 44m 52s", "loss_scale": 1.0, "consumed_samples": 137728, "global_step/max_steps": "538/12700"}
{"lm loss": 2.29867196, "grad_norm": 0.70853734, "learning_rate": 8.488e-05, "elapsed_time_per_iteration": 4.83966374, "memory(GiB)": 28.94, "elapsed_time": "44m 31s", "remaining_time": "16h 44m 44s", "loss_scale": 1.0, "consumed_samples": 137984, "global_step/max_steps": "539/12700"}
{"lm loss": 2.33486891, "grad_norm": 0.70302063, "learning_rate": 8.504e-05, "elapsed_time_per_iteration": 4.86821508, "memory(GiB)": 28.94, "elapsed_time": "44m 36s", "remaining_time": "16h 44m 37s", "loss_scale": 1.0, "consumed_samples": 138240, "global_step/max_steps": "540/12700"}
{"lm loss": 2.36472225, "grad_norm": 0.68849915, "learning_rate": 8.52e-05, "elapsed_time_per_iteration": 4.83012915, "memory(GiB)": 28.94, "elapsed_time": "44m 41s", "remaining_time": "16h 44m 30s", "loss_scale": 1.0, "consumed_samples": 138496, "global_step/max_steps": "541/12700"}
{"lm loss": 2.30305123, "grad_norm": 0.75267524, "learning_rate": 8.535e-05, "elapsed_time_per_iteration": 4.98188257, "memory(GiB)": 28.94, "elapsed_time": "44m 46s", "remaining_time": "16h 44m 25s", "loss_scale": 1.0, "consumed_samples": 138752, "global_step/max_steps": "542/12700"}
{"lm loss": 2.31374907, "grad_norm": 0.83255309, "learning_rate": 8.551e-05, "elapsed_time_per_iteration": 4.84767938, "memory(GiB)": 28.94, "elapsed_time": "44m 51s", "remaining_time": "16h 44m 18s", "loss_scale": 1.0, "consumed_samples": 139008, "global_step/max_steps": "543/12700"}
{"lm loss": 2.36753058, "grad_norm": 0.79042375, "learning_rate": 8.567e-05, "elapsed_time_per_iteration": 4.96691632, "memory(GiB)": 28.94, "elapsed_time": "44m 56s", "remaining_time": "16h 44m 13s", "loss_scale": 1.0, "consumed_samples": 139264, "global_step/max_steps": "544/12700"}
{"lm loss": 2.31646395, "grad_norm": 0.72142565, "learning_rate": 8.583e-05, "elapsed_time_per_iteration": 4.99875855, "memory(GiB)": 28.94, "elapsed_time": "45m 1s", "remaining_time": "16h 44m 9s", "loss_scale": 1.0, "consumed_samples": 139520, "global_step/max_steps": "545/12700"}
{"lm loss": 2.32971478, "grad_norm": 0.76697057, "learning_rate": 8.598e-05, "elapsed_time_per_iteration": 4.86676788, "memory(GiB)": 28.94, "elapsed_time": "45m 6s", "remaining_time": "16h 44m 2s", "loss_scale": 1.0, "consumed_samples": 139776, "global_step/max_steps": "546/12700"}
{"lm loss": 2.29917192, "grad_norm": 0.63282984, "learning_rate": 8.614e-05, "elapsed_time_per_iteration": 4.91423702, "memory(GiB)": 28.94, "elapsed_time": "45m 11s", "remaining_time": "16h 43m 56s", "loss_scale": 1.0, "consumed_samples": 140032, "global_step/max_steps": "547/12700"}
{"lm loss": 2.31891108, "grad_norm": 0.57237124, "learning_rate": 8.63e-05, "elapsed_time_per_iteration": 4.91651201, "memory(GiB)": 28.94, "elapsed_time": "45m 16s", "remaining_time": "16h 43m 50s", "loss_scale": 1.0, "consumed_samples": 140288, "global_step/max_steps": "548/12700"}
{"lm loss": 2.3215065, "grad_norm": 0.74123931, "learning_rate": 8.646e-05, "elapsed_time_per_iteration": 4.83858085, "memory(GiB)": 28.94, "elapsed_time": "45m 20s", "remaining_time": "16h 43m 43s", "loss_scale": 1.0, "consumed_samples": 140544, "global_step/max_steps": "549/12700"}
{"lm loss": 2.30609179, "grad_norm": 0.64825809, "learning_rate": 8.661e-05, "elapsed_time_per_iteration": 4.90433168, "memory(GiB)": 28.94, "elapsed_time": "45m 25s", "remaining_time": "16h 43m 37s", "loss_scale": 1.0, "consumed_samples": 140800, "global_step/max_steps": "550/12700"}
{"lm loss": 2.32075143, "grad_norm": 0.58984792, "learning_rate": 8.677e-05, "elapsed_time_per_iteration": 4.82441473, "memory(GiB)": 28.94, "elapsed_time": "45m 30s", "remaining_time": "16h 43m 29s", "loss_scale": 1.0, "consumed_samples": 141056, "global_step/max_steps": "551/12700"}
{"lm loss": 2.34192967, "grad_norm": 0.57465154, "learning_rate": 8.693e-05, "elapsed_time_per_iteration": 4.85206151, "memory(GiB)": 28.94, "elapsed_time": "45m 35s", "remaining_time": "16h 43m 22s", "loss_scale": 1.0, "consumed_samples": 141312, "global_step/max_steps": "552/12700"}
{"lm loss": 2.31018639, "grad_norm": 0.5761497, "learning_rate": 8.709e-05, "elapsed_time_per_iteration": 4.97308612, "memory(GiB)": 28.94, "elapsed_time": "45m 40s", "remaining_time": "16h 43m 17s", "loss_scale": 1.0, "consumed_samples": 141568, "global_step/max_steps": "553/12700"}
{"lm loss": 2.30867481, "grad_norm": 0.61477441, "learning_rate": 8.724e-05, "elapsed_time_per_iteration": 4.79667258, "memory(GiB)": 28.94, "elapsed_time": "45m 45s", "remaining_time": "16h 43m 9s", "loss_scale": 1.0, "consumed_samples": 141824, "global_step/max_steps": "554/12700"}
{"lm loss": 2.32206488, "grad_norm": 0.63902217, "learning_rate": 8.74e-05, "elapsed_time_per_iteration": 4.89643645, "memory(GiB)": 28.94, "elapsed_time": "45m 50s", "remaining_time": "16h 43m 2s", "loss_scale": 1.0, "consumed_samples": 142080, "global_step/max_steps": "555/12700"}
{"lm loss": 2.32217646, "grad_norm": 0.69557101, "learning_rate": 8.756e-05, "elapsed_time_per_iteration": 4.9134016, "memory(GiB)": 28.94, "elapsed_time": "45m 55s", "remaining_time": "16h 42m 57s", "loss_scale": 1.0, "consumed_samples": 142336, "global_step/max_steps": "556/12700"}
{"lm loss": 2.30208468, "grad_norm": 0.72046769, "learning_rate": 8.772e-05, "elapsed_time_per_iteration": 4.94390011, "memory(GiB)": 28.94, "elapsed_time": "46m 0s", "remaining_time": "16h 42m 51s", "loss_scale": 1.0, "consumed_samples": 142592, "global_step/max_steps": "557/12700"}
{"lm loss": 2.31168151, "grad_norm": 0.75440556, "learning_rate": 8.787e-05, "elapsed_time_per_iteration": 4.85354257, "memory(GiB)": 28.94, "elapsed_time": "46m 4s", "remaining_time": "16h 42m 44s", "loss_scale": 1.0, "consumed_samples": 142848, "global_step/max_steps": "558/12700"}
{"lm loss": 2.35956573, "grad_norm": 0.8499465, "learning_rate": 8.803e-05, "elapsed_time_per_iteration": 4.94935822, "memory(GiB)": 28.94, "elapsed_time": "46m 9s", "remaining_time": "16h 42m 39s", "loss_scale": 1.0, "consumed_samples": 143104, "global_step/max_steps": "559/12700"}
{"lm loss": 2.31011367, "grad_norm": 0.85595, "learning_rate": 8.819e-05, "elapsed_time_per_iteration": 4.86311245, "memory(GiB)": 28.94, "elapsed_time": "46m 14s", "remaining_time": "16h 42m 32s", "loss_scale": 1.0, "consumed_samples": 143360, "global_step/max_steps": "560/12700"}
{"lm loss": 2.31537461, "grad_norm": 0.72449094, "learning_rate": 8.835e-05, "elapsed_time_per_iteration": 4.90492845, "memory(GiB)": 28.94, "elapsed_time": "46m 19s", "remaining_time": "16h 42m 26s", "loss_scale": 1.0, "consumed_samples": 143616, "global_step/max_steps": "561/12700"}
{"lm loss": 2.29420042, "grad_norm": 0.61824441, "learning_rate": 8.85e-05, "elapsed_time_per_iteration": 4.85225439, "memory(GiB)": 28.94, "elapsed_time": "46m 24s", "remaining_time": "16h 42m 19s", "loss_scale": 1.0, "consumed_samples": 143872, "global_step/max_steps": "562/12700"}
{"lm loss": 2.31989908, "grad_norm": 0.81357932, "learning_rate": 8.866e-05, "elapsed_time_per_iteration": 4.78220534, "memory(GiB)": 28.94, "elapsed_time": "46m 29s", "remaining_time": "16h 42m 10s", "loss_scale": 1.0, "consumed_samples": 144128, "global_step/max_steps": "563/12700"}
{"lm loss": 2.32762218, "grad_norm": 0.98647237, "learning_rate": 8.882e-05, "elapsed_time_per_iteration": 4.82753134, "memory(GiB)": 28.94, "elapsed_time": "46m 34s", "remaining_time": "16h 42m 3s", "loss_scale": 1.0, "consumed_samples": 144384, "global_step/max_steps": "564/12700"}
{"lm loss": 2.3141489, "grad_norm": 0.87850887, "learning_rate": 8.898e-05, "elapsed_time_per_iteration": 4.90157199, "memory(GiB)": 28.94, "elapsed_time": "46m 39s", "remaining_time": "16h 41m 56s", "loss_scale": 1.0, "consumed_samples": 144640, "global_step/max_steps": "565/12700"}
{"lm loss": 2.31622195, "grad_norm": 0.78509569, "learning_rate": 8.913e-05, "elapsed_time_per_iteration": 4.82277775, "memory(GiB)": 28.94, "elapsed_time": "46m 43s", "remaining_time": "16h 41m 49s", "loss_scale": 1.0, "consumed_samples": 144896, "global_step/max_steps": "566/12700"}
{"lm loss": 2.30702567, "grad_norm": 0.72477221, "learning_rate": 8.929e-05, "elapsed_time_per_iteration": 4.77092218, "memory(GiB)": 28.94, "elapsed_time": "46m 48s", "remaining_time": "16h 41m 40s", "loss_scale": 1.0, "consumed_samples": 145152, "global_step/max_steps": "567/12700"}
{"lm loss": 2.31115222, "grad_norm": 0.72220033, "learning_rate": 8.945e-05, "elapsed_time_per_iteration": 4.88990092, "memory(GiB)": 28.94, "elapsed_time": "46m 53s", "remaining_time": "16h 41m 34s", "loss_scale": 1.0, "consumed_samples": 145408, "global_step/max_steps": "568/12700"}
{"lm loss": 2.29790068, "grad_norm": 0.8296935, "learning_rate": 8.961e-05, "elapsed_time_per_iteration": 4.83554697, "memory(GiB)": 28.94, "elapsed_time": "46m 58s", "remaining_time": "16h 41m 26s", "loss_scale": 1.0, "consumed_samples": 145664, "global_step/max_steps": "569/12700"}
{"lm loss": 2.34652162, "grad_norm": 0.87996733, "learning_rate": 8.976e-05, "elapsed_time_per_iteration": 4.89588475, "memory(GiB)": 28.94, "elapsed_time": "47m 3s", "remaining_time": "16h 41m 20s", "loss_scale": 1.0, "consumed_samples": 145920, "global_step/max_steps": "570/12700"}
{"lm loss": 2.31919003, "grad_norm": 0.76964021, "learning_rate": 8.992e-05, "elapsed_time_per_iteration": 4.83346272, "memory(GiB)": 28.94, "elapsed_time": "47m 8s", "remaining_time": "16h 41m 12s", "loss_scale": 1.0, "consumed_samples": 146176, "global_step/max_steps": "571/12700"}
{"lm loss": 2.30391145, "grad_norm": 0.64177012, "learning_rate": 9.008e-05, "elapsed_time_per_iteration": 4.77180624, "memory(GiB)": 28.94, "elapsed_time": "47m 12s", "remaining_time": "16h 41m 4s", "loss_scale": 1.0, "consumed_samples": 146432, "global_step/max_steps": "572/12700"}
{"lm loss": 2.32419777, "grad_norm": 0.8320384, "learning_rate": 9.024e-05, "elapsed_time_per_iteration": 4.85064888, "memory(GiB)": 28.94, "elapsed_time": "47m 17s", "remaining_time": "16h 40m 56s", "loss_scale": 1.0, "consumed_samples": 146688, "global_step/max_steps": "573/12700"}
{"lm loss": 2.33720303, "grad_norm": 0.79041106, "learning_rate": 9.039e-05, "elapsed_time_per_iteration": 4.91312218, "memory(GiB)": 28.94, "elapsed_time": "47m 22s", "remaining_time": "16h 40m 51s", "loss_scale": 1.0, "consumed_samples": 146944, "global_step/max_steps": "574/12700"}
{"lm loss": 2.30288982, "grad_norm": 0.67182004, "learning_rate": 9.055e-05, "elapsed_time_per_iteration": 5.07884932, "memory(GiB)": 28.94, "elapsed_time": "47m 27s", "remaining_time": "16h 40m 48s", "loss_scale": 1.0, "consumed_samples": 147200, "global_step/max_steps": "575/12700"}
{"lm loss": 2.34603882, "grad_norm": 0.79121649, "learning_rate": 9.071e-05, "elapsed_time_per_iteration": 4.87939358, "memory(GiB)": 28.94, "elapsed_time": "47m 32s", "remaining_time": "16h 40m 42s", "loss_scale": 1.0, "consumed_samples": 147456, "global_step/max_steps": "576/12700"}
{"lm loss": 2.33028579, "grad_norm": 0.88480049, "learning_rate": 9.087e-05, "elapsed_time_per_iteration": 4.89276123, "memory(GiB)": 28.94, "elapsed_time": "47m 37s", "remaining_time": "16h 40m 36s", "loss_scale": 1.0, "consumed_samples": 147712, "global_step/max_steps": "577/12700"}
{"lm loss": 2.2929635, "grad_norm": 0.75480551, "learning_rate": 9.102e-05, "elapsed_time_per_iteration": 4.83227134, "memory(GiB)": 28.94, "elapsed_time": "47m 42s", "remaining_time": "16h 40m 28s", "loss_scale": 1.0, "consumed_samples": 147968, "global_step/max_steps": "578/12700"}
{"lm loss": 2.32058048, "grad_norm": 0.66077214, "learning_rate": 9.118e-05, "elapsed_time_per_iteration": 4.85903931, "memory(GiB)": 28.94, "elapsed_time": "47m 47s", "remaining_time": "16h 40m 21s", "loss_scale": 1.0, "consumed_samples": 148224, "global_step/max_steps": "579/12700"}
{"lm loss": 2.32830358, "grad_norm": 0.60974479, "learning_rate": 9.134e-05, "elapsed_time_per_iteration": 4.95420432, "memory(GiB)": 28.94, "elapsed_time": "47m 52s", "remaining_time": "16h 40m 16s", "loss_scale": 1.0, "consumed_samples": 148480, "global_step/max_steps": "580/12700"}
{"lm loss": 2.32212019, "grad_norm": 0.79941797, "learning_rate": 9.15e-05, "elapsed_time_per_iteration": 4.8474555, "memory(GiB)": 28.94, "elapsed_time": "47m 56s", "remaining_time": "16h 40m 9s", "loss_scale": 1.0, "consumed_samples": 148736, "global_step/max_steps": "581/12700"}
{"lm loss": 2.33264136, "grad_norm": 0.65691149, "learning_rate": 9.165e-05, "elapsed_time_per_iteration": 4.87673068, "memory(GiB)": 28.94, "elapsed_time": "48m 1s", "remaining_time": "16h 40m 3s", "loss_scale": 1.0, "consumed_samples": 148992, "global_step/max_steps": "582/12700"}
{"lm loss": 2.32500434, "grad_norm": 0.70877153, "learning_rate": 9.181e-05, "elapsed_time_per_iteration": 4.94654131, "memory(GiB)": 28.94, "elapsed_time": "48m 6s", "remaining_time": "16h 39m 58s", "loss_scale": 1.0, "consumed_samples": 149248, "global_step/max_steps": "583/12700"}
{"lm loss": 2.29350352, "grad_norm": 0.65230304, "learning_rate": 9.197e-05, "elapsed_time_per_iteration": 4.90064383, "memory(GiB)": 28.94, "elapsed_time": "48m 11s", "remaining_time": "16h 39m 52s", "loss_scale": 1.0, "consumed_samples": 149504, "global_step/max_steps": "584/12700"}
{"lm loss": 2.29308534, "grad_norm": 0.63774443, "learning_rate": 9.213e-05, "elapsed_time_per_iteration": 4.85032845, "memory(GiB)": 28.94, "elapsed_time": "48m 16s", "remaining_time": "16h 39m 45s", "loss_scale": 1.0, "consumed_samples": 149760, "global_step/max_steps": "585/12700"}
{"lm loss": 2.30582643, "grad_norm": 0.5854919, "learning_rate": 9.228e-05, "elapsed_time_per_iteration": 4.89312744, "memory(GiB)": 28.94, "elapsed_time": "48m 21s", "remaining_time": "16h 39m 39s", "loss_scale": 1.0, "consumed_samples": 150016, "global_step/max_steps": "586/12700"}
{"lm loss": 2.33195472, "grad_norm": 0.55054784, "learning_rate": 9.244e-05, "elapsed_time_per_iteration": 4.93594646, "memory(GiB)": 28.94, "elapsed_time": "48m 26s", "remaining_time": "16h 39m 33s", "loss_scale": 1.0, "consumed_samples": 150272, "global_step/max_steps": "587/12700"}
{"lm loss": 2.3078177, "grad_norm": 0.64493734, "learning_rate": 9.26e-05, "elapsed_time_per_iteration": 4.85251784, "memory(GiB)": 28.94, "elapsed_time": "48m 31s", "remaining_time": "16h 39m 26s", "loss_scale": 1.0, "consumed_samples": 150528, "global_step/max_steps": "588/12700"}
{"lm loss": 2.3149724, "grad_norm": 0.70505899, "learning_rate": 9.276e-05, "elapsed_time_per_iteration": 4.8751595, "memory(GiB)": 28.94, "elapsed_time": "48m 36s", "remaining_time": "16h 39m 20s", "loss_scale": 1.0, "consumed_samples": 150784, "global_step/max_steps": "589/12700"}
{"lm loss": 2.30188751, "grad_norm": 0.78962147, "learning_rate": 9.291e-05, "elapsed_time_per_iteration": 4.88190889, "memory(GiB)": 28.94, "elapsed_time": "48m 40s", "remaining_time": "16h 39m 13s", "loss_scale": 1.0, "consumed_samples": 151040, "global_step/max_steps": "590/12700"}
{"lm loss": 2.32428646, "grad_norm": 0.69691473, "learning_rate": 9.307e-05, "elapsed_time_per_iteration": 4.87836432, "memory(GiB)": 28.94, "elapsed_time": "48m 45s", "remaining_time": "16h 39m 7s", "loss_scale": 1.0, "consumed_samples": 151296, "global_step/max_steps": "591/12700"}
{"lm loss": 2.30511045, "grad_norm": 0.70173347, "learning_rate": 9.323e-05, "elapsed_time_per_iteration": 4.94027209, "memory(GiB)": 28.94, "elapsed_time": "48m 50s", "remaining_time": "16h 39m 2s", "loss_scale": 1.0, "consumed_samples": 151552, "global_step/max_steps": "592/12700"}
{"lm loss": 2.33695674, "grad_norm": 0.74172223, "learning_rate": 9.339e-05, "elapsed_time_per_iteration": 4.88986635, "memory(GiB)": 28.94, "elapsed_time": "48m 55s", "remaining_time": "16h 38m 56s", "loss_scale": 1.0, "consumed_samples": 151808, "global_step/max_steps": "593/12700"}
{"lm loss": 2.31688571, "grad_norm": 0.80467898, "learning_rate": 9.354e-05, "elapsed_time_per_iteration": 4.90587807, "memory(GiB)": 28.94, "elapsed_time": "49m 0s", "remaining_time": "16h 38m 50s", "loss_scale": 1.0, "consumed_samples": 152064, "global_step/max_steps": "594/12700"}
{"lm loss": 2.32131124, "grad_norm": 0.91206807, "learning_rate": 9.37e-05, "elapsed_time_per_iteration": 4.84784865, "memory(GiB)": 28.94, "elapsed_time": "49m 5s", "remaining_time": "16h 38m 43s", "loss_scale": 1.0, "consumed_samples": 152320, "global_step/max_steps": "595/12700"}
{"lm loss": 2.32533431, "grad_norm": 0.67101669, "learning_rate": 9.386e-05, "elapsed_time_per_iteration": 4.84525919, "memory(GiB)": 28.94, "elapsed_time": "49m 10s", "remaining_time": "16h 38m 36s", "loss_scale": 1.0, "consumed_samples": 152576, "global_step/max_steps": "596/12700"}
{"lm loss": 2.32378507, "grad_norm": 0.61604255, "learning_rate": 9.402e-05, "elapsed_time_per_iteration": 4.90052414, "memory(GiB)": 28.94, "elapsed_time": "49m 15s", "remaining_time": "16h 38m 30s", "loss_scale": 1.0, "consumed_samples": 152832, "global_step/max_steps": "597/12700"}
{"lm loss": 2.30625653, "grad_norm": 0.69713897, "learning_rate": 9.417e-05, "elapsed_time_per_iteration": 4.89700747, "memory(GiB)": 28.94, "elapsed_time": "49m 20s", "remaining_time": "16h 38m 24s", "loss_scale": 1.0, "consumed_samples": 153088, "global_step/max_steps": "598/12700"}
{"lm loss": 2.3495388, "grad_norm": 0.7012279, "learning_rate": 9.433e-05, "elapsed_time_per_iteration": 4.90992785, "memory(GiB)": 28.94, "elapsed_time": "49m 24s", "remaining_time": "16h 38m 18s", "loss_scale": 1.0, "consumed_samples": 153344, "global_step/max_steps": "599/12700"}
{"lm loss": 2.31226206, "grad_norm": 0.64184427, "learning_rate": 9.449e-05, "elapsed_time_per_iteration": 5.01239705, "memory(GiB)": 28.94, "elapsed_time": "49m 29s", "remaining_time": "16h 38m 14s", "loss_scale": 1.0, "consumed_samples": 153600, "global_step/max_steps": "600/12700"}
{"lm loss": 2.35296869, "grad_norm": 0.66145939, "learning_rate": 9.465e-05, "elapsed_time_per_iteration": 4.84779954, "memory(GiB)": 28.94, "elapsed_time": "49m 34s", "remaining_time": "16h 38m 7s", "loss_scale": 1.0, "consumed_samples": 153856, "global_step/max_steps": "601/12700"}
{"lm loss": 2.28841686, "grad_norm": 0.72652525, "learning_rate": 9.48e-05, "elapsed_time_per_iteration": 4.88015079, "memory(GiB)": 28.94, "elapsed_time": "49m 39s", "remaining_time": "16h 38m 1s", "loss_scale": 1.0, "consumed_samples": 154112, "global_step/max_steps": "602/12700"}
{"lm loss": 2.33062148, "grad_norm": 0.6907829, "learning_rate": 9.496e-05, "elapsed_time_per_iteration": 4.82349944, "memory(GiB)": 28.94, "elapsed_time": "49m 44s", "remaining_time": "16h 37m 53s", "loss_scale": 1.0, "consumed_samples": 154368, "global_step/max_steps": "603/12700"}
{"lm loss": 2.26574183, "grad_norm": 0.71943766, "learning_rate": 9.512e-05, "elapsed_time_per_iteration": 4.87207747, "memory(GiB)": 28.94, "elapsed_time": "49m 49s", "remaining_time": "16h 37m 47s", "loss_scale": 1.0, "consumed_samples": 154624, "global_step/max_steps": "604/12700"}
{"lm loss": 2.34822822, "grad_norm": 0.72783822, "learning_rate": 9.528e-05, "elapsed_time_per_iteration": 4.95822692, "memory(GiB)": 28.94, "elapsed_time": "49m 54s", "remaining_time": "16h 37m 42s", "loss_scale": 1.0, "consumed_samples": 154880, "global_step/max_steps": "605/12700"}
{"lm loss": 2.32502413, "grad_norm": 0.71559024, "learning_rate": 9.543e-05, "elapsed_time_per_iteration": 5.00909734, "memory(GiB)": 28.94, "elapsed_time": "49m 59s", "remaining_time": "16h 37m 38s", "loss_scale": 1.0, "consumed_samples": 155136, "global_step/max_steps": "606/12700"}
{"lm loss": 2.31931305, "grad_norm": 0.72663778, "learning_rate": 9.559e-05, "elapsed_time_per_iteration": 4.92335129, "memory(GiB)": 28.94, "elapsed_time": "50m 4s", "remaining_time": "16h 37m 33s", "loss_scale": 1.0, "consumed_samples": 155392, "global_step/max_steps": "607/12700"}
{"lm loss": 2.32154369, "grad_norm": 0.82364607, "learning_rate": 9.575e-05, "elapsed_time_per_iteration": 4.92842984, "memory(GiB)": 28.94, "elapsed_time": "50m 9s", "remaining_time": "16h 37m 28s", "loss_scale": 1.0, "consumed_samples": 155648, "global_step/max_steps": "608/12700"}
{"lm loss": 2.30151057, "grad_norm": 0.92912495, "learning_rate": 9.591e-05, "elapsed_time_per_iteration": 4.85311317, "memory(GiB)": 28.94, "elapsed_time": "50m 14s", "remaining_time": "16h 37m 21s", "loss_scale": 1.0, "consumed_samples": 155904, "global_step/max_steps": "609/12700"}
{"lm loss": 2.29032755, "grad_norm": 1.05523419, "learning_rate": 9.606e-05, "elapsed_time_per_iteration": 4.83326745, "memory(GiB)": 28.94, "elapsed_time": "50m 18s", "remaining_time": "16h 37m 13s", "loss_scale": 1.0, "consumed_samples": 156160, "global_step/max_steps": "610/12700"}
{"lm loss": 2.31394148, "grad_norm": 0.71918082, "learning_rate": 9.622e-05, "elapsed_time_per_iteration": 4.8725729, "memory(GiB)": 28.94, "elapsed_time": "50m 23s", "remaining_time": "16h 37m 7s", "loss_scale": 1.0, "consumed_samples": 156416, "global_step/max_steps": "611/12700"}
{"lm loss": 2.33954382, "grad_norm": 0.71667469, "learning_rate": 9.638e-05, "elapsed_time_per_iteration": 4.95649958, "memory(GiB)": 28.94, "elapsed_time": "50m 28s", "remaining_time": "16h 37m 2s", "loss_scale": 1.0, "consumed_samples": 156672, "global_step/max_steps": "612/12700"}
{"lm loss": 2.31090665, "grad_norm": 0.75277841, "learning_rate": 9.654e-05, "elapsed_time_per_iteration": 4.84304929, "memory(GiB)": 28.94, "elapsed_time": "50m 33s", "remaining_time": "16h 36m 55s", "loss_scale": 1.0, "consumed_samples": 156928, "global_step/max_steps": "613/12700"}
{"lm loss": 2.34134054, "grad_norm": 0.73228109, "learning_rate": 9.669e-05, "elapsed_time_per_iteration": 4.90918064, "memory(GiB)": 28.94, "elapsed_time": "50m 38s", "remaining_time": "16h 36m 49s", "loss_scale": 1.0, "consumed_samples": 157184, "global_step/max_steps": "614/12700"}
{"lm loss": 2.30391884, "grad_norm": 0.7007978, "learning_rate": 9.685e-05, "elapsed_time_per_iteration": 4.91240954, "memory(GiB)": 28.94, "elapsed_time": "50m 43s", "remaining_time": "16h 36m 44s", "loss_scale": 1.0, "consumed_samples": 157440, "global_step/max_steps": "615/12700"}
{"lm loss": 2.28852439, "grad_norm": 0.67173803, "learning_rate": 9.701e-05, "elapsed_time_per_iteration": 4.89781857, "memory(GiB)": 28.94, "elapsed_time": "50m 48s", "remaining_time": "16h 36m 38s", "loss_scale": 1.0, "consumed_samples": 157696, "global_step/max_steps": "616/12700"}
{"lm loss": 2.31892109, "grad_norm": 0.69772387, "learning_rate": 9.717e-05, "elapsed_time_per_iteration": 4.82413888, "memory(GiB)": 28.94, "elapsed_time": "50m 53s", "remaining_time": "16h 36m 30s", "loss_scale": 1.0, "consumed_samples": 157952, "global_step/max_steps": "617/12700"}
{"lm loss": 2.29036117, "grad_norm": 0.64276224, "learning_rate": 9.732e-05, "elapsed_time_per_iteration": 4.77670002, "memory(GiB)": 28.94, "elapsed_time": "50m 57s", "remaining_time": "16h 36m 22s", "loss_scale": 1.0, "consumed_samples": 158208, "global_step/max_steps": "618/12700"}
{"lm loss": 2.30793238, "grad_norm": 0.73844105, "learning_rate": 9.748e-05, "elapsed_time_per_iteration": 4.82884717, "memory(GiB)": 28.94, "elapsed_time": "51m 2s", "remaining_time": "16h 36m 15s", "loss_scale": 1.0, "consumed_samples": 158464, "global_step/max_steps": "619/12700"}
{"lm loss": 2.3200922, "grad_norm": 0.68091625, "learning_rate": 9.764e-05, "elapsed_time_per_iteration": 4.84402466, "memory(GiB)": 28.94, "elapsed_time": "51m 7s", "remaining_time": "16h 36m 8s", "loss_scale": 1.0, "consumed_samples": 158720, "global_step/max_steps": "620/12700"}
{"lm loss": 2.28885317, "grad_norm": 0.59183729, "learning_rate": 9.78e-05, "elapsed_time_per_iteration": 4.90341544, "memory(GiB)": 28.94, "elapsed_time": "51m 12s", "remaining_time": "16h 36m 2s", "loss_scale": 1.0, "consumed_samples": 158976, "global_step/max_steps": "621/12700"}
{"lm loss": 2.37654495, "grad_norm": 0.59658891, "learning_rate": 9.795e-05, "elapsed_time_per_iteration": 4.85875034, "memory(GiB)": 28.94, "elapsed_time": "51m 17s", "remaining_time": "16h 35m 55s", "loss_scale": 1.0, "consumed_samples": 159232, "global_step/max_steps": "622/12700"}
{"lm loss": 2.32984209, "grad_norm": 0.6189518, "learning_rate": 9.811e-05, "elapsed_time_per_iteration": 4.78500247, "memory(GiB)": 28.94, "elapsed_time": "51m 22s", "remaining_time": "16h 35m 47s", "loss_scale": 1.0, "consumed_samples": 159488, "global_step/max_steps": "623/12700"}
{"lm loss": 2.28858328, "grad_norm": 0.65875995, "learning_rate": 9.827e-05, "elapsed_time_per_iteration": 4.80187917, "memory(GiB)": 28.94, "elapsed_time": "51m 26s", "remaining_time": "16h 35m 40s", "loss_scale": 1.0, "consumed_samples": 159744, "global_step/max_steps": "624/12700"}
{"lm loss": 2.3269546, "grad_norm": 0.65507454, "learning_rate": 9.843e-05, "elapsed_time_per_iteration": 4.90199518, "memory(GiB)": 28.94, "elapsed_time": "51m 31s", "remaining_time": "16h 35m 34s", "loss_scale": 1.0, "consumed_samples": 160000, "global_step/max_steps": "625/12700"}
{"lm loss": 2.32888842, "grad_norm": 0.75460547, "learning_rate": 9.858e-05, "elapsed_time_per_iteration": 4.86007571, "memory(GiB)": 28.94, "elapsed_time": "51m 36s", "remaining_time": "16h 35m 27s", "loss_scale": 1.0, "consumed_samples": 160256, "global_step/max_steps": "626/12700"}
{"lm loss": 2.33148098, "grad_norm": 0.79213333, "learning_rate": 9.874e-05, "elapsed_time_per_iteration": 4.92732215, "memory(GiB)": 28.94, "elapsed_time": "51m 41s", "remaining_time": "16h 35m 22s", "loss_scale": 1.0, "consumed_samples": 160512, "global_step/max_steps": "627/12700"}
{"lm loss": 2.33265591, "grad_norm": 0.79609483, "learning_rate": 9.89e-05, "elapsed_time_per_iteration": 4.94155431, "memory(GiB)": 28.94, "elapsed_time": "51m 46s", "remaining_time": "16h 35m 17s", "loss_scale": 1.0, "consumed_samples": 160768, "global_step/max_steps": "628/12700"}
{"lm loss": 2.30568409, "grad_norm": 0.69170892, "learning_rate": 9.906e-05, "elapsed_time_per_iteration": 4.80131269, "memory(GiB)": 28.94, "elapsed_time": "51m 51s", "remaining_time": "16h 35m 9s", "loss_scale": 1.0, "consumed_samples": 161024, "global_step/max_steps": "629/12700"}
{"lm loss": 2.34622145, "grad_norm": 0.59506446, "learning_rate": 9.921e-05, "elapsed_time_per_iteration": 4.85972929, "memory(GiB)": 28.94, "elapsed_time": "51m 56s", "remaining_time": "16h 35m 2s", "loss_scale": 1.0, "consumed_samples": 161280, "global_step/max_steps": "630/12700"}
{"lm loss": 2.34179735, "grad_norm": 0.79739732, "learning_rate": 9.937e-05, "elapsed_time_per_iteration": 4.81257892, "memory(GiB)": 28.94, "elapsed_time": "52m 1s", "remaining_time": "16h 34m 55s", "loss_scale": 1.0, "consumed_samples": 161536, "global_step/max_steps": "631/12700"}
{"lm loss": 2.32061529, "grad_norm": 0.7133553, "learning_rate": 9.953e-05, "elapsed_time_per_iteration": 4.8301549, "memory(GiB)": 28.94, "elapsed_time": "52m 5s", "remaining_time": "16h 34m 48s", "loss_scale": 1.0, "consumed_samples": 161792, "global_step/max_steps": "632/12700"}
{"lm loss": 2.30615306, "grad_norm": 0.61328441, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 4.95570493, "memory(GiB)": 28.94, "elapsed_time": "52m 10s", "remaining_time": "16h 34m 43s", "loss_scale": 1.0, "consumed_samples": 162048, "global_step/max_steps": "633/12700"}
{"lm loss": 2.30576611, "grad_norm": 0.67794818, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.9240303, "memory(GiB)": 28.94, "elapsed_time": "52m 15s", "remaining_time": "16h 34m 38s", "loss_scale": 1.0, "consumed_samples": 162304, "global_step/max_steps": "634/12700"}
{"lm loss": 2.30738187, "grad_norm": 0.69127226, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.87959933, "memory(GiB)": 28.94, "elapsed_time": "52m 20s", "remaining_time": "16h 34m 31s", "loss_scale": 1.0, "consumed_samples": 162560, "global_step/max_steps": "635/12700"}
{"lm loss": 2.3082273, "grad_norm": 0.74240488, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.85291004, "memory(GiB)": 28.94, "elapsed_time": "52m 25s", "remaining_time": "16h 34m 25s", "loss_scale": 1.0, "consumed_samples": 162816, "global_step/max_steps": "636/12700"}
{"lm loss": 2.31044221, "grad_norm": 0.68846267, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.84306979, "memory(GiB)": 28.94, "elapsed_time": "52m 30s", "remaining_time": "16h 34m 18s", "loss_scale": 1.0, "consumed_samples": 163072, "global_step/max_steps": "637/12700"}
{"lm loss": 2.32537818, "grad_norm": 0.69241679, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.91989827, "memory(GiB)": 28.94, "elapsed_time": "52m 35s", "remaining_time": "16h 34m 12s", "loss_scale": 1.0, "consumed_samples": 163328, "global_step/max_steps": "638/12700"}
{"lm loss": 2.29096937, "grad_norm": 0.7444557, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.86698675, "memory(GiB)": 28.94, "elapsed_time": "52m 40s", "remaining_time": "16h 34m 6s", "loss_scale": 1.0, "consumed_samples": 163584, "global_step/max_steps": "639/12700"}
{"lm loss": 2.30520344, "grad_norm": 0.71305591, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.89555287, "memory(GiB)": 28.94, "elapsed_time": "52m 45s", "remaining_time": "16h 34m 0s", "loss_scale": 1.0, "consumed_samples": 163840, "global_step/max_steps": "640/12700"}
{"lm loss": 2.30444026, "grad_norm": 0.80930531, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.91048884, "memory(GiB)": 28.94, "elapsed_time": "52m 49s", "remaining_time": "16h 33m 54s", "loss_scale": 1.0, "consumed_samples": 164096, "global_step/max_steps": "641/12700"}
{"lm loss": 2.29703569, "grad_norm": 0.83013153, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.84476185, "memory(GiB)": 28.94, "elapsed_time": "52m 54s", "remaining_time": "16h 33m 48s", "loss_scale": 1.0, "consumed_samples": 164352, "global_step/max_steps": "642/12700"}
{"lm loss": 2.27747679, "grad_norm": 0.75831378, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.81853509, "memory(GiB)": 28.94, "elapsed_time": "52m 59s", "remaining_time": "16h 33m 40s", "loss_scale": 1.0, "consumed_samples": 164608, "global_step/max_steps": "643/12700"}
{"lm loss": 2.29368496, "grad_norm": 0.80984247, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.91107273, "memory(GiB)": 28.94, "elapsed_time": "53m 4s", "remaining_time": "16h 33m 35s", "loss_scale": 1.0, "consumed_samples": 164864, "global_step/max_steps": "644/12700"}
{"lm loss": 2.30579472, "grad_norm": 0.74096757, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.78867292, "memory(GiB)": 28.94, "elapsed_time": "53m 9s", "remaining_time": "16h 33m 27s", "loss_scale": 1.0, "consumed_samples": 165120, "global_step/max_steps": "645/12700"}
{"lm loss": 2.22469902, "grad_norm": 0.69518405, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.94642997, "memory(GiB)": 28.94, "elapsed_time": "53m 14s", "remaining_time": "16h 33m 22s", "loss_scale": 1.0, "consumed_samples": 165376, "global_step/max_steps": "646/12700"}
{"lm loss": 2.30313706, "grad_norm": 0.75320423, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.85018706, "memory(GiB)": 28.94, "elapsed_time": "53m 19s", "remaining_time": "16h 33m 15s", "loss_scale": 1.0, "consumed_samples": 165632, "global_step/max_steps": "647/12700"}
{"lm loss": 2.31857777, "grad_norm": 0.71677715, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.84083295, "memory(GiB)": 28.94, "elapsed_time": "53m 23s", "remaining_time": "16h 33m 8s", "loss_scale": 1.0, "consumed_samples": 165888, "global_step/max_steps": "648/12700"}
{"lm loss": 2.3091476, "grad_norm": 0.74070889, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.85364723, "memory(GiB)": 28.94, "elapsed_time": "53m 28s", "remaining_time": "16h 33m 2s", "loss_scale": 1.0, "consumed_samples": 166144, "global_step/max_steps": "649/12700"}
{"lm loss": 2.28464413, "grad_norm": 0.58363003, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.85401797, "memory(GiB)": 28.94, "elapsed_time": "53m 33s", "remaining_time": "16h 32m 55s", "loss_scale": 1.0, "consumed_samples": 166400, "global_step/max_steps": "650/12700"}
{"lm loss": 2.34611273, "grad_norm": 0.69850671, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.81627941, "memory(GiB)": 28.94, "elapsed_time": "53m 38s", "remaining_time": "16h 32m 48s", "loss_scale": 1.0, "consumed_samples": 166656, "global_step/max_steps": "651/12700"}
{"lm loss": 2.28462553, "grad_norm": 0.70576155, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.78493166, "memory(GiB)": 28.94, "elapsed_time": "53m 43s", "remaining_time": "16h 32m 40s", "loss_scale": 1.0, "consumed_samples": 166912, "global_step/max_steps": "652/12700"}
{"lm loss": 2.31482816, "grad_norm": 0.6684038, "learning_rate": 0.0001, "elapsed_time_per_iteration": 5.01510096, "memory(GiB)": 28.94, "elapsed_time": "53m 48s", "remaining_time": "16h 32m 36s", "loss_scale": 1.0, "consumed_samples": 167168, "global_step/max_steps": "653/12700"}
{"lm loss": 2.31876516, "grad_norm": 0.63331801, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.81733727, "memory(GiB)": 28.94, "elapsed_time": "53m 53s", "remaining_time": "16h 32m 29s", "loss_scale": 1.0, "consumed_samples": 167424, "global_step/max_steps": "654/12700"}
{"lm loss": 2.31100965, "grad_norm": 0.64004576, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.82963777, "memory(GiB)": 28.94, "elapsed_time": "53m 57s", "remaining_time": "16h 32m 22s", "loss_scale": 1.0, "consumed_samples": 167680, "global_step/max_steps": "655/12700"}
{"lm loss": 2.29345894, "grad_norm": 0.64621031, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.87888861, "memory(GiB)": 28.94, "elapsed_time": "54m 2s", "remaining_time": "16h 32m 16s", "loss_scale": 1.0, "consumed_samples": 167936, "global_step/max_steps": "656/12700"}
{"lm loss": 2.31279087, "grad_norm": 0.68514836, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.80073762, "memory(GiB)": 28.94, "elapsed_time": "54m 7s", "remaining_time": "16h 32m 8s", "loss_scale": 1.0, "consumed_samples": 168192, "global_step/max_steps": "657/12700"}
{"lm loss": 2.29390693, "grad_norm": 0.63713616, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.84929919, "memory(GiB)": 28.94, "elapsed_time": "54m 12s", "remaining_time": "16h 32m 2s", "loss_scale": 1.0, "consumed_samples": 168448, "global_step/max_steps": "658/12700"}
{"lm loss": 2.35174322, "grad_norm": 0.61814159, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.81762862, "memory(GiB)": 28.94, "elapsed_time": "54m 17s", "remaining_time": "16h 31m 54s", "loss_scale": 1.0, "consumed_samples": 168704, "global_step/max_steps": "659/12700"}
{"lm loss": 2.33860898, "grad_norm": 0.60323399, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.88615727, "memory(GiB)": 28.94, "elapsed_time": "54m 22s", "remaining_time": "16h 31m 48s", "loss_scale": 1.0, "consumed_samples": 168960, "global_step/max_steps": "660/12700"}
{"lm loss": 2.30450892, "grad_norm": 0.63398474, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.8521235, "memory(GiB)": 28.94, "elapsed_time": "54m 26s", "remaining_time": "16h 31m 42s", "loss_scale": 1.0, "consumed_samples": 169216, "global_step/max_steps": "661/12700"}
{"lm loss": 2.27759099, "grad_norm": 0.57997209, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.92261624, "memory(GiB)": 28.94, "elapsed_time": "54m 31s", "remaining_time": "16h 31m 37s", "loss_scale": 1.0, "consumed_samples": 169472, "global_step/max_steps": "662/12700"}
{"lm loss": 2.31867695, "grad_norm": 0.74710411, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.95880151, "memory(GiB)": 28.94, "elapsed_time": "54m 36s", "remaining_time": "16h 31m 32s", "loss_scale": 1.0, "consumed_samples": 169728, "global_step/max_steps": "663/12700"}
{"lm loss": 2.3156116, "grad_norm": 0.76051867, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.89786768, "memory(GiB)": 28.94, "elapsed_time": "54m 41s", "remaining_time": "16h 31m 26s", "loss_scale": 1.0, "consumed_samples": 169984, "global_step/max_steps": "664/12700"}
{"lm loss": 2.31678152, "grad_norm": 0.82552361, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.8338902, "memory(GiB)": 28.94, "elapsed_time": "54m 46s", "remaining_time": "16h 31m 19s", "loss_scale": 1.0, "consumed_samples": 170240, "global_step/max_steps": "665/12700"}
{"lm loss": 2.3076539, "grad_norm": 0.80901402, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.85086346, "memory(GiB)": 28.94, "elapsed_time": "54m 51s", "remaining_time": "16h 31m 13s", "loss_scale": 1.0, "consumed_samples": 170496, "global_step/max_steps": "666/12700"}
{"lm loss": 2.32526064, "grad_norm": 0.67092305, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.88745332, "memory(GiB)": 28.94, "elapsed_time": "54m 56s", "remaining_time": "16h 31m 7s", "loss_scale": 1.0, "consumed_samples": 170752, "global_step/max_steps": "667/12700"}
{"lm loss": 2.27143621, "grad_norm": 0.58982849, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.88942075, "memory(GiB)": 28.94, "elapsed_time": "55m 1s", "remaining_time": "16h 31m 1s", "loss_scale": 1.0, "consumed_samples": 171008, "global_step/max_steps": "668/12700"}
{"lm loss": 2.32847953, "grad_norm": 0.61789727, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.86972046, "memory(GiB)": 28.94, "elapsed_time": "55m 6s", "remaining_time": "16h 30m 55s", "loss_scale": 1.0, "consumed_samples": 171264, "global_step/max_steps": "669/12700"}
{"lm loss": 2.30591869, "grad_norm": 0.57759124, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.88668799, "memory(GiB)": 28.94, "elapsed_time": "55m 10s", "remaining_time": "16h 30m 49s", "loss_scale": 1.0, "consumed_samples": 171520, "global_step/max_steps": "670/12700"}
{"lm loss": 2.33237433, "grad_norm": 0.55516946, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.92503381, "memory(GiB)": 28.94, "elapsed_time": "55m 15s", "remaining_time": "16h 30m 43s", "loss_scale": 1.0, "consumed_samples": 171776, "global_step/max_steps": "671/12700"}
{"lm loss": 2.30375028, "grad_norm": 0.56989658, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.79622746, "memory(GiB)": 28.94, "elapsed_time": "55m 20s", "remaining_time": "16h 30m 36s", "loss_scale": 1.0, "consumed_samples": 172032, "global_step/max_steps": "672/12700"}
{"lm loss": 2.31764627, "grad_norm": 0.58894116, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.91195512, "memory(GiB)": 28.94, "elapsed_time": "55m 25s", "remaining_time": "16h 30m 30s", "loss_scale": 1.0, "consumed_samples": 172288, "global_step/max_steps": "673/12700"}
{"lm loss": 2.30623364, "grad_norm": 0.56070739, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.83653593, "memory(GiB)": 28.94, "elapsed_time": "55m 30s", "remaining_time": "16h 30m 24s", "loss_scale": 1.0, "consumed_samples": 172544, "global_step/max_steps": "674/12700"}
{"lm loss": 2.30647564, "grad_norm": 0.61105955, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.91682982, "memory(GiB)": 28.94, "elapsed_time": "55m 35s", "remaining_time": "16h 30m 18s", "loss_scale": 1.0, "consumed_samples": 172800, "global_step/max_steps": "675/12700"}
{"lm loss": 2.34226537, "grad_norm": 0.55038714, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.77827787, "memory(GiB)": 28.94, "elapsed_time": "55m 40s", "remaining_time": "16h 30m 10s", "loss_scale": 1.0, "consumed_samples": 173056, "global_step/max_steps": "676/12700"}
{"lm loss": 2.31384563, "grad_norm": 0.55774736, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.8065052, "memory(GiB)": 28.94, "elapsed_time": "55m 44s", "remaining_time": "16h 30m 3s", "loss_scale": 1.0, "consumed_samples": 173312, "global_step/max_steps": "677/12700"}
{"lm loss": 2.32396483, "grad_norm": 0.51889819, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.84456825, "memory(GiB)": 28.94, "elapsed_time": "55m 49s", "remaining_time": "16h 29m 56s", "loss_scale": 1.0, "consumed_samples": 173568, "global_step/max_steps": "678/12700"}
{"lm loss": 2.30101466, "grad_norm": 0.63516009, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.91754293, "memory(GiB)": 28.94, "elapsed_time": "55m 54s", "remaining_time": "16h 29m 51s", "loss_scale": 1.0, "consumed_samples": 173824, "global_step/max_steps": "679/12700"}
{"lm loss": 2.32680607, "grad_norm": 0.66961777, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.75756145, "memory(GiB)": 28.94, "elapsed_time": "55m 59s", "remaining_time": "16h 29m 43s", "loss_scale": 1.0, "consumed_samples": 174080, "global_step/max_steps": "680/12700"}
{"lm loss": 2.32330203, "grad_norm": 0.68576121, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.86458778, "memory(GiB)": 28.94, "elapsed_time": "56m 4s", "remaining_time": "16h 29m 37s", "loss_scale": 1.0, "consumed_samples": 174336, "global_step/max_steps": "681/12700"}
{"lm loss": 2.26767707, "grad_norm": 0.58762681, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.85737872, "memory(GiB)": 28.94, "elapsed_time": "56m 9s", "remaining_time": "16h 29m 30s", "loss_scale": 1.0, "consumed_samples": 174592, "global_step/max_steps": "682/12700"}
{"lm loss": 2.3103447, "grad_norm": 0.64315063, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.95045567, "memory(GiB)": 28.94, "elapsed_time": "56m 14s", "remaining_time": "16h 29m 25s", "loss_scale": 1.0, "consumed_samples": 174848, "global_step/max_steps": "683/12700"}
{"lm loss": 2.29294491, "grad_norm": 0.65330148, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.89686203, "memory(GiB)": 28.94, "elapsed_time": "56m 19s", "remaining_time": "16h 29m 20s", "loss_scale": 1.0, "consumed_samples": 175104, "global_step/max_steps": "684/12700"}
{"lm loss": 2.32695293, "grad_norm": 0.69395947, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.85088611, "memory(GiB)": 28.94, "elapsed_time": "56m 23s", "remaining_time": "16h 29m 13s", "loss_scale": 1.0, "consumed_samples": 175360, "global_step/max_steps": "685/12700"}
{"lm loss": 2.32849908, "grad_norm": 0.74800766, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.81935525, "memory(GiB)": 28.94, "elapsed_time": "56m 28s", "remaining_time": "16h 29m 6s", "loss_scale": 1.0, "consumed_samples": 175616, "global_step/max_steps": "686/12700"}
{"lm loss": 2.31741571, "grad_norm": 0.75287509, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.80170178, "memory(GiB)": 28.94, "elapsed_time": "56m 33s", "remaining_time": "16h 28m 59s", "loss_scale": 1.0, "consumed_samples": 175872, "global_step/max_steps": "687/12700"}
{"lm loss": 2.31070471, "grad_norm": 0.68901277, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.89576626, "memory(GiB)": 28.94, "elapsed_time": "56m 38s", "remaining_time": "16h 28m 53s", "loss_scale": 1.0, "consumed_samples": 176128, "global_step/max_steps": "688/12700"}
{"lm loss": 2.2926898, "grad_norm": 0.67537761, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.88239098, "memory(GiB)": 28.94, "elapsed_time": "56m 43s", "remaining_time": "16h 28m 47s", "loss_scale": 1.0, "consumed_samples": 176384, "global_step/max_steps": "689/12700"}
{"lm loss": 2.30897903, "grad_norm": 0.61231112, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.75866532, "memory(GiB)": 28.94, "elapsed_time": "56m 48s", "remaining_time": "16h 28m 39s", "loss_scale": 1.0, "consumed_samples": 176640, "global_step/max_steps": "690/12700"}
{"lm loss": 2.28525138, "grad_norm": 0.63271713, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.82020164, "memory(GiB)": 28.94, "elapsed_time": "56m 52s", "remaining_time": "16h 28m 32s", "loss_scale": 1.0, "consumed_samples": 176896, "global_step/max_steps": "691/12700"}
{"lm loss": 2.29059339, "grad_norm": 0.70802492, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 5.02256942, "memory(GiB)": 28.94, "elapsed_time": "56m 57s", "remaining_time": "16h 28m 29s", "loss_scale": 1.0, "consumed_samples": 177152, "global_step/max_steps": "692/12700"}
{"lm loss": 2.29711866, "grad_norm": 0.66431642, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.95541143, "memory(GiB)": 28.94, "elapsed_time": "57m 2s", "remaining_time": "16h 28m 24s", "loss_scale": 1.0, "consumed_samples": 177408, "global_step/max_steps": "693/12700"}
{"lm loss": 2.28784823, "grad_norm": 0.65378064, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.80122685, "memory(GiB)": 28.94, "elapsed_time": "57m 7s", "remaining_time": "16h 28m 17s", "loss_scale": 1.0, "consumed_samples": 177664, "global_step/max_steps": "694/12700"}
{"lm loss": 2.30500913, "grad_norm": 0.71061528, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.96726584, "memory(GiB)": 28.94, "elapsed_time": "57m 12s", "remaining_time": "16h 28m 12s", "loss_scale": 1.0, "consumed_samples": 177920, "global_step/max_steps": "695/12700"}
{"lm loss": 2.2866118, "grad_norm": 0.6767084, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.80168629, "memory(GiB)": 28.94, "elapsed_time": "57m 17s", "remaining_time": "16h 28m 5s", "loss_scale": 1.0, "consumed_samples": 178176, "global_step/max_steps": "696/12700"}
{"lm loss": 2.31472826, "grad_norm": 0.59995139, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.94402957, "memory(GiB)": 28.94, "elapsed_time": "57m 22s", "remaining_time": "16h 28m 0s", "loss_scale": 1.0, "consumed_samples": 178432, "global_step/max_steps": "697/12700"}
{"lm loss": 2.30411124, "grad_norm": 0.56439078, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.83415031, "memory(GiB)": 28.94, "elapsed_time": "57m 27s", "remaining_time": "16h 27m 53s", "loss_scale": 1.0, "consumed_samples": 178688, "global_step/max_steps": "698/12700"}
{"lm loss": 2.30355477, "grad_norm": 0.60098684, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.73730135, "memory(GiB)": 28.94, "elapsed_time": "57m 31s", "remaining_time": "16h 27m 45s", "loss_scale": 1.0, "consumed_samples": 178944, "global_step/max_steps": "699/12700"}
{"lm loss": 2.29645658, "grad_norm": 0.7317363, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.97619891, "memory(GiB)": 28.94, "elapsed_time": "57m 36s", "remaining_time": "16h 27m 41s", "loss_scale": 1.0, "consumed_samples": 179200, "global_step/max_steps": "700/12700"}
{"lm loss": 2.26101732, "grad_norm": 0.73620415, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.83763409, "memory(GiB)": 28.94, "elapsed_time": "57m 41s", "remaining_time": "16h 27m 34s", "loss_scale": 1.0, "consumed_samples": 179456, "global_step/max_steps": "701/12700"}
{"lm loss": 2.32390332, "grad_norm": 0.67035645, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.866992, "memory(GiB)": 28.94, "elapsed_time": "57m 46s", "remaining_time": "16h 27m 28s", "loss_scale": 1.0, "consumed_samples": 179712, "global_step/max_steps": "702/12700"}
{"lm loss": 2.30856562, "grad_norm": 0.6967482, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.83414817, "memory(GiB)": 28.94, "elapsed_time": "57m 51s", "remaining_time": "16h 27m 21s", "loss_scale": 1.0, "consumed_samples": 179968, "global_step/max_steps": "703/12700"}
{"lm loss": 2.29149413, "grad_norm": 0.62797546, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.81371713, "memory(GiB)": 28.94, "elapsed_time": "57m 56s", "remaining_time": "16h 27m 14s", "loss_scale": 1.0, "consumed_samples": 180224, "global_step/max_steps": "704/12700"}
{"lm loss": 2.3054409, "grad_norm": 0.59251153, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.7803309, "memory(GiB)": 28.94, "elapsed_time": "58m 1s", "remaining_time": "16h 27m 6s", "loss_scale": 1.0, "consumed_samples": 180480, "global_step/max_steps": "705/12700"}
{"lm loss": 2.29510927, "grad_norm": 0.61898464, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.92138672, "memory(GiB)": 28.94, "elapsed_time": "58m 5s", "remaining_time": "16h 27m 1s", "loss_scale": 1.0, "consumed_samples": 180736, "global_step/max_steps": "706/12700"}
{"lm loss": 2.30332685, "grad_norm": 0.55904996, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.9276731, "memory(GiB)": 28.94, "elapsed_time": "58m 10s", "remaining_time": "16h 26m 56s", "loss_scale": 1.0, "consumed_samples": 180992, "global_step/max_steps": "707/12700"}
{"lm loss": 2.27101421, "grad_norm": 0.59924048, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.86977506, "memory(GiB)": 28.94, "elapsed_time": "58m 15s", "remaining_time": "16h 26m 50s", "loss_scale": 1.0, "consumed_samples": 181248, "global_step/max_steps": "708/12700"}
{"lm loss": 2.31165886, "grad_norm": 0.68097919, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.8657763, "memory(GiB)": 28.94, "elapsed_time": "58m 20s", "remaining_time": "16h 26m 44s", "loss_scale": 1.0, "consumed_samples": 181504, "global_step/max_steps": "709/12700"}
{"lm loss": 2.30644011, "grad_norm": 0.64259315, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.89842844, "memory(GiB)": 28.94, "elapsed_time": "58m 25s", "remaining_time": "16h 26m 38s", "loss_scale": 1.0, "consumed_samples": 181760, "global_step/max_steps": "710/12700"}
{"lm loss": 2.31832814, "grad_norm": 0.67119557, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.98678327, "memory(GiB)": 28.94, "elapsed_time": "58m 30s", "remaining_time": "16h 26m 34s", "loss_scale": 1.0, "consumed_samples": 182016, "global_step/max_steps": "711/12700"}
{"lm loss": 2.26562428, "grad_norm": 0.73929578, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.82629752, "memory(GiB)": 28.94, "elapsed_time": "58m 35s", "remaining_time": "16h 26m 27s", "loss_scale": 1.0, "consumed_samples": 182272, "global_step/max_steps": "712/12700"}
{"lm loss": 2.2930181, "grad_norm": 0.67624032, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.90833926, "memory(GiB)": 28.94, "elapsed_time": "58m 40s", "remaining_time": "16h 26m 22s", "loss_scale": 1.0, "consumed_samples": 182528, "global_step/max_steps": "713/12700"}
{"lm loss": 2.2957921, "grad_norm": 0.66867185, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.92505455, "memory(GiB)": 28.94, "elapsed_time": "58m 45s", "remaining_time": "16h 26m 17s", "loss_scale": 1.0, "consumed_samples": 182784, "global_step/max_steps": "714/12700"}
{"lm loss": 2.27495432, "grad_norm": 0.57137847, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 5.01711011, "memory(GiB)": 28.94, "elapsed_time": "58m 50s", "remaining_time": "16h 26m 13s", "loss_scale": 1.0, "consumed_samples": 183040, "global_step/max_steps": "715/12700"}
{"lm loss": 2.29251242, "grad_norm": 0.62489891, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.90994859, "memory(GiB)": 28.94, "elapsed_time": "58m 55s", "remaining_time": "16h 26m 8s", "loss_scale": 1.0, "consumed_samples": 183296, "global_step/max_steps": "716/12700"}
{"lm loss": 2.26866055, "grad_norm": 0.6531778, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.94186282, "memory(GiB)": 28.94, "elapsed_time": "59m 0s", "remaining_time": "16h 26m 3s", "loss_scale": 1.0, "consumed_samples": 183552, "global_step/max_steps": "717/12700"}
{"lm loss": 2.27358341, "grad_norm": 0.65433729, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.91303873, "memory(GiB)": 28.94, "elapsed_time": "59m 4s", "remaining_time": "16h 25m 58s", "loss_scale": 1.0, "consumed_samples": 183808, "global_step/max_steps": "718/12700"}
{"lm loss": 2.30759597, "grad_norm": 0.68704855, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.95401573, "memory(GiB)": 28.94, "elapsed_time": "59m 9s", "remaining_time": "16h 25m 53s", "loss_scale": 1.0, "consumed_samples": 184064, "global_step/max_steps": "719/12700"}
{"lm loss": 2.30840969, "grad_norm": 0.50814056, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.88818765, "memory(GiB)": 28.94, "elapsed_time": "59m 14s", "remaining_time": "16h 25m 47s", "loss_scale": 1.0, "consumed_samples": 184320, "global_step/max_steps": "720/12700"}
{"lm loss": 2.30122805, "grad_norm": 0.65333223, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.80741382, "memory(GiB)": 28.94, "elapsed_time": "59m 19s", "remaining_time": "16h 25m 40s", "loss_scale": 1.0, "consumed_samples": 184576, "global_step/max_steps": "721/12700"}
{"lm loss": 2.2860074, "grad_norm": 0.58955097, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.91864729, "memory(GiB)": 28.94, "elapsed_time": "59m 24s", "remaining_time": "16h 25m 35s", "loss_scale": 1.0, "consumed_samples": 184832, "global_step/max_steps": "722/12700"}
{"lm loss": 2.29482031, "grad_norm": 0.62428486, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.95317721, "memory(GiB)": 28.94, "elapsed_time": "59m 29s", "remaining_time": "16h 25m 30s", "loss_scale": 1.0, "consumed_samples": 185088, "global_step/max_steps": "723/12700"}
{"lm loss": 2.30531979, "grad_norm": 0.62960911, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.92125416, "memory(GiB)": 28.94, "elapsed_time": "59m 34s", "remaining_time": "16h 25m 25s", "loss_scale": 1.0, "consumed_samples": 185344, "global_step/max_steps": "724/12700"}
{"lm loss": 2.3219831, "grad_norm": 0.57829642, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.83273363, "memory(GiB)": 28.94, "elapsed_time": "59m 39s", "remaining_time": "16h 25m 18s", "loss_scale": 1.0, "consumed_samples": 185600, "global_step/max_steps": "725/12700"}
{"lm loss": 2.2943809, "grad_norm": 0.58797932, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.8034575, "memory(GiB)": 28.94, "elapsed_time": "59m 44s", "remaining_time": "16h 25m 11s", "loss_scale": 1.0, "consumed_samples": 185856, "global_step/max_steps": "726/12700"}
{"lm loss": 2.29362059, "grad_norm": 0.55518138, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.79924798, "memory(GiB)": 28.94, "elapsed_time": "59m 48s", "remaining_time": "16h 25m 4s", "loss_scale": 1.0, "consumed_samples": 186112, "global_step/max_steps": "727/12700"}
{"lm loss": 2.27091742, "grad_norm": 0.56913334, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.81248522, "memory(GiB)": 28.94, "elapsed_time": "59m 53s", "remaining_time": "16h 24m 57s", "loss_scale": 1.0, "consumed_samples": 186368, "global_step/max_steps": "728/12700"}
{"lm loss": 2.28305078, "grad_norm": 0.54792243, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.78567171, "memory(GiB)": 28.94, "elapsed_time": "59m 58s", "remaining_time": "16h 24m 50s", "loss_scale": 1.0, "consumed_samples": 186624, "global_step/max_steps": "729/12700"}
{"lm loss": 2.29604697, "grad_norm": 0.56755608, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.86673927, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 3s", "remaining_time": "16h 24m 43s", "loss_scale": 1.0, "consumed_samples": 186880, "global_step/max_steps": "730/12700"}
{"lm loss": 2.25865746, "grad_norm": 0.6080451, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.85108757, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 8s", "remaining_time": "16h 24m 37s", "loss_scale": 1.0, "consumed_samples": 187136, "global_step/max_steps": "731/12700"}
{"lm loss": 2.28564382, "grad_norm": 0.77047563, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.89770675, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 13s", "remaining_time": "16h 24m 32s", "loss_scale": 1.0, "consumed_samples": 187392, "global_step/max_steps": "732/12700"}
{"lm loss": 2.26813579, "grad_norm": 0.82010376, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.78105783, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 17s", "remaining_time": "16h 24m 24s", "loss_scale": 1.0, "consumed_samples": 187648, "global_step/max_steps": "733/12700"}
{"lm loss": 2.32686019, "grad_norm": 0.7522949, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.87250948, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 22s", "remaining_time": "16h 24m 18s", "loss_scale": 1.0, "consumed_samples": 187904, "global_step/max_steps": "734/12700"}
{"lm loss": 2.29029322, "grad_norm": 0.75946254, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.80379343, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 27s", "remaining_time": "16h 24m 11s", "loss_scale": 1.0, "consumed_samples": 188160, "global_step/max_steps": "735/12700"}
{"lm loss": 2.26968169, "grad_norm": 0.71314138, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.86383462, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 32s", "remaining_time": "16h 24m 5s", "loss_scale": 1.0, "consumed_samples": 188416, "global_step/max_steps": "736/12700"}
{"lm loss": 2.29643059, "grad_norm": 0.6411376, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.83924437, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 37s", "remaining_time": "16h 23m 58s", "loss_scale": 1.0, "consumed_samples": 188672, "global_step/max_steps": "737/12700"}
{"lm loss": 2.2955842, "grad_norm": 0.63078594, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.79819417, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 41s", "remaining_time": "16h 23m 51s", "loss_scale": 1.0, "consumed_samples": 188928, "global_step/max_steps": "738/12700"}
{"lm loss": 2.27087617, "grad_norm": 0.64795488, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.94417405, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 46s", "remaining_time": "16h 23m 47s", "loss_scale": 1.0, "consumed_samples": 189184, "global_step/max_steps": "739/12700"}
{"lm loss": 2.30810094, "grad_norm": 0.64327687, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.88978553, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 51s", "remaining_time": "16h 23m 41s", "loss_scale": 1.0, "consumed_samples": 189440, "global_step/max_steps": "740/12700"}
{"lm loss": 2.32839894, "grad_norm": 0.62755346, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.93658781, "memory(GiB)": 28.94, "elapsed_time": "1h 0m 56s", "remaining_time": "16h 23m 36s", "loss_scale": 1.0, "consumed_samples": 189696, "global_step/max_steps": "741/12700"}
{"lm loss": 2.2949903, "grad_norm": 0.64838886, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 5.04068184, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 1s", "remaining_time": "16h 23m 33s", "loss_scale": 1.0, "consumed_samples": 189952, "global_step/max_steps": "742/12700"}
{"lm loss": 2.28670216, "grad_norm": 0.63557011, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.78088593, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 6s", "remaining_time": "16h 23m 25s", "loss_scale": 1.0, "consumed_samples": 190208, "global_step/max_steps": "743/12700"}
{"lm loss": 2.27296686, "grad_norm": 0.52683336, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.91841555, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 11s", "remaining_time": "16h 23m 20s", "loss_scale": 1.0, "consumed_samples": 190464, "global_step/max_steps": "744/12700"}
{"lm loss": 2.3091445, "grad_norm": 0.63321614, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.93670273, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 16s", "remaining_time": "16h 23m 15s", "loss_scale": 1.0, "consumed_samples": 190720, "global_step/max_steps": "745/12700"}
{"lm loss": 2.29867363, "grad_norm": 0.59235537, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.84942985, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 21s", "remaining_time": "16h 23m 9s", "loss_scale": 1.0, "consumed_samples": 190976, "global_step/max_steps": "746/12700"}
{"lm loss": 2.26292729, "grad_norm": 0.62046641, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.97968435, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 26s", "remaining_time": "16h 23m 5s", "loss_scale": 1.0, "consumed_samples": 191232, "global_step/max_steps": "747/12700"}
{"lm loss": 2.31519246, "grad_norm": 0.62707889, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.8472805, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 31s", "remaining_time": "16h 22m 58s", "loss_scale": 1.0, "consumed_samples": 191488, "global_step/max_steps": "748/12700"}
{"lm loss": 2.26161242, "grad_norm": 0.59720266, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.8401289, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 35s", "remaining_time": "16h 22m 52s", "loss_scale": 1.0, "consumed_samples": 191744, "global_step/max_steps": "749/12700"}
{"lm loss": 2.34020901, "grad_norm": 0.59633911, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.8904736, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 40s", "remaining_time": "16h 22m 46s", "loss_scale": 1.0, "consumed_samples": 192000, "global_step/max_steps": "750/12700"}
{"lm loss": 2.30161595, "grad_norm": 0.58727151, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.92081976, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 45s", "remaining_time": "16h 22m 41s", "loss_scale": 1.0, "consumed_samples": 192256, "global_step/max_steps": "751/12700"}
{"lm loss": 2.33837414, "grad_norm": 0.64605731, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.91453815, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 50s", "remaining_time": "16h 22m 36s", "loss_scale": 1.0, "consumed_samples": 192512, "global_step/max_steps": "752/12700"}
{"lm loss": 2.296731, "grad_norm": 0.56866211, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.91556382, "memory(GiB)": 28.94, "elapsed_time": "1h 1m 55s", "remaining_time": "16h 22m 31s", "loss_scale": 1.0, "consumed_samples": 192768, "global_step/max_steps": "753/12700"}
{"lm loss": 2.30958676, "grad_norm": 0.6083495, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.88041544, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 0s", "remaining_time": "16h 22m 25s", "loss_scale": 1.0, "consumed_samples": 193024, "global_step/max_steps": "754/12700"}
{"lm loss": 2.24394774, "grad_norm": 0.54616874, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.9641664, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 5s", "remaining_time": "16h 22m 20s", "loss_scale": 1.0, "consumed_samples": 193280, "global_step/max_steps": "755/12700"}
{"lm loss": 2.28249812, "grad_norm": 0.57615405, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.97622752, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 10s", "remaining_time": "16h 22m 16s", "loss_scale": 1.0, "consumed_samples": 193536, "global_step/max_steps": "756/12700"}
{"lm loss": 2.29624248, "grad_norm": 0.53182918, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.90790749, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 15s", "remaining_time": "16h 22m 11s", "loss_scale": 1.0, "consumed_samples": 193792, "global_step/max_steps": "757/12700"}
{"lm loss": 2.27240729, "grad_norm": 0.63851696, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.81980157, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 20s", "remaining_time": "16h 22m 4s", "loss_scale": 1.0, "consumed_samples": 194048, "global_step/max_steps": "758/12700"}
{"lm loss": 2.33763695, "grad_norm": 0.65954274, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.76371813, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 24s", "remaining_time": "16h 21m 56s", "loss_scale": 1.0, "consumed_samples": 194304, "global_step/max_steps": "759/12700"}
{"lm loss": 2.28790998, "grad_norm": 0.67289191, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.87532711, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 29s", "remaining_time": "16h 21m 51s", "loss_scale": 1.0, "consumed_samples": 194560, "global_step/max_steps": "760/12700"}
{"lm loss": 2.29673195, "grad_norm": 0.70273626, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.87670398, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 34s", "remaining_time": "16h 21m 45s", "loss_scale": 1.0, "consumed_samples": 194816, "global_step/max_steps": "761/12700"}
{"lm loss": 2.31962729, "grad_norm": 0.58220154, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.97471309, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 39s", "remaining_time": "16h 21m 40s", "loss_scale": 1.0, "consumed_samples": 195072, "global_step/max_steps": "762/12700"}
{"lm loss": 2.31312037, "grad_norm": 0.56149578, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.92649937, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 44s", "remaining_time": "16h 21m 35s", "loss_scale": 1.0, "consumed_samples": 195328, "global_step/max_steps": "763/12700"}
{"lm loss": 2.28980899, "grad_norm": 0.62877572, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.91913342, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 49s", "remaining_time": "16h 21m 30s", "loss_scale": 1.0, "consumed_samples": 195584, "global_step/max_steps": "764/12700"}
{"lm loss": 2.30857992, "grad_norm": 0.67203462, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.74480939, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 54s", "remaining_time": "16h 21m 22s", "loss_scale": 1.0, "consumed_samples": 195840, "global_step/max_steps": "765/12700"}
{"lm loss": 2.28363156, "grad_norm": 0.63637996, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.82469654, "memory(GiB)": 28.94, "elapsed_time": "1h 2m 59s", "remaining_time": "16h 21m 16s", "loss_scale": 1.0, "consumed_samples": 196096, "global_step/max_steps": "766/12700"}
{"lm loss": 2.28355265, "grad_norm": 0.61268872, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.82223248, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 3s", "remaining_time": "16h 21m 9s", "loss_scale": 1.0, "consumed_samples": 196352, "global_step/max_steps": "767/12700"}
{"lm loss": 2.25334787, "grad_norm": 0.54832578, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.86600161, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 8s", "remaining_time": "16h 21m 3s", "loss_scale": 1.0, "consumed_samples": 196608, "global_step/max_steps": "768/12700"}
{"lm loss": 2.28447127, "grad_norm": 0.60408181, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.7564075, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 13s", "remaining_time": "16h 20m 55s", "loss_scale": 1.0, "consumed_samples": 196864, "global_step/max_steps": "769/12700"}
{"lm loss": 2.26461291, "grad_norm": 0.64832282, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.90118361, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 18s", "remaining_time": "16h 20m 50s", "loss_scale": 1.0, "consumed_samples": 197120, "global_step/max_steps": "770/12700"}
{"lm loss": 2.2698071, "grad_norm": 0.71458602, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.86557293, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 23s", "remaining_time": "16h 20m 44s", "loss_scale": 1.0, "consumed_samples": 197376, "global_step/max_steps": "771/12700"}
{"lm loss": 2.29778743, "grad_norm": 0.53491861, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.94233227, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 28s", "remaining_time": "16h 20m 39s", "loss_scale": 1.0, "consumed_samples": 197632, "global_step/max_steps": "772/12700"}
{"lm loss": 2.27588248, "grad_norm": 0.63886809, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.84961152, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 33s", "remaining_time": "16h 20m 33s", "loss_scale": 1.0, "consumed_samples": 197888, "global_step/max_steps": "773/12700"}
{"lm loss": 2.28157997, "grad_norm": 0.6346004, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.90416241, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 37s", "remaining_time": "16h 20m 28s", "loss_scale": 1.0, "consumed_samples": 198144, "global_step/max_steps": "774/12700"}
{"lm loss": 2.28482556, "grad_norm": 0.64866459, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.75844193, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 42s", "remaining_time": "16h 20m 20s", "loss_scale": 1.0, "consumed_samples": 198400, "global_step/max_steps": "775/12700"}
{"lm loss": 2.28314447, "grad_norm": 0.60806865, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.84045625, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 47s", "remaining_time": "16h 20m 14s", "loss_scale": 1.0, "consumed_samples": 198656, "global_step/max_steps": "776/12700"}
{"lm loss": 2.28806043, "grad_norm": 0.57361275, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.83766747, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 52s", "remaining_time": "16h 20m 7s", "loss_scale": 1.0, "consumed_samples": 198912, "global_step/max_steps": "777/12700"}
{"lm loss": 2.27011561, "grad_norm": 0.62385565, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.97198749, "memory(GiB)": 28.94, "elapsed_time": "1h 3m 57s", "remaining_time": "16h 20m 3s", "loss_scale": 1.0, "consumed_samples": 199168, "global_step/max_steps": "778/12700"}
{"lm loss": 2.32034945, "grad_norm": 0.62178665, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.82167149, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 2s", "remaining_time": "16h 19m 56s", "loss_scale": 1.0, "consumed_samples": 199424, "global_step/max_steps": "779/12700"}
{"lm loss": 2.24682903, "grad_norm": 0.57819664, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.97730756, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 7s", "remaining_time": "16h 19m 52s", "loss_scale": 1.0, "consumed_samples": 199680, "global_step/max_steps": "780/12700"}
{"lm loss": 2.31861019, "grad_norm": 0.6414476, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.88201427, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 12s", "remaining_time": "16h 19m 46s", "loss_scale": 1.0, "consumed_samples": 199936, "global_step/max_steps": "781/12700"}
{"lm loss": 2.2962358, "grad_norm": 0.60213012, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.85827041, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 16s", "remaining_time": "16h 19m 40s", "loss_scale": 1.0, "consumed_samples": 200192, "global_step/max_steps": "782/12700"}
{"lm loss": 2.30894566, "grad_norm": 0.60459292, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.87617922, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 21s", "remaining_time": "16h 19m 35s", "loss_scale": 1.0, "consumed_samples": 200448, "global_step/max_steps": "783/12700"}
{"lm loss": 2.29057384, "grad_norm": 0.60795218, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.96907759, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 26s", "remaining_time": "16h 19m 30s", "loss_scale": 1.0, "consumed_samples": 200704, "global_step/max_steps": "784/12700"}
{"lm loss": 2.30178332, "grad_norm": 0.59823942, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.86132455, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 31s", "remaining_time": "16h 19m 24s", "loss_scale": 1.0, "consumed_samples": 200960, "global_step/max_steps": "785/12700"}
{"lm loss": 2.30618334, "grad_norm": 0.65382439, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.86053348, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 36s", "remaining_time": "16h 19m 18s", "loss_scale": 1.0, "consumed_samples": 201216, "global_step/max_steps": "786/12700"}
{"lm loss": 2.27369714, "grad_norm": 0.58338785, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.95277739, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 41s", "remaining_time": "16h 19m 14s", "loss_scale": 1.0, "consumed_samples": 201472, "global_step/max_steps": "787/12700"}
{"lm loss": 2.27992892, "grad_norm": 0.60258728, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.83674097, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 46s", "remaining_time": "16h 19m 7s", "loss_scale": 1.0, "consumed_samples": 201728, "global_step/max_steps": "788/12700"}
{"lm loss": 2.28356504, "grad_norm": 0.64844161, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.87909389, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 51s", "remaining_time": "16h 19m 1s", "loss_scale": 1.0, "consumed_samples": 201984, "global_step/max_steps": "789/12700"}
{"lm loss": 2.29398966, "grad_norm": 0.53601497, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.83241796, "memory(GiB)": 28.94, "elapsed_time": "1h 4m 55s", "remaining_time": "16h 18m 55s", "loss_scale": 1.0, "consumed_samples": 202240, "global_step/max_steps": "790/12700"}
{"lm loss": 2.29266715, "grad_norm": 0.65071219, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.87481713, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 0s", "remaining_time": "16h 18m 49s", "loss_scale": 1.0, "consumed_samples": 202496, "global_step/max_steps": "791/12700"}
{"lm loss": 2.30093741, "grad_norm": 0.64962125, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.90246797, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 5s", "remaining_time": "16h 18m 44s", "loss_scale": 1.0, "consumed_samples": 202752, "global_step/max_steps": "792/12700"}
{"lm loss": 2.29205036, "grad_norm": 0.58031917, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.92046499, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 10s", "remaining_time": "16h 18m 39s", "loss_scale": 1.0, "consumed_samples": 203008, "global_step/max_steps": "793/12700"}
{"lm loss": 2.27814579, "grad_norm": 0.55776894, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.86141419, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 15s", "remaining_time": "16h 18m 33s", "loss_scale": 1.0, "consumed_samples": 203264, "global_step/max_steps": "794/12700"}
{"lm loss": 2.28453112, "grad_norm": 0.61716908, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.85537672, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 20s", "remaining_time": "16h 18m 27s", "loss_scale": 1.0, "consumed_samples": 203520, "global_step/max_steps": "795/12700"}
{"lm loss": 2.3003397, "grad_norm": 0.53666401, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.90225601, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 25s", "remaining_time": "16h 18m 21s", "loss_scale": 1.0, "consumed_samples": 203776, "global_step/max_steps": "796/12700"}
{"lm loss": 2.25673747, "grad_norm": 0.55598152, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.88224363, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 30s", "remaining_time": "16h 18m 16s", "loss_scale": 1.0, "consumed_samples": 204032, "global_step/max_steps": "797/12700"}
{"lm loss": 2.25838804, "grad_norm": 0.53514546, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.92397308, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 35s", "remaining_time": "16h 18m 11s", "loss_scale": 1.0, "consumed_samples": 204288, "global_step/max_steps": "798/12700"}
{"lm loss": 2.28530335, "grad_norm": 0.53275263, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.73709369, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 39s", "remaining_time": "16h 18m 3s", "loss_scale": 1.0, "consumed_samples": 204544, "global_step/max_steps": "799/12700"}
{"lm loss": 2.26682281, "grad_norm": 0.53092682, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.89978981, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 44s", "remaining_time": "16h 17m 57s", "loss_scale": 1.0, "consumed_samples": 204800, "global_step/max_steps": "800/12700"}
{"lm loss": 2.27195501, "grad_norm": 0.510423, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.78589439, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 49s", "remaining_time": "16h 17m 50s", "loss_scale": 1.0, "consumed_samples": 205056, "global_step/max_steps": "801/12700"}
{"lm loss": 2.2487731, "grad_norm": 0.57026827, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.89473701, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 54s", "remaining_time": "16h 17m 45s", "loss_scale": 1.0, "consumed_samples": 205312, "global_step/max_steps": "802/12700"}
{"lm loss": 2.27954984, "grad_norm": 0.50841469, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.85969472, "memory(GiB)": 28.94, "elapsed_time": "1h 5m 59s", "remaining_time": "16h 17m 39s", "loss_scale": 1.0, "consumed_samples": 205568, "global_step/max_steps": "803/12700"}
{"lm loss": 2.29463863, "grad_norm": 0.56345254, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.85209846, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 4s", "remaining_time": "16h 17m 33s", "loss_scale": 1.0, "consumed_samples": 205824, "global_step/max_steps": "804/12700"}
{"lm loss": 2.25086617, "grad_norm": 0.57608867, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.83846211, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 8s", "remaining_time": "16h 17m 26s", "loss_scale": 1.0, "consumed_samples": 206080, "global_step/max_steps": "805/12700"}
{"lm loss": 2.28671598, "grad_norm": 0.63850528, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.8759985, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 13s", "remaining_time": "16h 17m 21s", "loss_scale": 1.0, "consumed_samples": 206336, "global_step/max_steps": "806/12700"}
{"lm loss": 2.29102993, "grad_norm": 0.76381797, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.84258604, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 18s", "remaining_time": "16h 17m 15s", "loss_scale": 1.0, "consumed_samples": 206592, "global_step/max_steps": "807/12700"}
{"lm loss": 2.30431604, "grad_norm": 0.71387529, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.87783861, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 23s", "remaining_time": "16h 17m 9s", "loss_scale": 1.0, "consumed_samples": 206848, "global_step/max_steps": "808/12700"}
{"lm loss": 2.26225901, "grad_norm": 0.66225702, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.89455914, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 28s", "remaining_time": "16h 17m 3s", "loss_scale": 1.0, "consumed_samples": 207104, "global_step/max_steps": "809/12700"}
{"lm loss": 2.26488376, "grad_norm": 0.6250971, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.83249116, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 33s", "remaining_time": "16h 16m 57s", "loss_scale": 1.0, "consumed_samples": 207360, "global_step/max_steps": "810/12700"}
{"lm loss": 2.2700336, "grad_norm": 0.56110638, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.85600924, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 38s", "remaining_time": "16h 16m 51s", "loss_scale": 1.0, "consumed_samples": 207616, "global_step/max_steps": "811/12700"}
{"lm loss": 2.29109812, "grad_norm": 0.64269876, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.94428635, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 43s", "remaining_time": "16h 16m 46s", "loss_scale": 1.0, "consumed_samples": 207872, "global_step/max_steps": "812/12700"}
{"lm loss": 2.26288724, "grad_norm": 0.56677252, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.91221094, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 47s", "remaining_time": "16h 16m 41s", "loss_scale": 1.0, "consumed_samples": 208128, "global_step/max_steps": "813/12700"}
{"lm loss": 2.22586274, "grad_norm": 0.67155826, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.86949849, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 52s", "remaining_time": "16h 16m 35s", "loss_scale": 1.0, "consumed_samples": 208384, "global_step/max_steps": "814/12700"}
{"lm loss": 2.26843429, "grad_norm": 0.63112587, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.95935822, "memory(GiB)": 28.94, "elapsed_time": "1h 6m 57s", "remaining_time": "16h 16m 31s", "loss_scale": 1.0, "consumed_samples": 208640, "global_step/max_steps": "815/12700"}
{"lm loss": 2.27662063, "grad_norm": 0.5183236, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.94011021, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 2s", "remaining_time": "16h 16m 26s", "loss_scale": 1.0, "consumed_samples": 208896, "global_step/max_steps": "816/12700"}
{"lm loss": 2.28172898, "grad_norm": 0.52420515, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.92822981, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 7s", "remaining_time": "16h 16m 21s", "loss_scale": 1.0, "consumed_samples": 209152, "global_step/max_steps": "817/12700"}
{"lm loss": 2.24334979, "grad_norm": 0.56623328, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.86895061, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 12s", "remaining_time": "16h 16m 15s", "loss_scale": 1.0, "consumed_samples": 209408, "global_step/max_steps": "818/12700"}
{"lm loss": 2.27890277, "grad_norm": 0.54460371, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.95097136, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 17s", "remaining_time": "16h 16m 11s", "loss_scale": 1.0, "consumed_samples": 209664, "global_step/max_steps": "819/12700"}
{"lm loss": 2.2666297, "grad_norm": 0.71073359, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.85509086, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 22s", "remaining_time": "16h 16m 5s", "loss_scale": 1.0, "consumed_samples": 209920, "global_step/max_steps": "820/12700"}
{"lm loss": 2.28612304, "grad_norm": 0.64121103, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.90042639, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 27s", "remaining_time": "16h 15m 59s", "loss_scale": 1.0, "consumed_samples": 210176, "global_step/max_steps": "821/12700"}
{"lm loss": 2.28053689, "grad_norm": 0.52546084, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.85810113, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 32s", "remaining_time": "16h 15m 53s", "loss_scale": 1.0, "consumed_samples": 210432, "global_step/max_steps": "822/12700"}
{"lm loss": 2.29587746, "grad_norm": 0.55495214, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.94739771, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 37s", "remaining_time": "16h 15m 49s", "loss_scale": 1.0, "consumed_samples": 210688, "global_step/max_steps": "823/12700"}
{"lm loss": 2.28497028, "grad_norm": 0.50773472, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.825109, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 41s", "remaining_time": "16h 15m 42s", "loss_scale": 1.0, "consumed_samples": 210944, "global_step/max_steps": "824/12700"}
{"lm loss": 2.27975559, "grad_norm": 0.5116607, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.93574619, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 46s", "remaining_time": "16h 15m 37s", "loss_scale": 1.0, "consumed_samples": 211200, "global_step/max_steps": "825/12700"}
{"lm loss": 2.26551151, "grad_norm": 0.6070143, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.84345269, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 51s", "remaining_time": "16h 15m 31s", "loss_scale": 1.0, "consumed_samples": 211456, "global_step/max_steps": "826/12700"}
{"lm loss": 2.31899333, "grad_norm": 0.66693908, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.87503338, "memory(GiB)": 28.94, "elapsed_time": "1h 7m 56s", "remaining_time": "16h 15m 25s", "loss_scale": 1.0, "consumed_samples": 211712, "global_step/max_steps": "827/12700"}
{"lm loss": 2.24492073, "grad_norm": 0.62965816, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.85679364, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 1s", "remaining_time": "16h 15m 19s", "loss_scale": 1.0, "consumed_samples": 211968, "global_step/max_steps": "828/12700"}
{"lm loss": 2.28590417, "grad_norm": 0.51309174, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 5.09765267, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 6s", "remaining_time": "16h 15m 17s", "loss_scale": 1.0, "consumed_samples": 212224, "global_step/max_steps": "829/12700"}
{"lm loss": 2.28777933, "grad_norm": 0.56088459, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.80869174, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 11s", "remaining_time": "16h 15m 10s", "loss_scale": 1.0, "consumed_samples": 212480, "global_step/max_steps": "830/12700"}
{"lm loss": 2.29677224, "grad_norm": 0.70144105, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.87398458, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 16s", "remaining_time": "16h 15m 5s", "loss_scale": 1.0, "consumed_samples": 212736, "global_step/max_steps": "831/12700"}
{"lm loss": 2.28027511, "grad_norm": 0.65877485, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.7966404, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 20s", "remaining_time": "16h 14m 58s", "loss_scale": 1.0, "consumed_samples": 212992, "global_step/max_steps": "832/12700"}
{"lm loss": 2.28154874, "grad_norm": 0.71012104, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.9038918, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 25s", "remaining_time": "16h 14m 52s", "loss_scale": 1.0, "consumed_samples": 213248, "global_step/max_steps": "833/12700"}
{"lm loss": 2.30867529, "grad_norm": 0.60116017, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.84820175, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 30s", "remaining_time": "16h 14m 46s", "loss_scale": 1.0, "consumed_samples": 213504, "global_step/max_steps": "834/12700"}
{"lm loss": 2.28341007, "grad_norm": 0.58356285, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.93345428, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 35s", "remaining_time": "16h 14m 42s", "loss_scale": 1.0, "consumed_samples": 213760, "global_step/max_steps": "835/12700"}
{"lm loss": 2.29862237, "grad_norm": 0.63883281, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.79744172, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 40s", "remaining_time": "16h 14m 35s", "loss_scale": 1.0, "consumed_samples": 214016, "global_step/max_steps": "836/12700"}
{"lm loss": 2.31621885, "grad_norm": 0.63697743, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.79535651, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 45s", "remaining_time": "16h 14m 28s", "loss_scale": 1.0, "consumed_samples": 214272, "global_step/max_steps": "837/12700"}
{"lm loss": 2.26766586, "grad_norm": 0.60220116, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.97105789, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 50s", "remaining_time": "16h 14m 24s", "loss_scale": 1.0, "consumed_samples": 214528, "global_step/max_steps": "838/12700"}
{"lm loss": 2.29282546, "grad_norm": 0.57495272, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.979743, "memory(GiB)": 28.94, "elapsed_time": "1h 8m 55s", "remaining_time": "16h 14m 19s", "loss_scale": 1.0, "consumed_samples": 214784, "global_step/max_steps": "839/12700"}
{"lm loss": 2.24232054, "grad_norm": 0.53203034, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.81480217, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 0s", "remaining_time": "16h 14m 13s", "loss_scale": 1.0, "consumed_samples": 215040, "global_step/max_steps": "840/12700"}
{"lm loss": 2.29704356, "grad_norm": 0.59150791, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.93096423, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 4s", "remaining_time": "16h 14m 8s", "loss_scale": 1.0, "consumed_samples": 215296, "global_step/max_steps": "841/12700"}
{"lm loss": 2.24813366, "grad_norm": 0.58706653, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.86138916, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 9s", "remaining_time": "16h 14m 2s", "loss_scale": 1.0, "consumed_samples": 215552, "global_step/max_steps": "842/12700"}
{"lm loss": 2.2874229, "grad_norm": 0.5712043, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.88153338, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 14s", "remaining_time": "16h 13m 56s", "loss_scale": 1.0, "consumed_samples": 215808, "global_step/max_steps": "843/12700"}
{"lm loss": 2.26518035, "grad_norm": 0.55872548, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.99764657, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 19s", "remaining_time": "16h 13m 53s", "loss_scale": 1.0, "consumed_samples": 216064, "global_step/max_steps": "844/12700"}
{"lm loss": 2.26097083, "grad_norm": 0.55862612, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.84990835, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 24s", "remaining_time": "16h 13m 47s", "loss_scale": 1.0, "consumed_samples": 216320, "global_step/max_steps": "845/12700"}
{"lm loss": 2.27290463, "grad_norm": 0.65747648, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.88542938, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 29s", "remaining_time": "16h 13m 41s", "loss_scale": 1.0, "consumed_samples": 216576, "global_step/max_steps": "846/12700"}
{"lm loss": 2.24744391, "grad_norm": 0.57094169, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.85365725, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 34s", "remaining_time": "16h 13m 35s", "loss_scale": 1.0, "consumed_samples": 216832, "global_step/max_steps": "847/12700"}
{"lm loss": 2.29789114, "grad_norm": 0.61091751, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.93274212, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 39s", "remaining_time": "16h 13m 30s", "loss_scale": 1.0, "consumed_samples": 217088, "global_step/max_steps": "848/12700"}
{"lm loss": 2.28100705, "grad_norm": 0.65738553, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.97771859, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 44s", "remaining_time": "16h 13m 26s", "loss_scale": 1.0, "consumed_samples": 217344, "global_step/max_steps": "849/12700"}
{"lm loss": 2.29405236, "grad_norm": 0.5969429, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.93020225, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 49s", "remaining_time": "16h 13m 21s", "loss_scale": 1.0, "consumed_samples": 217600, "global_step/max_steps": "850/12700"}
{"lm loss": 2.27994061, "grad_norm": 0.51998389, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.84811854, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 53s", "remaining_time": "16h 13m 15s", "loss_scale": 1.0, "consumed_samples": 217856, "global_step/max_steps": "851/12700"}
{"lm loss": 2.31899405, "grad_norm": 0.60963613, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.86306691, "memory(GiB)": 28.94, "elapsed_time": "1h 9m 58s", "remaining_time": "16h 13m 9s", "loss_scale": 1.0, "consumed_samples": 218112, "global_step/max_steps": "852/12700"}
{"lm loss": 2.29456949, "grad_norm": 0.59298038, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.83700752, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 3s", "remaining_time": "16h 13m 3s", "loss_scale": 1.0, "consumed_samples": 218368, "global_step/max_steps": "853/12700"}
{"lm loss": 2.25005579, "grad_norm": 0.56937444, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.94526362, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 8s", "remaining_time": "16h 12m 58s", "loss_scale": 1.0, "consumed_samples": 218624, "global_step/max_steps": "854/12700"}
{"lm loss": 2.2589817, "grad_norm": 0.62167615, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.81374884, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 13s", "remaining_time": "16h 12m 52s", "loss_scale": 1.0, "consumed_samples": 218880, "global_step/max_steps": "855/12700"}
{"lm loss": 2.26088381, "grad_norm": 0.60047507, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.918401, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 18s", "remaining_time": "16h 12m 47s", "loss_scale": 1.0, "consumed_samples": 219136, "global_step/max_steps": "856/12700"}
{"lm loss": 2.30386257, "grad_norm": 0.70541173, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.88232541, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 23s", "remaining_time": "16h 12m 41s", "loss_scale": 1.0, "consumed_samples": 219392, "global_step/max_steps": "857/12700"}
{"lm loss": 2.29114914, "grad_norm": 0.66885382, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.89721727, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 28s", "remaining_time": "16h 12m 36s", "loss_scale": 1.0, "consumed_samples": 219648, "global_step/max_steps": "858/12700"}
{"lm loss": 2.26486111, "grad_norm": 0.53634012, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.96124768, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 33s", "remaining_time": "16h 12m 31s", "loss_scale": 1.0, "consumed_samples": 219904, "global_step/max_steps": "859/12700"}
{"lm loss": 2.28132415, "grad_norm": 0.60884082, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.94629121, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 38s", "remaining_time": "16h 12m 27s", "loss_scale": 1.0, "consumed_samples": 220160, "global_step/max_steps": "860/12700"}
{"lm loss": 2.30428743, "grad_norm": 0.65542203, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.96400738, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 43s", "remaining_time": "16h 12m 22s", "loss_scale": 1.0, "consumed_samples": 220416, "global_step/max_steps": "861/12700"}
{"lm loss": 2.28621674, "grad_norm": 0.63706052, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.78834295, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 47s", "remaining_time": "16h 12m 15s", "loss_scale": 1.0, "consumed_samples": 220672, "global_step/max_steps": "862/12700"}
{"lm loss": 2.28527331, "grad_norm": 0.66681749, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.83007216, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 52s", "remaining_time": "16h 12m 9s", "loss_scale": 1.0, "consumed_samples": 220928, "global_step/max_steps": "863/12700"}
{"lm loss": 2.30134892, "grad_norm": 0.65685183, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.88999248, "memory(GiB)": 28.94, "elapsed_time": "1h 10m 57s", "remaining_time": "16h 12m 4s", "loss_scale": 1.0, "consumed_samples": 221184, "global_step/max_steps": "864/12700"}
{"lm loss": 2.26805854, "grad_norm": 0.53634149, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.8900373, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 2s", "remaining_time": "16h 11m 58s", "loss_scale": 1.0, "consumed_samples": 221440, "global_step/max_steps": "865/12700"}
{"lm loss": 2.26807165, "grad_norm": 0.56285822, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.82671714, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 7s", "remaining_time": "16h 11m 52s", "loss_scale": 1.0, "consumed_samples": 221696, "global_step/max_steps": "866/12700"}
{"lm loss": 2.23711658, "grad_norm": 0.52564079, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.93459487, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 12s", "remaining_time": "16h 11m 47s", "loss_scale": 1.0, "consumed_samples": 221952, "global_step/max_steps": "867/12700"}
{"lm loss": 2.30188179, "grad_norm": 0.66114283, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.91549778, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 17s", "remaining_time": "16h 11m 42s", "loss_scale": 1.0, "consumed_samples": 222208, "global_step/max_steps": "868/12700"}
{"lm loss": 2.24862838, "grad_norm": 0.72684127, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.86491728, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 21s", "remaining_time": "16h 11m 36s", "loss_scale": 1.0, "consumed_samples": 222464, "global_step/max_steps": "869/12700"}
{"lm loss": 2.25935459, "grad_norm": 0.61003739, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.92910981, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 26s", "remaining_time": "16h 11m 31s", "loss_scale": 1.0, "consumed_samples": 222720, "global_step/max_steps": "870/12700"}
{"lm loss": 2.27307367, "grad_norm": 0.58152896, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.86632681, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 31s", "remaining_time": "16h 11m 25s", "loss_scale": 1.0, "consumed_samples": 222976, "global_step/max_steps": "871/12700"}
{"lm loss": 2.29630017, "grad_norm": 0.6548537, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.80087972, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 36s", "remaining_time": "16h 11m 19s", "loss_scale": 1.0, "consumed_samples": 223232, "global_step/max_steps": "872/12700"}
{"lm loss": 2.27600002, "grad_norm": 0.6802662, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.94119668, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 41s", "remaining_time": "16h 11m 14s", "loss_scale": 1.0, "consumed_samples": 223488, "global_step/max_steps": "873/12700"}
{"lm loss": 2.27182865, "grad_norm": 0.61795175, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 5.00644755, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 46s", "remaining_time": "16h 11m 10s", "loss_scale": 1.0, "consumed_samples": 223744, "global_step/max_steps": "874/12700"}
{"lm loss": 2.27128363, "grad_norm": 0.55088991, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.92602181, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 51s", "remaining_time": "16h 11m 5s", "loss_scale": 1.0, "consumed_samples": 224000, "global_step/max_steps": "875/12700"}
{"lm loss": 2.28187156, "grad_norm": 0.5418334, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.88039684, "memory(GiB)": 28.94, "elapsed_time": "1h 11m 56s", "remaining_time": "16h 11m 0s", "loss_scale": 1.0, "consumed_samples": 224256, "global_step/max_steps": "876/12700"}
{"lm loss": 2.28370976, "grad_norm": 0.61624253, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.94689202, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 1s", "remaining_time": "16h 10m 55s", "loss_scale": 1.0, "consumed_samples": 224512, "global_step/max_steps": "877/12700"}
{"lm loss": 2.26785231, "grad_norm": 0.53331673, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.872926, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 6s", "remaining_time": "16h 10m 49s", "loss_scale": 1.0, "consumed_samples": 224768, "global_step/max_steps": "878/12700"}
{"lm loss": 2.2738986, "grad_norm": 0.59337407, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.86864877, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 10s", "remaining_time": "16h 10m 44s", "loss_scale": 1.0, "consumed_samples": 225024, "global_step/max_steps": "879/12700"}
{"lm loss": 2.27817702, "grad_norm": 0.59891492, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.93656921, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 15s", "remaining_time": "16h 10m 39s", "loss_scale": 1.0, "consumed_samples": 225280, "global_step/max_steps": "880/12700"}
{"lm loss": 2.25937843, "grad_norm": 0.52454752, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 5.00729299, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 20s", "remaining_time": "16h 10m 35s", "loss_scale": 1.0, "consumed_samples": 225536, "global_step/max_steps": "881/12700"}
{"lm loss": 2.27313471, "grad_norm": 0.48657298, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.86615586, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 25s", "remaining_time": "16h 10m 29s", "loss_scale": 1.0, "consumed_samples": 225792, "global_step/max_steps": "882/12700"}
{"lm loss": 2.27180886, "grad_norm": 0.5347687, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.97568345, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 30s", "remaining_time": "16h 10m 25s", "loss_scale": 1.0, "consumed_samples": 226048, "global_step/max_steps": "883/12700"}
{"lm loss": 2.24463916, "grad_norm": 0.56636292, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.82183337, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 35s", "remaining_time": "16h 10m 19s", "loss_scale": 1.0, "consumed_samples": 226304, "global_step/max_steps": "884/12700"}
{"lm loss": 2.24731159, "grad_norm": 0.53639907, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.91218495, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 40s", "remaining_time": "16h 10m 14s", "loss_scale": 1.0, "consumed_samples": 226560, "global_step/max_steps": "885/12700"}
{"lm loss": 2.28563881, "grad_norm": 0.54400587, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.85727572, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 45s", "remaining_time": "16h 10m 8s", "loss_scale": 1.0, "consumed_samples": 226816, "global_step/max_steps": "886/12700"}
{"lm loss": 2.29913449, "grad_norm": 0.64497989, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.92367268, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 50s", "remaining_time": "16h 10m 3s", "loss_scale": 1.0, "consumed_samples": 227072, "global_step/max_steps": "887/12700"}
{"lm loss": 2.26660895, "grad_norm": 0.53254139, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.85124683, "memory(GiB)": 28.94, "elapsed_time": "1h 12m 55s", "remaining_time": "16h 9m 57s", "loss_scale": 1.0, "consumed_samples": 227328, "global_step/max_steps": "888/12700"}
{"lm loss": 2.25021768, "grad_norm": 0.55938005, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.93786979, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 0s", "remaining_time": "16h 9m 52s", "loss_scale": 1.0, "consumed_samples": 227584, "global_step/max_steps": "889/12700"}
{"lm loss": 2.25133991, "grad_norm": 0.61743438, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.91768384, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 4s", "remaining_time": "16h 9m 47s", "loss_scale": 1.0, "consumed_samples": 227840, "global_step/max_steps": "890/12700"}
{"lm loss": 2.26594877, "grad_norm": 0.59148192, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.81545997, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 9s", "remaining_time": "16h 9m 41s", "loss_scale": 1.0, "consumed_samples": 228096, "global_step/max_steps": "891/12700"}
{"lm loss": 2.24393725, "grad_norm": 0.55681896, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.8771522, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 14s", "remaining_time": "16h 9m 35s", "loss_scale": 1.0, "consumed_samples": 228352, "global_step/max_steps": "892/12700"}
{"lm loss": 2.2398355, "grad_norm": 0.48541376, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.90225768, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 19s", "remaining_time": "16h 9m 30s", "loss_scale": 1.0, "consumed_samples": 228608, "global_step/max_steps": "893/12700"}
{"lm loss": 2.28615117, "grad_norm": 0.54849362, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.89697766, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 24s", "remaining_time": "16h 9m 24s", "loss_scale": 1.0, "consumed_samples": 228864, "global_step/max_steps": "894/12700"}
{"lm loss": 2.26601958, "grad_norm": 0.52023453, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 5.0072329, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 29s", "remaining_time": "16h 9m 21s", "loss_scale": 1.0, "consumed_samples": 229120, "global_step/max_steps": "895/12700"}
{"lm loss": 2.25605679, "grad_norm": 0.5457148, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.86920714, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 34s", "remaining_time": "16h 9m 15s", "loss_scale": 1.0, "consumed_samples": 229376, "global_step/max_steps": "896/12700"}
{"lm loss": 2.25337744, "grad_norm": 0.51816458, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.77196312, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 39s", "remaining_time": "16h 9m 8s", "loss_scale": 1.0, "consumed_samples": 229632, "global_step/max_steps": "897/12700"}
{"lm loss": 2.23284936, "grad_norm": 0.58001631, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.92945385, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 44s", "remaining_time": "16h 9m 3s", "loss_scale": 1.0, "consumed_samples": 229888, "global_step/max_steps": "898/12700"}
{"lm loss": 2.29634547, "grad_norm": 0.70039445, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.90374327, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 48s", "remaining_time": "16h 8m 58s", "loss_scale": 1.0, "consumed_samples": 230144, "global_step/max_steps": "899/12700"}
{"lm loss": 2.24265313, "grad_norm": 0.68956536, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.83153152, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 53s", "remaining_time": "16h 8m 52s", "loss_scale": 1.0, "consumed_samples": 230400, "global_step/max_steps": "900/12700"}
{"lm loss": 2.30150962, "grad_norm": 0.58763188, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.89089894, "memory(GiB)": 28.94, "elapsed_time": "1h 13m 58s", "remaining_time": "16h 8m 46s", "loss_scale": 1.0, "consumed_samples": 230656, "global_step/max_steps": "901/12700"}
{"lm loss": 2.25386238, "grad_norm": 0.56589782, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.86896586, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 3s", "remaining_time": "16h 8m 41s", "loss_scale": 1.0, "consumed_samples": 230912, "global_step/max_steps": "902/12700"}
{"lm loss": 2.27855325, "grad_norm": 0.57913226, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.75757027, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 8s", "remaining_time": "16h 8m 33s", "loss_scale": 1.0, "consumed_samples": 231168, "global_step/max_steps": "903/12700"}
{"lm loss": 2.27276468, "grad_norm": 0.74963152, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.79702544, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 13s", "remaining_time": "16h 8m 27s", "loss_scale": 1.0, "consumed_samples": 231424, "global_step/max_steps": "904/12700"}
{"lm loss": 2.28441548, "grad_norm": 0.6429773, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.97674274, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 18s", "remaining_time": "16h 8m 23s", "loss_scale": 1.0, "consumed_samples": 231680, "global_step/max_steps": "905/12700"}
{"lm loss": 2.25856996, "grad_norm": 0.53654307, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.88840961, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 22s", "remaining_time": "16h 8m 17s", "loss_scale": 1.0, "consumed_samples": 231936, "global_step/max_steps": "906/12700"}
{"lm loss": 2.27109551, "grad_norm": 0.61018866, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.83814931, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 27s", "remaining_time": "16h 8m 11s", "loss_scale": 1.0, "consumed_samples": 232192, "global_step/max_steps": "907/12700"}
{"lm loss": 2.28388238, "grad_norm": 0.72832048, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.84912872, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 32s", "remaining_time": "16h 8m 5s", "loss_scale": 1.0, "consumed_samples": 232448, "global_step/max_steps": "908/12700"}
{"lm loss": 2.2885673, "grad_norm": 0.59805959, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.84098506, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 37s", "remaining_time": "16h 7m 59s", "loss_scale": 1.0, "consumed_samples": 232704, "global_step/max_steps": "909/12700"}
{"lm loss": 2.30349135, "grad_norm": 0.52025157, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.93949747, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 42s", "remaining_time": "16h 7m 54s", "loss_scale": 1.0, "consumed_samples": 232960, "global_step/max_steps": "910/12700"}
{"lm loss": 2.29342079, "grad_norm": 0.57694411, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.99288368, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 47s", "remaining_time": "16h 7m 50s", "loss_scale": 1.0, "consumed_samples": 233216, "global_step/max_steps": "911/12700"}
{"lm loss": 2.2573154, "grad_norm": 0.52126962, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.82409883, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 52s", "remaining_time": "16h 7m 44s", "loss_scale": 1.0, "consumed_samples": 233472, "global_step/max_steps": "912/12700"}
{"lm loss": 2.28695416, "grad_norm": 0.58407545, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.88096547, "memory(GiB)": 28.94, "elapsed_time": "1h 14m 57s", "remaining_time": "16h 7m 39s", "loss_scale": 1.0, "consumed_samples": 233728, "global_step/max_steps": "913/12700"}
{"lm loss": 2.27940321, "grad_norm": 0.57591873, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.82015181, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 1s", "remaining_time": "16h 7m 32s", "loss_scale": 1.0, "consumed_samples": 233984, "global_step/max_steps": "914/12700"}
{"lm loss": 2.29925942, "grad_norm": 0.58715469, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.85127783, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 6s", "remaining_time": "16h 7m 26s", "loss_scale": 1.0, "consumed_samples": 234240, "global_step/max_steps": "915/12700"}
{"lm loss": 2.2500546, "grad_norm": 0.53510708, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.90207553, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 11s", "remaining_time": "16h 7m 21s", "loss_scale": 1.0, "consumed_samples": 234496, "global_step/max_steps": "916/12700"}
{"lm loss": 2.25532269, "grad_norm": 0.51202804, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.80705309, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 16s", "remaining_time": "16h 7m 15s", "loss_scale": 1.0, "consumed_samples": 234752, "global_step/max_steps": "917/12700"}
{"lm loss": 2.28054786, "grad_norm": 0.54407614, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.92386174, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 21s", "remaining_time": "16h 7m 10s", "loss_scale": 1.0, "consumed_samples": 235008, "global_step/max_steps": "918/12700"}
{"lm loss": 2.22495627, "grad_norm": 0.532969, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.9041183, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 26s", "remaining_time": "16h 7m 5s", "loss_scale": 1.0, "consumed_samples": 235264, "global_step/max_steps": "919/12700"}
{"lm loss": 2.27660227, "grad_norm": 0.59774303, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.94400692, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 31s", "remaining_time": "16h 7m 0s", "loss_scale": 1.0, "consumed_samples": 235520, "global_step/max_steps": "920/12700"}
{"lm loss": 2.2454319, "grad_norm": 0.55936056, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.980901, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 36s", "remaining_time": "16h 6m 56s", "loss_scale": 1.0, "consumed_samples": 235776, "global_step/max_steps": "921/12700"}
{"lm loss": 2.2840333, "grad_norm": 0.53550851, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.82132912, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 41s", "remaining_time": "16h 6m 49s", "loss_scale": 1.0, "consumed_samples": 236032, "global_step/max_steps": "922/12700"}
{"lm loss": 2.30882406, "grad_norm": 0.5430786, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.94923568, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 46s", "remaining_time": "16h 6m 45s", "loss_scale": 1.0, "consumed_samples": 236288, "global_step/max_steps": "923/12700"}
{"lm loss": 2.25004196, "grad_norm": 0.61309278, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 5.04784417, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 51s", "remaining_time": "16h 6m 41s", "loss_scale": 1.0, "consumed_samples": 236544, "global_step/max_steps": "924/12700"}
{"lm loss": 2.26708698, "grad_norm": 0.6268931, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.85750866, "memory(GiB)": 28.94, "elapsed_time": "1h 15m 55s", "remaining_time": "16h 6m 36s", "loss_scale": 1.0, "consumed_samples": 236800, "global_step/max_steps": "925/12700"}
{"lm loss": 2.25914526, "grad_norm": 0.5429185, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.8681376, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 0s", "remaining_time": "16h 6m 30s", "loss_scale": 1.0, "consumed_samples": 237056, "global_step/max_steps": "926/12700"}
{"lm loss": 2.2520473, "grad_norm": 0.54011494, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 5.10607886, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 5s", "remaining_time": "16h 6m 27s", "loss_scale": 1.0, "consumed_samples": 237312, "global_step/max_steps": "927/12700"}
{"lm loss": 2.27671409, "grad_norm": 0.55542016, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 5.07380629, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 11s", "remaining_time": "16h 6m 24s", "loss_scale": 1.0, "consumed_samples": 237568, "global_step/max_steps": "928/12700"}
{"lm loss": 2.30145836, "grad_norm": 0.53463006, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.79551506, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 15s", "remaining_time": "16h 6m 18s", "loss_scale": 1.0, "consumed_samples": 237824, "global_step/max_steps": "929/12700"}
{"lm loss": 2.27958369, "grad_norm": 0.57201314, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.90845966, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 20s", "remaining_time": "16h 6m 13s", "loss_scale": 1.0, "consumed_samples": 238080, "global_step/max_steps": "930/12700"}
{"lm loss": 2.26333356, "grad_norm": 0.63241541, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.82904935, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 25s", "remaining_time": "16h 6m 6s", "loss_scale": 1.0, "consumed_samples": 238336, "global_step/max_steps": "931/12700"}
{"lm loss": 2.2892611, "grad_norm": 0.52794909, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.90777206, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 30s", "remaining_time": "16h 6m 1s", "loss_scale": 1.0, "consumed_samples": 238592, "global_step/max_steps": "932/12700"}
{"lm loss": 2.30971479, "grad_norm": 0.58487141, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.85070848, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 35s", "remaining_time": "16h 5m 55s", "loss_scale": 1.0, "consumed_samples": 238848, "global_step/max_steps": "933/12700"}
{"lm loss": 2.25704288, "grad_norm": 0.54807472, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.83279681, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 40s", "remaining_time": "16h 5m 49s", "loss_scale": 1.0, "consumed_samples": 239104, "global_step/max_steps": "934/12700"}
{"lm loss": 2.2474308, "grad_norm": 0.583713, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.87040162, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 45s", "remaining_time": "16h 5m 44s", "loss_scale": 1.0, "consumed_samples": 239360, "global_step/max_steps": "935/12700"}
{"lm loss": 2.30052471, "grad_norm": 0.54926097, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.87806058, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 49s", "remaining_time": "16h 5m 38s", "loss_scale": 1.0, "consumed_samples": 239616, "global_step/max_steps": "936/12700"}
{"lm loss": 2.27301979, "grad_norm": 0.50953525, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.8949492, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 54s", "remaining_time": "16h 5m 33s", "loss_scale": 1.0, "consumed_samples": 239872, "global_step/max_steps": "937/12700"}
{"lm loss": 2.26729536, "grad_norm": 0.51371431, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.93108726, "memory(GiB)": 28.94, "elapsed_time": "1h 16m 59s", "remaining_time": "16h 5m 28s", "loss_scale": 1.0, "consumed_samples": 240128, "global_step/max_steps": "938/12700"}
{"lm loss": 2.2414062, "grad_norm": 0.53129953, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.89712691, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 4s", "remaining_time": "16h 5m 23s", "loss_scale": 1.0, "consumed_samples": 240384, "global_step/max_steps": "939/12700"}
{"lm loss": 2.25584173, "grad_norm": 0.48195451, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.91444087, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 9s", "remaining_time": "16h 5m 18s", "loss_scale": 1.0, "consumed_samples": 240640, "global_step/max_steps": "940/12700"}
{"lm loss": 2.25228214, "grad_norm": 0.55031049, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.81411242, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 14s", "remaining_time": "16h 5m 11s", "loss_scale": 1.0, "consumed_samples": 240896, "global_step/max_steps": "941/12700"}
{"lm loss": 2.23296762, "grad_norm": 0.51681793, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.87094569, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 19s", "remaining_time": "16h 5m 6s", "loss_scale": 1.0, "consumed_samples": 241152, "global_step/max_steps": "942/12700"}
{"lm loss": 2.26927614, "grad_norm": 0.49146938, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.88704014, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 24s", "remaining_time": "16h 5m 0s", "loss_scale": 1.0, "consumed_samples": 241408, "global_step/max_steps": "943/12700"}
{"lm loss": 2.26960921, "grad_norm": 0.51883525, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.86729217, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 28s", "remaining_time": "16h 4m 55s", "loss_scale": 1.0, "consumed_samples": 241664, "global_step/max_steps": "944/12700"}
{"lm loss": 2.26221967, "grad_norm": 0.55025721, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.75276542, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 33s", "remaining_time": "16h 4m 48s", "loss_scale": 1.0, "consumed_samples": 241920, "global_step/max_steps": "945/12700"}
{"lm loss": 2.29658031, "grad_norm": 0.49413773, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.8528142, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 38s", "remaining_time": "16h 4m 42s", "loss_scale": 1.0, "consumed_samples": 242176, "global_step/max_steps": "946/12700"}
{"lm loss": 2.24652791, "grad_norm": 0.50971699, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.81323552, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 43s", "remaining_time": "16h 4m 36s", "loss_scale": 1.0, "consumed_samples": 242432, "global_step/max_steps": "947/12700"}
{"lm loss": 2.28760767, "grad_norm": 0.54837835, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.84981704, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 48s", "remaining_time": "16h 4m 30s", "loss_scale": 1.0, "consumed_samples": 242688, "global_step/max_steps": "948/12700"}
{"lm loss": 2.26420927, "grad_norm": 0.56977785, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.75616503, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 52s", "remaining_time": "16h 4m 23s", "loss_scale": 1.0, "consumed_samples": 242944, "global_step/max_steps": "949/12700"}
{"lm loss": 2.27682948, "grad_norm": 0.54231495, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.83551288, "memory(GiB)": 28.94, "elapsed_time": "1h 17m 57s", "remaining_time": "16h 4m 17s", "loss_scale": 1.0, "consumed_samples": 243200, "global_step/max_steps": "950/12700"}
{"lm loss": 2.25149035, "grad_norm": 0.48582047, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.90117574, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 2s", "remaining_time": "16h 4m 12s", "loss_scale": 1.0, "consumed_samples": 243456, "global_step/max_steps": "951/12700"}
{"lm loss": 2.25832868, "grad_norm": 0.5222168, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.78498077, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 7s", "remaining_time": "16h 4m 5s", "loss_scale": 1.0, "consumed_samples": 243712, "global_step/max_steps": "952/12700"}
{"lm loss": 2.24245906, "grad_norm": 0.496149, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.86620831, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 12s", "remaining_time": "16h 3m 59s", "loss_scale": 1.0, "consumed_samples": 243968, "global_step/max_steps": "953/12700"}
{"lm loss": 2.23345089, "grad_norm": 0.51798004, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.84345961, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 17s", "remaining_time": "16h 3m 53s", "loss_scale": 1.0, "consumed_samples": 244224, "global_step/max_steps": "954/12700"}
{"lm loss": 2.26156592, "grad_norm": 0.53363472, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.79942727, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 22s", "remaining_time": "16h 3m 47s", "loss_scale": 1.0, "consumed_samples": 244480, "global_step/max_steps": "955/12700"}
{"lm loss": 2.2711606, "grad_norm": 0.61809176, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.92771697, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 26s", "remaining_time": "16h 3m 42s", "loss_scale": 1.0, "consumed_samples": 244736, "global_step/max_steps": "956/12700"}
{"lm loss": 2.28385663, "grad_norm": 0.60617995, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.99061322, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 31s", "remaining_time": "16h 3m 38s", "loss_scale": 1.0, "consumed_samples": 244992, "global_step/max_steps": "957/12700"}
{"lm loss": 2.27730846, "grad_norm": 0.67018223, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.82103157, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 36s", "remaining_time": "16h 3m 32s", "loss_scale": 1.0, "consumed_samples": 245248, "global_step/max_steps": "958/12700"}
{"lm loss": 2.24867082, "grad_norm": 0.55811048, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.84056139, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 41s", "remaining_time": "16h 3m 26s", "loss_scale": 1.0, "consumed_samples": 245504, "global_step/max_steps": "959/12700"}
{"lm loss": 2.22277427, "grad_norm": 0.5593074, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.96140265, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 46s", "remaining_time": "16h 3m 21s", "loss_scale": 1.0, "consumed_samples": 245760, "global_step/max_steps": "960/12700"}
{"lm loss": 2.266958, "grad_norm": 0.62311482, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.86830187, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 51s", "remaining_time": "16h 3m 16s", "loss_scale": 1.0, "consumed_samples": 246016, "global_step/max_steps": "961/12700"}
{"lm loss": 2.23236728, "grad_norm": 0.61526591, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.89277148, "memory(GiB)": 28.94, "elapsed_time": "1h 18m 56s", "remaining_time": "16h 3m 10s", "loss_scale": 1.0, "consumed_samples": 246272, "global_step/max_steps": "962/12700"}
{"lm loss": 2.28051496, "grad_norm": 0.57700253, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.88034153, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 1s", "remaining_time": "16h 3m 5s", "loss_scale": 1.0, "consumed_samples": 246528, "global_step/max_steps": "963/12700"}
{"lm loss": 2.24539518, "grad_norm": 0.52188593, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.8045156, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 5s", "remaining_time": "16h 2m 59s", "loss_scale": 1.0, "consumed_samples": 246784, "global_step/max_steps": "964/12700"}
{"lm loss": 2.29352069, "grad_norm": 0.61656499, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.98792958, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 10s", "remaining_time": "16h 2m 54s", "loss_scale": 1.0, "consumed_samples": 247040, "global_step/max_steps": "965/12700"}
{"lm loss": 2.27770829, "grad_norm": 0.63902563, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.98245573, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 15s", "remaining_time": "16h 2m 50s", "loss_scale": 1.0, "consumed_samples": 247296, "global_step/max_steps": "966/12700"}
{"lm loss": 2.28726983, "grad_norm": 0.5833658, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 5.03521657, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 21s", "remaining_time": "16h 2m 47s", "loss_scale": 1.0, "consumed_samples": 247552, "global_step/max_steps": "967/12700"}
{"lm loss": 2.24516511, "grad_norm": 0.5855363, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.81532335, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 25s", "remaining_time": "16h 2m 40s", "loss_scale": 1.0, "consumed_samples": 247808, "global_step/max_steps": "968/12700"}
{"lm loss": 2.26824498, "grad_norm": 0.59767354, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.85691023, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 30s", "remaining_time": "16h 2m 35s", "loss_scale": 1.0, "consumed_samples": 248064, "global_step/max_steps": "969/12700"}
{"lm loss": 2.27509475, "grad_norm": 0.67254311, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.92988253, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 35s", "remaining_time": "16h 2m 30s", "loss_scale": 1.0, "consumed_samples": 248320, "global_step/max_steps": "970/12700"}
{"lm loss": 2.27141571, "grad_norm": 0.64077348, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.95021629, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 40s", "remaining_time": "16h 2m 25s", "loss_scale": 1.0, "consumed_samples": 248576, "global_step/max_steps": "971/12700"}
{"lm loss": 2.25399804, "grad_norm": 0.57915533, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.81510615, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 45s", "remaining_time": "16h 2m 19s", "loss_scale": 1.0, "consumed_samples": 248832, "global_step/max_steps": "972/12700"}
{"lm loss": 2.2771666, "grad_norm": 0.49880919, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.84275913, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 50s", "remaining_time": "16h 2m 13s", "loss_scale": 1.0, "consumed_samples": 249088, "global_step/max_steps": "973/12700"}
{"lm loss": 2.24821115, "grad_norm": 0.5383811, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.92958236, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 55s", "remaining_time": "16h 2m 8s", "loss_scale": 1.0, "consumed_samples": 249344, "global_step/max_steps": "974/12700"}
{"lm loss": 2.24075031, "grad_norm": 0.56400651, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.83440757, "memory(GiB)": 28.94, "elapsed_time": "1h 19m 59s", "remaining_time": "16h 2m 2s", "loss_scale": 1.0, "consumed_samples": 249600, "global_step/max_steps": "975/12700"}
{"lm loss": 2.28118324, "grad_norm": 0.55433327, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.80643559, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 4s", "remaining_time": "16h 1m 56s", "loss_scale": 1.0, "consumed_samples": 249856, "global_step/max_steps": "976/12700"}
{"lm loss": 2.2556355, "grad_norm": 0.51754695, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.93619323, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 9s", "remaining_time": "16h 1m 51s", "loss_scale": 1.0, "consumed_samples": 250112, "global_step/max_steps": "977/12700"}
{"lm loss": 2.26418447, "grad_norm": 0.62804812, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.82163644, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 14s", "remaining_time": "16h 1m 45s", "loss_scale": 1.0, "consumed_samples": 250368, "global_step/max_steps": "978/12700"}
{"lm loss": 2.27817321, "grad_norm": 0.47559503, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.83662152, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 19s", "remaining_time": "16h 1m 39s", "loss_scale": 1.0, "consumed_samples": 250624, "global_step/max_steps": "979/12700"}
{"lm loss": 2.25445604, "grad_norm": 0.52916455, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.9543643, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 24s", "remaining_time": "16h 1m 35s", "loss_scale": 1.0, "consumed_samples": 250880, "global_step/max_steps": "980/12700"}
{"lm loss": 2.28051567, "grad_norm": 0.53056538, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 5.01613712, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 29s", "remaining_time": "16h 1m 31s", "loss_scale": 1.0, "consumed_samples": 251136, "global_step/max_steps": "981/12700"}
{"lm loss": 2.25800729, "grad_norm": 0.49312493, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.89578032, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 34s", "remaining_time": "16h 1m 26s", "loss_scale": 1.0, "consumed_samples": 251392, "global_step/max_steps": "982/12700"}
{"lm loss": 2.28466439, "grad_norm": 0.52042437, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.92686296, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 39s", "remaining_time": "16h 1m 21s", "loss_scale": 1.0, "consumed_samples": 251648, "global_step/max_steps": "983/12700"}
{"lm loss": 2.22307682, "grad_norm": 0.54629397, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.91011405, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 44s", "remaining_time": "16h 1m 16s", "loss_scale": 1.0, "consumed_samples": 251904, "global_step/max_steps": "984/12700"}
{"lm loss": 2.25624466, "grad_norm": 0.55958188, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.78669286, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 48s", "remaining_time": "16h 1m 9s", "loss_scale": 1.0, "consumed_samples": 252160, "global_step/max_steps": "985/12700"}
{"lm loss": 2.27057362, "grad_norm": 0.53328264, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.9122541, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 53s", "remaining_time": "16h 1m 4s", "loss_scale": 1.0, "consumed_samples": 252416, "global_step/max_steps": "986/12700"}
{"lm loss": 2.27649999, "grad_norm": 0.5251677, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.85546541, "memory(GiB)": 28.94, "elapsed_time": "1h 20m 58s", "remaining_time": "16h 0m 58s", "loss_scale": 1.0, "consumed_samples": 252672, "global_step/max_steps": "987/12700"}
{"lm loss": 2.2654345, "grad_norm": 0.50476068, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.86720681, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 3s", "remaining_time": "16h 0m 53s", "loss_scale": 1.0, "consumed_samples": 252928, "global_step/max_steps": "988/12700"}
{"lm loss": 2.26031685, "grad_norm": 0.53696305, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.88543177, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 8s", "remaining_time": "16h 0m 47s", "loss_scale": 1.0, "consumed_samples": 253184, "global_step/max_steps": "989/12700"}
{"lm loss": 2.26707983, "grad_norm": 0.5453757, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.87652087, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 13s", "remaining_time": "16h 0m 42s", "loss_scale": 1.0, "consumed_samples": 253440, "global_step/max_steps": "990/12700"}
{"lm loss": 2.2680769, "grad_norm": 0.49777961, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.88605618, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 18s", "remaining_time": "16h 0m 37s", "loss_scale": 1.0, "consumed_samples": 253696, "global_step/max_steps": "991/12700"}
{"lm loss": 2.2677896, "grad_norm": 0.52479672, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.8636651, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 23s", "remaining_time": "16h 0m 31s", "loss_scale": 1.0, "consumed_samples": 253952, "global_step/max_steps": "992/12700"}
{"lm loss": 2.22783208, "grad_norm": 0.60093737, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.91043735, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 27s", "remaining_time": "16h 0m 26s", "loss_scale": 1.0, "consumed_samples": 254208, "global_step/max_steps": "993/12700"}
{"lm loss": 2.24894905, "grad_norm": 0.51062781, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.73992896, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 32s", "remaining_time": "16h 0m 19s", "loss_scale": 1.0, "consumed_samples": 254464, "global_step/max_steps": "994/12700"}
{"lm loss": 2.27152872, "grad_norm": 0.49336895, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.88294053, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 37s", "remaining_time": "16h 0m 13s", "loss_scale": 1.0, "consumed_samples": 254720, "global_step/max_steps": "995/12700"}
{"lm loss": 2.26657033, "grad_norm": 0.52835387, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.93130898, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 42s", "remaining_time": "16h 0m 9s", "loss_scale": 1.0, "consumed_samples": 254976, "global_step/max_steps": "996/12700"}
{"lm loss": 2.25364923, "grad_norm": 0.53229851, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.88908339, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 47s", "remaining_time": "16h 0m 3s", "loss_scale": 1.0, "consumed_samples": 255232, "global_step/max_steps": "997/12700"}
{"lm loss": 2.27391291, "grad_norm": 0.47716799, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.84704018, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 52s", "remaining_time": "15h 59m 57s", "loss_scale": 1.0, "consumed_samples": 255488, "global_step/max_steps": "998/12700"}
{"lm loss": 2.26666212, "grad_norm": 0.58820969, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.94984412, "memory(GiB)": 28.94, "elapsed_time": "1h 21m 57s", "remaining_time": "15h 59m 53s", "loss_scale": 1.0, "consumed_samples": 255744, "global_step/max_steps": "999/12700"}
{"lm loss": 2.25958943, "grad_norm": 0.61531866, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.84576654, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 2s", "remaining_time": "15h 59m 47s", "loss_scale": 1.0, "consumed_samples": 256000, "global_step/max_steps": "1000/12700"}
{"lm loss": 2.24728298, "grad_norm": 0.63083714, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.93230128, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 6s", "remaining_time": "15h 59m 42s", "loss_scale": 1.0, "consumed_samples": 256256, "global_step/max_steps": "1001/12700"}
{"lm loss": 2.26550603, "grad_norm": 0.59629476, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.94358182, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 11s", "remaining_time": "15h 59m 38s", "loss_scale": 1.0, "consumed_samples": 256512, "global_step/max_steps": "1002/12700"}
{"lm loss": 2.25799084, "grad_norm": 0.59918493, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.86805677, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 16s", "remaining_time": "15h 59m 32s", "loss_scale": 1.0, "consumed_samples": 256768, "global_step/max_steps": "1003/12700"}
{"lm loss": 2.26484442, "grad_norm": 0.59686399, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.83177042, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 21s", "remaining_time": "15h 59m 26s", "loss_scale": 1.0, "consumed_samples": 257024, "global_step/max_steps": "1004/12700"}
{"lm loss": 2.2566545, "grad_norm": 0.58564872, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.93834186, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 26s", "remaining_time": "15h 59m 21s", "loss_scale": 1.0, "consumed_samples": 257280, "global_step/max_steps": "1005/12700"}
{"lm loss": 2.24830604, "grad_norm": 0.63915372, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 5.01126528, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 31s", "remaining_time": "15h 59m 17s", "loss_scale": 1.0, "consumed_samples": 257536, "global_step/max_steps": "1006/12700"}
{"lm loss": 2.2569561, "grad_norm": 0.64030069, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.80456209, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 36s", "remaining_time": "15h 59m 11s", "loss_scale": 1.0, "consumed_samples": 257792, "global_step/max_steps": "1007/12700"}
{"lm loss": 2.26301599, "grad_norm": 0.69105685, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.82996106, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 41s", "remaining_time": "15h 59m 5s", "loss_scale": 1.0, "consumed_samples": 258048, "global_step/max_steps": "1008/12700"}
{"lm loss": 2.27020431, "grad_norm": 0.65412265, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.78530979, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 45s", "remaining_time": "15h 58m 59s", "loss_scale": 1.0, "consumed_samples": 258304, "global_step/max_steps": "1009/12700"}
{"lm loss": 2.28366375, "grad_norm": 0.48478159, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.85678458, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 50s", "remaining_time": "15h 58m 53s", "loss_scale": 1.0, "consumed_samples": 258560, "global_step/max_steps": "1010/12700"}
{"lm loss": 2.26068473, "grad_norm": 0.63644481, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.89501786, "memory(GiB)": 28.94, "elapsed_time": "1h 22m 55s", "remaining_time": "15h 58m 48s", "loss_scale": 1.0, "consumed_samples": 258816, "global_step/max_steps": "1011/12700"}
{"lm loss": 2.26935506, "grad_norm": 0.60875016, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.90827489, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 0s", "remaining_time": "15h 58m 43s", "loss_scale": 1.0, "consumed_samples": 259072, "global_step/max_steps": "1012/12700"}
{"lm loss": 2.25057101, "grad_norm": 0.52090216, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.82671976, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 5s", "remaining_time": "15h 58m 37s", "loss_scale": 1.0, "consumed_samples": 259328, "global_step/max_steps": "1013/12700"}
{"lm loss": 2.25142264, "grad_norm": 0.53166956, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.76899266, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 10s", "remaining_time": "15h 58m 30s", "loss_scale": 1.0, "consumed_samples": 259584, "global_step/max_steps": "1014/12700"}
{"lm loss": 2.29125071, "grad_norm": 0.49951825, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.97423553, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 15s", "remaining_time": "15h 58m 26s", "loss_scale": 1.0, "consumed_samples": 259840, "global_step/max_steps": "1015/12700"}
{"lm loss": 2.20842957, "grad_norm": 0.51004195, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.78464127, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 19s", "remaining_time": "15h 58m 19s", "loss_scale": 1.0, "consumed_samples": 260096, "global_step/max_steps": "1016/12700"}
{"lm loss": 2.25451756, "grad_norm": 0.50982982, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.89455175, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 24s", "remaining_time": "15h 58m 14s", "loss_scale": 1.0, "consumed_samples": 260352, "global_step/max_steps": "1017/12700"}
{"lm loss": 2.25753021, "grad_norm": 0.49601698, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.86327767, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 29s", "remaining_time": "15h 58m 8s", "loss_scale": 1.0, "consumed_samples": 260608, "global_step/max_steps": "1018/12700"}
{"lm loss": 2.27637148, "grad_norm": 0.53206587, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.905931, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 34s", "remaining_time": "15h 58m 3s", "loss_scale": 1.0, "consumed_samples": 260864, "global_step/max_steps": "1019/12700"}
{"lm loss": 2.25461578, "grad_norm": 0.53731114, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.82681203, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 39s", "remaining_time": "15h 57m 57s", "loss_scale": 1.0, "consumed_samples": 261120, "global_step/max_steps": "1020/12700"}
{"lm loss": 2.28997302, "grad_norm": 0.53241628, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.83314657, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 44s", "remaining_time": "15h 57m 51s", "loss_scale": 1.0, "consumed_samples": 261376, "global_step/max_steps": "1021/12700"}
{"lm loss": 2.23090434, "grad_norm": 0.61818534, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 4.99582267, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 49s", "remaining_time": "15h 57m 47s", "loss_scale": 1.0, "consumed_samples": 261632, "global_step/max_steps": "1022/12700"}
{"lm loss": 2.24300742, "grad_norm": 0.57629597, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 4.88022757, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 54s", "remaining_time": "15h 57m 42s", "loss_scale": 1.0, "consumed_samples": 261888, "global_step/max_steps": "1023/12700"}
{"lm loss": 2.23335028, "grad_norm": 0.49654272, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 4.85044408, "memory(GiB)": 28.94, "elapsed_time": "1h 23m 59s", "remaining_time": "15h 57m 36s", "loss_scale": 1.0, "consumed_samples": 262144, "global_step/max_steps": "1024/12700"}
{"lm loss": 2.27978063, "grad_norm": 0.62389022, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 5.01421618, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 4s", "remaining_time": "15h 57m 32s", "loss_scale": 1.0, "consumed_samples": 262400, "global_step/max_steps": "1025/12700"}
{"lm loss": 2.22596717, "grad_norm": 0.59299314, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 4.82861996, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 8s", "remaining_time": "15h 57m 26s", "loss_scale": 1.0, "consumed_samples": 262656, "global_step/max_steps": "1026/12700"}
{"lm loss": 2.2601335, "grad_norm": 0.54799289, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 4.89942718, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 13s", "remaining_time": "15h 57m 21s", "loss_scale": 1.0, "consumed_samples": 262912, "global_step/max_steps": "1027/12700"}
{"lm loss": 2.27997231, "grad_norm": 0.51578557, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 4.90666032, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 18s", "remaining_time": "15h 57m 16s", "loss_scale": 1.0, "consumed_samples": 263168, "global_step/max_steps": "1028/12700"}
{"lm loss": 2.25406551, "grad_norm": 0.49998099, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 4.89789677, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 23s", "remaining_time": "15h 57m 11s", "loss_scale": 1.0, "consumed_samples": 263424, "global_step/max_steps": "1029/12700"}
{"lm loss": 2.23971534, "grad_norm": 0.49867535, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 4.88843989, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 28s", "remaining_time": "15h 57m 6s", "loss_scale": 1.0, "consumed_samples": 263680, "global_step/max_steps": "1030/12700"}
{"lm loss": 2.24723411, "grad_norm": 0.52505809, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 4.87432289, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 33s", "remaining_time": "15h 57m 0s", "loss_scale": 1.0, "consumed_samples": 263936, "global_step/max_steps": "1031/12700"}
{"lm loss": 2.28613377, "grad_norm": 0.586555, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 4.8396101, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 38s", "remaining_time": "15h 56m 54s", "loss_scale": 1.0, "consumed_samples": 264192, "global_step/max_steps": "1032/12700"}
{"lm loss": 2.28991365, "grad_norm": 0.57521135, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 4.88289618, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 43s", "remaining_time": "15h 56m 49s", "loss_scale": 1.0, "consumed_samples": 264448, "global_step/max_steps": "1033/12700"}
{"lm loss": 2.23886681, "grad_norm": 0.47169355, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 5.00573301, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 48s", "remaining_time": "15h 56m 45s", "loss_scale": 1.0, "consumed_samples": 264704, "global_step/max_steps": "1034/12700"}
{"lm loss": 2.25032973, "grad_norm": 0.53166425, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 4.95620131, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 53s", "remaining_time": "15h 56m 41s", "loss_scale": 1.0, "consumed_samples": 264960, "global_step/max_steps": "1035/12700"}
{"lm loss": 2.26913834, "grad_norm": 0.52636892, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 5.03971553, "memory(GiB)": 28.94, "elapsed_time": "1h 24m 58s", "remaining_time": "15h 56m 37s", "loss_scale": 1.0, "consumed_samples": 265216, "global_step/max_steps": "1036/12700"}
{"lm loss": 2.25862026, "grad_norm": 0.52362233, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 4.90976405, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 2s", "remaining_time": "15h 56m 32s", "loss_scale": 1.0, "consumed_samples": 265472, "global_step/max_steps": "1037/12700"}
{"lm loss": 2.23469591, "grad_norm": 0.54090458, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 4.79393005, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 7s", "remaining_time": "15h 56m 26s", "loss_scale": 1.0, "consumed_samples": 265728, "global_step/max_steps": "1038/12700"}
{"lm loss": 2.25115061, "grad_norm": 0.50463539, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 4.92211699, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 12s", "remaining_time": "15h 56m 21s", "loss_scale": 1.0, "consumed_samples": 265984, "global_step/max_steps": "1039/12700"}
{"lm loss": 2.24600554, "grad_norm": 0.56392634, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 4.84293842, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 17s", "remaining_time": "15h 56m 15s", "loss_scale": 1.0, "consumed_samples": 266240, "global_step/max_steps": "1040/12700"}
{"lm loss": 2.27509046, "grad_norm": 0.51494229, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 4.80329776, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 22s", "remaining_time": "15h 56m 9s", "loss_scale": 1.0, "consumed_samples": 266496, "global_step/max_steps": "1041/12700"}
{"lm loss": 2.27437663, "grad_norm": 0.49527836, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 4.78607512, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 27s", "remaining_time": "15h 56m 2s", "loss_scale": 1.0, "consumed_samples": 266752, "global_step/max_steps": "1042/12700"}
{"lm loss": 2.23797703, "grad_norm": 0.54154807, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 4.85541034, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 31s", "remaining_time": "15h 55m 57s", "loss_scale": 1.0, "consumed_samples": 267008, "global_step/max_steps": "1043/12700"}
{"lm loss": 2.24068618, "grad_norm": 0.53302401, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 4.94147778, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 36s", "remaining_time": "15h 55m 52s", "loss_scale": 1.0, "consumed_samples": 267264, "global_step/max_steps": "1044/12700"}
{"lm loss": 2.24479628, "grad_norm": 0.53517365, "learning_rate": 9.972e-05, "elapsed_time_per_iteration": 4.83298993, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 41s", "remaining_time": "15h 55m 46s", "loss_scale": 1.0, "consumed_samples": 267520, "global_step/max_steps": "1045/12700"}
{"lm loss": 2.25860047, "grad_norm": 0.54605013, "learning_rate": 9.972e-05, "elapsed_time_per_iteration": 4.90560579, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 46s", "remaining_time": "15h 55m 41s", "loss_scale": 1.0, "consumed_samples": 267776, "global_step/max_steps": "1046/12700"}
{"lm loss": 2.28644705, "grad_norm": 0.61774862, "learning_rate": 9.972e-05, "elapsed_time_per_iteration": 4.89848399, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 51s", "remaining_time": "15h 55m 36s", "loss_scale": 1.0, "consumed_samples": 268032, "global_step/max_steps": "1047/12700"}
{"lm loss": 2.26042819, "grad_norm": 0.65217966, "learning_rate": 9.972e-05, "elapsed_time_per_iteration": 4.88844204, "memory(GiB)": 28.94, "elapsed_time": "1h 25m 56s", "remaining_time": "15h 55m 30s", "loss_scale": 1.0, "consumed_samples": 268288, "global_step/max_steps": "1048/12700"}
{"lm loss": 2.27974296, "grad_norm": 0.76541281, "learning_rate": 9.972e-05, "elapsed_time_per_iteration": 4.91451049, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 1s", "remaining_time": "15h 55m 25s", "loss_scale": 1.0, "consumed_samples": 268544, "global_step/max_steps": "1049/12700"}
{"lm loss": 2.24712658, "grad_norm": 0.76218116, "learning_rate": 9.972e-05, "elapsed_time_per_iteration": 4.78643489, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 6s", "remaining_time": "15h 55m 19s", "loss_scale": 1.0, "consumed_samples": 268800, "global_step/max_steps": "1050/12700"}
{"lm loss": 2.27168489, "grad_norm": 0.56221586, "learning_rate": 9.972e-05, "elapsed_time_per_iteration": 4.90767956, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 11s", "remaining_time": "15h 55m 14s", "loss_scale": 1.0, "consumed_samples": 269056, "global_step/max_steps": "1051/12700"}
{"lm loss": 2.22289801, "grad_norm": 0.57574403, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 4.86087823, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 15s", "remaining_time": "15h 55m 8s", "loss_scale": 1.0, "consumed_samples": 269312, "global_step/max_steps": "1052/12700"}
{"lm loss": 2.24586535, "grad_norm": 0.63315105, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 4.80509067, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 20s", "remaining_time": "15h 55m 2s", "loss_scale": 1.0, "consumed_samples": 269568, "global_step/max_steps": "1053/12700"}
{"lm loss": 2.25304031, "grad_norm": 0.72175854, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 4.79727721, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 25s", "remaining_time": "15h 54m 56s", "loss_scale": 1.0, "consumed_samples": 269824, "global_step/max_steps": "1054/12700"}
{"lm loss": 2.32369471, "grad_norm": 0.56586677, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 4.82044077, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 30s", "remaining_time": "15h 54m 50s", "loss_scale": 1.0, "consumed_samples": 270080, "global_step/max_steps": "1055/12700"}
{"lm loss": 2.27501178, "grad_norm": 0.55759108, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 4.88433957, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 35s", "remaining_time": "15h 54m 45s", "loss_scale": 1.0, "consumed_samples": 270336, "global_step/max_steps": "1056/12700"}
{"lm loss": 2.23837209, "grad_norm": 0.5895173, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 4.96962881, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 40s", "remaining_time": "15h 54m 40s", "loss_scale": 1.0, "consumed_samples": 270592, "global_step/max_steps": "1057/12700"}
{"lm loss": 2.26852131, "grad_norm": 0.60423112, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 4.9030931, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 45s", "remaining_time": "15h 54m 35s", "loss_scale": 1.0, "consumed_samples": 270848, "global_step/max_steps": "1058/12700"}
{"lm loss": 2.2631073, "grad_norm": 0.50789374, "learning_rate": 9.97e-05, "elapsed_time_per_iteration": 4.90174603, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 49s", "remaining_time": "15h 54m 30s", "loss_scale": 1.0, "consumed_samples": 271104, "global_step/max_steps": "1059/12700"}
{"lm loss": 2.24658799, "grad_norm": 0.58832991, "learning_rate": 9.97e-05, "elapsed_time_per_iteration": 4.89455795, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 54s", "remaining_time": "15h 54m 25s", "loss_scale": 1.0, "consumed_samples": 271360, "global_step/max_steps": "1060/12700"}
{"lm loss": 2.24447417, "grad_norm": 0.60225737, "learning_rate": 9.97e-05, "elapsed_time_per_iteration": 4.75611949, "memory(GiB)": 28.94, "elapsed_time": "1h 26m 59s", "remaining_time": "15h 54m 18s", "loss_scale": 1.0, "consumed_samples": 271616, "global_step/max_steps": "1061/12700"}
{"lm loss": 2.24663997, "grad_norm": 0.62801319, "learning_rate": 9.97e-05, "elapsed_time_per_iteration": 4.91428685, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 4s", "remaining_time": "15h 54m 13s", "loss_scale": 1.0, "consumed_samples": 271872, "global_step/max_steps": "1062/12700"}
{"lm loss": 2.24188232, "grad_norm": 0.51245695, "learning_rate": 9.97e-05, "elapsed_time_per_iteration": 4.91026044, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 9s", "remaining_time": "15h 54m 8s", "loss_scale": 1.0, "consumed_samples": 272128, "global_step/max_steps": "1063/12700"}
{"lm loss": 2.23366261, "grad_norm": 0.5204227, "learning_rate": 9.97e-05, "elapsed_time_per_iteration": 4.87844181, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 14s", "remaining_time": "15h 54m 3s", "loss_scale": 1.0, "consumed_samples": 272384, "global_step/max_steps": "1064/12700"}
{"lm loss": 2.22637057, "grad_norm": 0.55481821, "learning_rate": 9.97e-05, "elapsed_time_per_iteration": 4.93152881, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 19s", "remaining_time": "15h 53m 58s", "loss_scale": 1.0, "consumed_samples": 272640, "global_step/max_steps": "1065/12700"}
{"lm loss": 2.24057794, "grad_norm": 0.55126864, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 4.88072395, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 24s", "remaining_time": "15h 53m 53s", "loss_scale": 1.0, "consumed_samples": 272896, "global_step/max_steps": "1066/12700"}
{"lm loss": 2.25955057, "grad_norm": 0.47096273, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 4.89864612, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 29s", "remaining_time": "15h 53m 47s", "loss_scale": 1.0, "consumed_samples": 273152, "global_step/max_steps": "1067/12700"}
{"lm loss": 2.26069617, "grad_norm": 0.52140355, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 5.06443453, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 34s", "remaining_time": "15h 53m 44s", "loss_scale": 1.0, "consumed_samples": 273408, "global_step/max_steps": "1068/12700"}
{"lm loss": 2.26608753, "grad_norm": 0.51847702, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 4.82093287, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 38s", "remaining_time": "15h 53m 38s", "loss_scale": 1.0, "consumed_samples": 273664, "global_step/max_steps": "1069/12700"}
{"lm loss": 2.24327636, "grad_norm": 0.56004077, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 5.05633688, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 43s", "remaining_time": "15h 53m 35s", "loss_scale": 1.0, "consumed_samples": 273920, "global_step/max_steps": "1070/12700"}
{"lm loss": 2.2630105, "grad_norm": 0.5733856, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 4.85623264, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 48s", "remaining_time": "15h 53m 29s", "loss_scale": 1.0, "consumed_samples": 274176, "global_step/max_steps": "1071/12700"}
{"lm loss": 2.26979232, "grad_norm": 0.45913586, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 4.81963539, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 53s", "remaining_time": "15h 53m 23s", "loss_scale": 1.0, "consumed_samples": 274432, "global_step/max_steps": "1072/12700"}
{"lm loss": 2.23524618, "grad_norm": 0.53707284, "learning_rate": 9.968e-05, "elapsed_time_per_iteration": 4.7965312, "memory(GiB)": 28.94, "elapsed_time": "1h 27m 58s", "remaining_time": "15h 53m 17s", "loss_scale": 1.0, "consumed_samples": 274688, "global_step/max_steps": "1073/12700"}
{"lm loss": 2.24869323, "grad_norm": 0.54549366, "learning_rate": 9.968e-05, "elapsed_time_per_iteration": 4.84852171, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 3s", "remaining_time": "15h 53m 11s", "loss_scale": 1.0, "consumed_samples": 274944, "global_step/max_steps": "1074/12700"}
{"lm loss": 2.24963117, "grad_norm": 0.53723973, "learning_rate": 9.968e-05, "elapsed_time_per_iteration": 4.85048223, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 8s", "remaining_time": "15h 53m 5s", "loss_scale": 1.0, "consumed_samples": 275200, "global_step/max_steps": "1075/12700"}
{"lm loss": 2.23858261, "grad_norm": 0.45354018, "learning_rate": 9.968e-05, "elapsed_time_per_iteration": 4.84803724, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 13s", "remaining_time": "15h 53m 0s", "loss_scale": 1.0, "consumed_samples": 275456, "global_step/max_steps": "1076/12700"}
{"lm loss": 2.22530055, "grad_norm": 0.49942914, "learning_rate": 9.968e-05, "elapsed_time_per_iteration": 4.86667895, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 17s", "remaining_time": "15h 52m 54s", "loss_scale": 1.0, "consumed_samples": 275712, "global_step/max_steps": "1077/12700"}
{"lm loss": 2.24025798, "grad_norm": 0.51380497, "learning_rate": 9.968e-05, "elapsed_time_per_iteration": 4.83717489, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 22s", "remaining_time": "15h 52m 49s", "loss_scale": 1.0, "consumed_samples": 275968, "global_step/max_steps": "1078/12700"}
{"lm loss": 2.25248551, "grad_norm": 0.51006263, "learning_rate": 9.968e-05, "elapsed_time_per_iteration": 5.05791211, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 27s", "remaining_time": "15h 52m 45s", "loss_scale": 1.0, "consumed_samples": 276224, "global_step/max_steps": "1079/12700"}
{"lm loss": 2.26916909, "grad_norm": 0.50042146, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.81925964, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 32s", "remaining_time": "15h 52m 39s", "loss_scale": 1.0, "consumed_samples": 276480, "global_step/max_steps": "1080/12700"}
{"lm loss": 2.28678155, "grad_norm": 0.44431463, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.88584828, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 37s", "remaining_time": "15h 52m 34s", "loss_scale": 1.0, "consumed_samples": 276736, "global_step/max_steps": "1081/12700"}
{"lm loss": 2.23725009, "grad_norm": 0.55291414, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.82616186, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 42s", "remaining_time": "15h 52m 28s", "loss_scale": 1.0, "consumed_samples": 276992, "global_step/max_steps": "1082/12700"}
{"lm loss": 2.23118305, "grad_norm": 0.55470693, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.93318415, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 47s", "remaining_time": "15h 52m 23s", "loss_scale": 1.0, "consumed_samples": 277248, "global_step/max_steps": "1083/12700"}
{"lm loss": 2.27972794, "grad_norm": 0.57752591, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.85280728, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 52s", "remaining_time": "15h 52m 18s", "loss_scale": 1.0, "consumed_samples": 277504, "global_step/max_steps": "1084/12700"}
{"lm loss": 2.23350883, "grad_norm": 0.5382995, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.75169253, "memory(GiB)": 28.94, "elapsed_time": "1h 28m 56s", "remaining_time": "15h 52m 11s", "loss_scale": 1.0, "consumed_samples": 277760, "global_step/max_steps": "1085/12700"}
{"lm loss": 2.24742103, "grad_norm": 0.56154209, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.82861638, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 1s", "remaining_time": "15h 52m 5s", "loss_scale": 1.0, "consumed_samples": 278016, "global_step/max_steps": "1086/12700"}
{"lm loss": 2.23424673, "grad_norm": 0.58169782, "learning_rate": 9.966e-05, "elapsed_time_per_iteration": 4.84938455, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 6s", "remaining_time": "15h 51m 59s", "loss_scale": 1.0, "consumed_samples": 278272, "global_step/max_steps": "1087/12700"}
{"lm loss": 2.23607588, "grad_norm": 0.53511775, "learning_rate": 9.966e-05, "elapsed_time_per_iteration": 4.90323806, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 11s", "remaining_time": "15h 51m 54s", "loss_scale": 1.0, "consumed_samples": 278528, "global_step/max_steps": "1088/12700"}
{"lm loss": 2.29697967, "grad_norm": 0.58651596, "learning_rate": 9.966e-05, "elapsed_time_per_iteration": 4.89520407, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 16s", "remaining_time": "15h 51m 49s", "loss_scale": 1.0, "consumed_samples": 278784, "global_step/max_steps": "1089/12700"}
{"lm loss": 2.24191165, "grad_norm": 0.53078467, "learning_rate": 9.966e-05, "elapsed_time_per_iteration": 4.95613575, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 21s", "remaining_time": "15h 51m 44s", "loss_scale": 1.0, "consumed_samples": 279040, "global_step/max_steps": "1090/12700"}
{"lm loss": 2.23059034, "grad_norm": 0.48175278, "learning_rate": 9.966e-05, "elapsed_time_per_iteration": 4.92421579, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 26s", "remaining_time": "15h 51m 40s", "loss_scale": 1.0, "consumed_samples": 279296, "global_step/max_steps": "1091/12700"}
{"lm loss": 2.22251868, "grad_norm": 0.54638648, "learning_rate": 9.966e-05, "elapsed_time_per_iteration": 4.96473169, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 31s", "remaining_time": "15h 51m 35s", "loss_scale": 1.0, "consumed_samples": 279552, "global_step/max_steps": "1092/12700"}
{"lm loss": 2.26454329, "grad_norm": 0.58931845, "learning_rate": 9.966e-05, "elapsed_time_per_iteration": 4.97127438, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 36s", "remaining_time": "15h 51m 31s", "loss_scale": 1.0, "consumed_samples": 279808, "global_step/max_steps": "1093/12700"}
{"lm loss": 2.21956658, "grad_norm": 0.51071429, "learning_rate": 9.965e-05, "elapsed_time_per_iteration": 4.87095404, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 41s", "remaining_time": "15h 51m 25s", "loss_scale": 1.0, "consumed_samples": 280064, "global_step/max_steps": "1094/12700"}
{"lm loss": 2.23951197, "grad_norm": 0.52395475, "learning_rate": 9.965e-05, "elapsed_time_per_iteration": 4.84850883, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 45s", "remaining_time": "15h 51m 20s", "loss_scale": 1.0, "consumed_samples": 280320, "global_step/max_steps": "1095/12700"}
{"lm loss": 2.24032521, "grad_norm": 0.47010776, "learning_rate": 9.965e-05, "elapsed_time_per_iteration": 4.84881902, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 50s", "remaining_time": "15h 51m 14s", "loss_scale": 1.0, "consumed_samples": 280576, "global_step/max_steps": "1096/12700"}
{"lm loss": 2.25247765, "grad_norm": 0.49440056, "learning_rate": 9.965e-05, "elapsed_time_per_iteration": 4.93040824, "memory(GiB)": 28.94, "elapsed_time": "1h 29m 55s", "remaining_time": "15h 51m 9s", "loss_scale": 1.0, "consumed_samples": 280832, "global_step/max_steps": "1097/12700"}
{"lm loss": 2.25482464, "grad_norm": 0.52825052, "learning_rate": 9.965e-05, "elapsed_time_per_iteration": 4.83424425, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 0s", "remaining_time": "15h 51m 3s", "loss_scale": 1.0, "consumed_samples": 281088, "global_step/max_steps": "1098/12700"}
{"lm loss": 2.2397368, "grad_norm": 0.54122525, "learning_rate": 9.965e-05, "elapsed_time_per_iteration": 4.89860201, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 5s", "remaining_time": "15h 50m 58s", "loss_scale": 1.0, "consumed_samples": 281344, "global_step/max_steps": "1099/12700"}
{"lm loss": 2.24249482, "grad_norm": 0.50743461, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.83051467, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 10s", "remaining_time": "15h 50m 53s", "loss_scale": 1.0, "consumed_samples": 281600, "global_step/max_steps": "1100/12700"}
{"lm loss": 2.22764349, "grad_norm": 0.50572246, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.86936402, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 15s", "remaining_time": "15h 50m 47s", "loss_scale": 1.0, "consumed_samples": 281856, "global_step/max_steps": "1101/12700"}
{"lm loss": 2.23766303, "grad_norm": 0.52672911, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.86852098, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 19s", "remaining_time": "15h 50m 42s", "loss_scale": 1.0, "consumed_samples": 282112, "global_step/max_steps": "1102/12700"}
{"lm loss": 2.27039099, "grad_norm": 0.52876973, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.94251156, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 24s", "remaining_time": "15h 50m 37s", "loss_scale": 1.0, "consumed_samples": 282368, "global_step/max_steps": "1103/12700"}
{"lm loss": 2.27021122, "grad_norm": 0.52702904, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.86050415, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 29s", "remaining_time": "15h 50m 31s", "loss_scale": 1.0, "consumed_samples": 282624, "global_step/max_steps": "1104/12700"}
{"lm loss": 2.26464963, "grad_norm": 0.50255388, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.7674408, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 34s", "remaining_time": "15h 50m 25s", "loss_scale": 1.0, "consumed_samples": 282880, "global_step/max_steps": "1105/12700"}
{"lm loss": 2.27763677, "grad_norm": 0.48393196, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.92850447, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 39s", "remaining_time": "15h 50m 20s", "loss_scale": 1.0, "consumed_samples": 283136, "global_step/max_steps": "1106/12700"}
{"lm loss": 2.25643325, "grad_norm": 0.50157923, "learning_rate": 9.963e-05, "elapsed_time_per_iteration": 4.92408299, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 44s", "remaining_time": "15h 50m 15s", "loss_scale": 1.0, "consumed_samples": 283392, "global_step/max_steps": "1107/12700"}
{"lm loss": 2.21083808, "grad_norm": 0.54207724, "learning_rate": 9.963e-05, "elapsed_time_per_iteration": 4.83880329, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 49s", "remaining_time": "15h 50m 10s", "loss_scale": 1.0, "consumed_samples": 283648, "global_step/max_steps": "1108/12700"}
{"lm loss": 2.24039364, "grad_norm": 0.53080285, "learning_rate": 9.963e-05, "elapsed_time_per_iteration": 4.89289045, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 54s", "remaining_time": "15h 50m 4s", "loss_scale": 1.0, "consumed_samples": 283904, "global_step/max_steps": "1109/12700"}
{"lm loss": 2.23815656, "grad_norm": 0.57043755, "learning_rate": 9.963e-05, "elapsed_time_per_iteration": 4.83627963, "memory(GiB)": 28.94, "elapsed_time": "1h 30m 58s", "remaining_time": "15h 49m 59s", "loss_scale": 1.0, "consumed_samples": 284160, "global_step/max_steps": "1110/12700"}
{"lm loss": 2.24989772, "grad_norm": 0.52159715, "learning_rate": 9.963e-05, "elapsed_time_per_iteration": 4.84953809, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 3s", "remaining_time": "15h 49m 53s", "loss_scale": 1.0, "consumed_samples": 284416, "global_step/max_steps": "1111/12700"}
{"lm loss": 2.23310614, "grad_norm": 0.53210759, "learning_rate": 9.963e-05, "elapsed_time_per_iteration": 4.92249465, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 8s", "remaining_time": "15h 49m 48s", "loss_scale": 1.0, "consumed_samples": 284672, "global_step/max_steps": "1112/12700"}
{"lm loss": 2.2400713, "grad_norm": 0.5938496, "learning_rate": 9.962e-05, "elapsed_time_per_iteration": 4.85774732, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 13s", "remaining_time": "15h 49m 43s", "loss_scale": 1.0, "consumed_samples": 284928, "global_step/max_steps": "1113/12700"}
{"lm loss": 2.22309661, "grad_norm": 0.57381445, "learning_rate": 9.962e-05, "elapsed_time_per_iteration": 4.7988441, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 18s", "remaining_time": "15h 49m 36s", "loss_scale": 1.0, "consumed_samples": 285184, "global_step/max_steps": "1114/12700"}
{"lm loss": 2.27947879, "grad_norm": 0.54663497, "learning_rate": 9.962e-05, "elapsed_time_per_iteration": 4.8850193, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 23s", "remaining_time": "15h 49m 31s", "loss_scale": 1.0, "consumed_samples": 285440, "global_step/max_steps": "1115/12700"}
{"lm loss": 2.20989084, "grad_norm": 0.55218393, "learning_rate": 9.962e-05, "elapsed_time_per_iteration": 4.87701774, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 28s", "remaining_time": "15h 49m 26s", "loss_scale": 1.0, "consumed_samples": 285696, "global_step/max_steps": "1116/12700"}
{"lm loss": 2.23006654, "grad_norm": 0.56498134, "learning_rate": 9.962e-05, "elapsed_time_per_iteration": 4.86396766, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 32s", "remaining_time": "15h 49m 20s", "loss_scale": 1.0, "consumed_samples": 285952, "global_step/max_steps": "1117/12700"}
{"lm loss": 2.21736693, "grad_norm": 0.49885303, "learning_rate": 9.962e-05, "elapsed_time_per_iteration": 4.8123014, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 37s", "remaining_time": "15h 49m 14s", "loss_scale": 1.0, "consumed_samples": 286208, "global_step/max_steps": "1118/12700"}
{"lm loss": 2.27071142, "grad_norm": 0.50425589, "learning_rate": 9.962e-05, "elapsed_time_per_iteration": 4.95009756, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 42s", "remaining_time": "15h 49m 10s", "loss_scale": 1.0, "consumed_samples": 286464, "global_step/max_steps": "1119/12700"}
{"lm loss": 2.25053835, "grad_norm": 0.4915162, "learning_rate": 9.961e-05, "elapsed_time_per_iteration": 4.85133982, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 47s", "remaining_time": "15h 49m 4s", "loss_scale": 1.0, "consumed_samples": 286720, "global_step/max_steps": "1120/12700"}
{"lm loss": 2.23754263, "grad_norm": 0.4645232, "learning_rate": 9.961e-05, "elapsed_time_per_iteration": 4.95524597, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 52s", "remaining_time": "15h 49m 0s", "loss_scale": 1.0, "consumed_samples": 286976, "global_step/max_steps": "1121/12700"}
{"lm loss": 2.25971675, "grad_norm": 0.63163912, "learning_rate": 9.961e-05, "elapsed_time_per_iteration": 4.89849782, "memory(GiB)": 28.94, "elapsed_time": "1h 31m 57s", "remaining_time": "15h 48m 54s", "loss_scale": 1.0, "consumed_samples": 287232, "global_step/max_steps": "1122/12700"}
{"lm loss": 2.25797915, "grad_norm": 0.50683689, "learning_rate": 9.961e-05, "elapsed_time_per_iteration": 4.8834362, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 2s", "remaining_time": "15h 48m 49s", "loss_scale": 1.0, "consumed_samples": 287488, "global_step/max_steps": "1123/12700"}
{"lm loss": 2.26513076, "grad_norm": 0.50738114, "learning_rate": 9.961e-05, "elapsed_time_per_iteration": 4.85994434, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 7s", "remaining_time": "15h 48m 44s", "loss_scale": 1.0, "consumed_samples": 287744, "global_step/max_steps": "1124/12700"}
{"lm loss": 2.2414608, "grad_norm": 0.5122034, "learning_rate": 9.961e-05, "elapsed_time_per_iteration": 4.78584933, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 11s", "remaining_time": "15h 48m 37s", "loss_scale": 1.0, "consumed_samples": 288000, "global_step/max_steps": "1125/12700"}
{"lm loss": 2.2269783, "grad_norm": 0.51231331, "learning_rate": 9.96e-05, "elapsed_time_per_iteration": 4.78501964, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 16s", "remaining_time": "15h 48m 31s", "loss_scale": 1.0, "consumed_samples": 288256, "global_step/max_steps": "1126/12700"}
{"lm loss": 2.24649692, "grad_norm": 0.59373999, "learning_rate": 9.96e-05, "elapsed_time_per_iteration": 4.90279722, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 21s", "remaining_time": "15h 48m 26s", "loss_scale": 1.0, "consumed_samples": 288512, "global_step/max_steps": "1127/12700"}
{"lm loss": 2.24492741, "grad_norm": 0.6124022, "learning_rate": 9.96e-05, "elapsed_time_per_iteration": 4.82524228, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 26s", "remaining_time": "15h 48m 20s", "loss_scale": 1.0, "consumed_samples": 288768, "global_step/max_steps": "1128/12700"}
{"lm loss": 2.24224281, "grad_norm": 0.52434528, "learning_rate": 9.96e-05, "elapsed_time_per_iteration": 4.85819817, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 31s", "remaining_time": "15h 48m 15s", "loss_scale": 1.0, "consumed_samples": 289024, "global_step/max_steps": "1129/12700"}
{"lm loss": 2.22001171, "grad_norm": 0.49206957, "learning_rate": 9.96e-05, "elapsed_time_per_iteration": 4.88737679, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 36s", "remaining_time": "15h 48m 9s", "loss_scale": 1.0, "consumed_samples": 289280, "global_step/max_steps": "1130/12700"}
{"lm loss": 2.24709821, "grad_norm": 0.57507771, "learning_rate": 9.96e-05, "elapsed_time_per_iteration": 4.91852951, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 41s", "remaining_time": "15h 48m 5s", "loss_scale": 1.0, "consumed_samples": 289536, "global_step/max_steps": "1131/12700"}
{"lm loss": 2.248667, "grad_norm": 0.55790389, "learning_rate": 9.959e-05, "elapsed_time_per_iteration": 4.91337657, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 46s", "remaining_time": "15h 48m 0s", "loss_scale": 1.0, "consumed_samples": 289792, "global_step/max_steps": "1132/12700"}
{"lm loss": 2.22225285, "grad_norm": 0.59076357, "learning_rate": 9.959e-05, "elapsed_time_per_iteration": 4.81834531, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 50s", "remaining_time": "15h 47m 54s", "loss_scale": 1.0, "consumed_samples": 290048, "global_step/max_steps": "1133/12700"}
{"lm loss": 2.23131895, "grad_norm": 0.58279854, "learning_rate": 9.959e-05, "elapsed_time_per_iteration": 4.84747124, "memory(GiB)": 28.94, "elapsed_time": "1h 32m 55s", "remaining_time": "15h 47m 48s", "loss_scale": 1.0, "consumed_samples": 290304, "global_step/max_steps": "1134/12700"}
{"lm loss": 2.23921371, "grad_norm": 0.54868549, "learning_rate": 9.959e-05, "elapsed_time_per_iteration": 4.93713927, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 0s", "remaining_time": "15h 47m 43s", "loss_scale": 1.0, "consumed_samples": 290560, "global_step/max_steps": "1135/12700"}
{"lm loss": 2.24159527, "grad_norm": 0.52553016, "learning_rate": 9.959e-05, "elapsed_time_per_iteration": 4.95842004, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 5s", "remaining_time": "15h 47m 39s", "loss_scale": 1.0, "consumed_samples": 290816, "global_step/max_steps": "1136/12700"}
{"lm loss": 2.24018431, "grad_norm": 0.51804173, "learning_rate": 9.959e-05, "elapsed_time_per_iteration": 4.98012614, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 10s", "remaining_time": "15h 47m 35s", "loss_scale": 1.0, "consumed_samples": 291072, "global_step/max_steps": "1137/12700"}
{"lm loss": 2.24333644, "grad_norm": 0.56242388, "learning_rate": 9.958e-05, "elapsed_time_per_iteration": 4.94074798, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 15s", "remaining_time": "15h 47m 30s", "loss_scale": 1.0, "consumed_samples": 291328, "global_step/max_steps": "1138/12700"}
{"lm loss": 2.22850394, "grad_norm": 0.57136875, "learning_rate": 9.958e-05, "elapsed_time_per_iteration": 4.87166142, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 20s", "remaining_time": "15h 47m 25s", "loss_scale": 1.0, "consumed_samples": 291584, "global_step/max_steps": "1139/12700"}
{"lm loss": 2.23336315, "grad_norm": 0.52281845, "learning_rate": 9.958e-05, "elapsed_time_per_iteration": 4.82779837, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 25s", "remaining_time": "15h 47m 19s", "loss_scale": 1.0, "consumed_samples": 291840, "global_step/max_steps": "1140/12700"}
{"lm loss": 2.23888564, "grad_norm": 0.52010965, "learning_rate": 9.958e-05, "elapsed_time_per_iteration": 4.92702723, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 30s", "remaining_time": "15h 47m 14s", "loss_scale": 1.0, "consumed_samples": 292096, "global_step/max_steps": "1141/12700"}
{"lm loss": 2.22951603, "grad_norm": 0.51948088, "learning_rate": 9.958e-05, "elapsed_time_per_iteration": 4.98975706, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 35s", "remaining_time": "15h 47m 10s", "loss_scale": 1.0, "consumed_samples": 292352, "global_step/max_steps": "1142/12700"}
{"lm loss": 2.24682617, "grad_norm": 0.52276456, "learning_rate": 9.958e-05, "elapsed_time_per_iteration": 4.93993545, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 40s", "remaining_time": "15h 47m 5s", "loss_scale": 1.0, "consumed_samples": 292608, "global_step/max_steps": "1143/12700"}
{"lm loss": 2.26431322, "grad_norm": 0.51604867, "learning_rate": 9.957e-05, "elapsed_time_per_iteration": 4.91599917, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 45s", "remaining_time": "15h 47m 0s", "loss_scale": 1.0, "consumed_samples": 292864, "global_step/max_steps": "1144/12700"}
{"lm loss": 2.24676251, "grad_norm": 0.5434289, "learning_rate": 9.957e-05, "elapsed_time_per_iteration": 4.82126927, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 49s", "remaining_time": "15h 46m 54s", "loss_scale": 1.0, "consumed_samples": 293120, "global_step/max_steps": "1145/12700"}
{"lm loss": 2.25047803, "grad_norm": 0.54495537, "learning_rate": 9.957e-05, "elapsed_time_per_iteration": 4.8998189, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 54s", "remaining_time": "15h 46m 49s", "loss_scale": 1.0, "consumed_samples": 293376, "global_step/max_steps": "1146/12700"}
{"lm loss": 2.24903512, "grad_norm": 0.55424869, "learning_rate": 9.957e-05, "elapsed_time_per_iteration": 4.83162332, "memory(GiB)": 28.94, "elapsed_time": "1h 33m 59s", "remaining_time": "15h 46m 43s", "loss_scale": 1.0, "consumed_samples": 293632, "global_step/max_steps": "1147/12700"}
{"lm loss": 2.24256086, "grad_norm": 0.52832156, "learning_rate": 9.957e-05, "elapsed_time_per_iteration": 4.82032919, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 4s", "remaining_time": "15h 46m 37s", "loss_scale": 1.0, "consumed_samples": 293888, "global_step/max_steps": "1148/12700"}
{"lm loss": 2.23564601, "grad_norm": 0.52312249, "learning_rate": 9.957e-05, "elapsed_time_per_iteration": 4.89300323, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 9s", "remaining_time": "15h 46m 32s", "loss_scale": 1.0, "consumed_samples": 294144, "global_step/max_steps": "1149/12700"}
{"lm loss": 2.21834874, "grad_norm": 0.47095689, "learning_rate": 9.956e-05, "elapsed_time_per_iteration": 4.93216348, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 14s", "remaining_time": "15h 46m 28s", "loss_scale": 1.0, "consumed_samples": 294400, "global_step/max_steps": "1150/12700"}
{"lm loss": 2.26463509, "grad_norm": 0.48618269, "learning_rate": 9.956e-05, "elapsed_time_per_iteration": 4.91503954, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 19s", "remaining_time": "15h 46m 23s", "loss_scale": 1.0, "consumed_samples": 294656, "global_step/max_steps": "1151/12700"}
{"lm loss": 2.23989701, "grad_norm": 0.57383269, "learning_rate": 9.956e-05, "elapsed_time_per_iteration": 4.84414458, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 23s", "remaining_time": "15h 46m 17s", "loss_scale": 1.0, "consumed_samples": 294912, "global_step/max_steps": "1152/12700"}
{"lm loss": 2.28188944, "grad_norm": 0.51598734, "learning_rate": 9.956e-05, "elapsed_time_per_iteration": 4.86381006, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 28s", "remaining_time": "15h 46m 12s", "loss_scale": 1.0, "consumed_samples": 295168, "global_step/max_steps": "1153/12700"}
{"lm loss": 2.27215099, "grad_norm": 0.48172751, "learning_rate": 9.956e-05, "elapsed_time_per_iteration": 4.85513067, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 33s", "remaining_time": "15h 46m 6s", "loss_scale": 1.0, "consumed_samples": 295424, "global_step/max_steps": "1154/12700"}
{"lm loss": 2.23820376, "grad_norm": 0.54898047, "learning_rate": 9.956e-05, "elapsed_time_per_iteration": 4.82708311, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 38s", "remaining_time": "15h 46m 0s", "loss_scale": 1.0, "consumed_samples": 295680, "global_step/max_steps": "1155/12700"}
{"lm loss": 2.23839188, "grad_norm": 0.52613264, "learning_rate": 9.955e-05, "elapsed_time_per_iteration": 4.93048596, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 43s", "remaining_time": "15h 45m 55s", "loss_scale": 1.0, "consumed_samples": 295936, "global_step/max_steps": "1156/12700"}
{"lm loss": 2.22441006, "grad_norm": 0.63446873, "learning_rate": 9.955e-05, "elapsed_time_per_iteration": 4.87879348, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 48s", "remaining_time": "15h 45m 50s", "loss_scale": 1.0, "consumed_samples": 296192, "global_step/max_steps": "1157/12700"}
{"lm loss": 2.24159598, "grad_norm": 0.68339419, "learning_rate": 9.955e-05, "elapsed_time_per_iteration": 4.91712856, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 53s", "remaining_time": "15h 45m 45s", "loss_scale": 1.0, "consumed_samples": 296448, "global_step/max_steps": "1158/12700"}
{"lm loss": 2.24371696, "grad_norm": 0.56791407, "learning_rate": 9.955e-05, "elapsed_time_per_iteration": 4.90815592, "memory(GiB)": 28.94, "elapsed_time": "1h 34m 58s", "remaining_time": "15h 45m 40s", "loss_scale": 1.0, "consumed_samples": 296704, "global_step/max_steps": "1159/12700"}
{"lm loss": 2.25398874, "grad_norm": 0.48740742, "learning_rate": 9.955e-05, "elapsed_time_per_iteration": 4.89536619, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 3s", "remaining_time": "15h 45m 35s", "loss_scale": 1.0, "consumed_samples": 296960, "global_step/max_steps": "1160/12700"}
{"lm loss": 2.26391554, "grad_norm": 0.53733534, "learning_rate": 9.955e-05, "elapsed_time_per_iteration": 4.85429788, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 7s", "remaining_time": "15h 45m 30s", "loss_scale": 1.0, "consumed_samples": 297216, "global_step/max_steps": "1161/12700"}
{"lm loss": 2.22560191, "grad_norm": 0.59126842, "learning_rate": 9.954e-05, "elapsed_time_per_iteration": 4.85418868, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 12s", "remaining_time": "15h 45m 24s", "loss_scale": 1.0, "consumed_samples": 297472, "global_step/max_steps": "1162/12700"}
{"lm loss": 2.22196341, "grad_norm": 0.5520103, "learning_rate": 9.954e-05, "elapsed_time_per_iteration": 4.85212708, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 17s", "remaining_time": "15h 45m 18s", "loss_scale": 1.0, "consumed_samples": 297728, "global_step/max_steps": "1163/12700"}
{"lm loss": 2.26941538, "grad_norm": 0.4963173, "learning_rate": 9.954e-05, "elapsed_time_per_iteration": 4.78127718, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 22s", "remaining_time": "15h 45m 12s", "loss_scale": 1.0, "consumed_samples": 297984, "global_step/max_steps": "1164/12700"}
{"lm loss": 2.2248826, "grad_norm": 0.48916554, "learning_rate": 9.954e-05, "elapsed_time_per_iteration": 4.84713364, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 27s", "remaining_time": "15h 45m 7s", "loss_scale": 1.0, "consumed_samples": 298240, "global_step/max_steps": "1165/12700"}
{"lm loss": 2.22655296, "grad_norm": 0.55740899, "learning_rate": 9.954e-05, "elapsed_time_per_iteration": 4.90269923, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 32s", "remaining_time": "15h 45m 2s", "loss_scale": 1.0, "consumed_samples": 298496, "global_step/max_steps": "1166/12700"}
{"lm loss": 2.21969914, "grad_norm": 0.51542258, "learning_rate": 9.954e-05, "elapsed_time_per_iteration": 4.81318998, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 36s", "remaining_time": "15h 44m 56s", "loss_scale": 1.0, "consumed_samples": 298752, "global_step/max_steps": "1167/12700"}
{"lm loss": 2.21532297, "grad_norm": 0.50099808, "learning_rate": 9.953e-05, "elapsed_time_per_iteration": 4.8567636, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 41s", "remaining_time": "15h 44m 50s", "loss_scale": 1.0, "consumed_samples": 299008, "global_step/max_steps": "1168/12700"}
{"lm loss": 2.28025389, "grad_norm": 0.57946384, "learning_rate": 9.953e-05, "elapsed_time_per_iteration": 4.85232949, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 46s", "remaining_time": "15h 44m 45s", "loss_scale": 1.0, "consumed_samples": 299264, "global_step/max_steps": "1169/12700"}
{"lm loss": 2.23073125, "grad_norm": 0.56121802, "learning_rate": 9.953e-05, "elapsed_time_per_iteration": 4.85167861, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 51s", "remaining_time": "15h 44m 39s", "loss_scale": 1.0, "consumed_samples": 299520, "global_step/max_steps": "1170/12700"}
{"lm loss": 2.22279716, "grad_norm": 0.54585248, "learning_rate": 9.953e-05, "elapsed_time_per_iteration": 4.8647778, "memory(GiB)": 28.94, "elapsed_time": "1h 35m 56s", "remaining_time": "15h 44m 34s", "loss_scale": 1.0, "consumed_samples": 299776, "global_step/max_steps": "1171/12700"}
{"lm loss": 2.25707364, "grad_norm": 0.51254636, "learning_rate": 9.953e-05, "elapsed_time_per_iteration": 4.86207032, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 1s", "remaining_time": "15h 44m 28s", "loss_scale": 1.0, "consumed_samples": 300032, "global_step/max_steps": "1172/12700"}
{"lm loss": 2.23182821, "grad_norm": 0.55600649, "learning_rate": 9.952e-05, "elapsed_time_per_iteration": 4.87677693, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 6s", "remaining_time": "15h 44m 23s", "loss_scale": 1.0, "consumed_samples": 300288, "global_step/max_steps": "1173/12700"}
{"lm loss": 2.23269892, "grad_norm": 0.51024616, "learning_rate": 9.952e-05, "elapsed_time_per_iteration": 4.882164, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 11s", "remaining_time": "15h 44m 18s", "loss_scale": 1.0, "consumed_samples": 300544, "global_step/max_steps": "1174/12700"}
{"lm loss": 2.2433672, "grad_norm": 0.53386348, "learning_rate": 9.952e-05, "elapsed_time_per_iteration": 4.92668653, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 15s", "remaining_time": "15h 44m 13s", "loss_scale": 1.0, "consumed_samples": 300800, "global_step/max_steps": "1175/12700"}
{"lm loss": 2.22592163, "grad_norm": 0.51051718, "learning_rate": 9.952e-05, "elapsed_time_per_iteration": 4.96375394, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 20s", "remaining_time": "15h 44m 8s", "loss_scale": 1.0, "consumed_samples": 301056, "global_step/max_steps": "1176/12700"}
{"lm loss": 2.23869896, "grad_norm": 0.51903039, "learning_rate": 9.952e-05, "elapsed_time_per_iteration": 4.8732717, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 25s", "remaining_time": "15h 44m 3s", "loss_scale": 1.0, "consumed_samples": 301312, "global_step/max_steps": "1177/12700"}
{"lm loss": 2.23686171, "grad_norm": 0.52989966, "learning_rate": 9.952e-05, "elapsed_time_per_iteration": 4.96630192, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 30s", "remaining_time": "15h 43m 59s", "loss_scale": 1.0, "consumed_samples": 301568, "global_step/max_steps": "1178/12700"}
{"lm loss": 2.2458148, "grad_norm": 0.51882374, "learning_rate": 9.951e-05, "elapsed_time_per_iteration": 4.94209051, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 35s", "remaining_time": "15h 43m 54s", "loss_scale": 1.0, "consumed_samples": 301824, "global_step/max_steps": "1179/12700"}
{"lm loss": 2.25836539, "grad_norm": 0.51698214, "learning_rate": 9.951e-05, "elapsed_time_per_iteration": 4.85788989, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 40s", "remaining_time": "15h 43m 49s", "loss_scale": 1.0, "consumed_samples": 302080, "global_step/max_steps": "1180/12700"}
{"lm loss": 2.22294807, "grad_norm": 0.49919167, "learning_rate": 9.951e-05, "elapsed_time_per_iteration": 4.88277078, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 45s", "remaining_time": "15h 43m 43s", "loss_scale": 1.0, "consumed_samples": 302336, "global_step/max_steps": "1181/12700"}
{"lm loss": 2.25381589, "grad_norm": 0.48619702, "learning_rate": 9.951e-05, "elapsed_time_per_iteration": 5.02199125, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 50s", "remaining_time": "15h 43m 39s", "loss_scale": 1.0, "consumed_samples": 302592, "global_step/max_steps": "1182/12700"}
{"lm loss": 2.25657916, "grad_norm": 0.5494563, "learning_rate": 9.951e-05, "elapsed_time_per_iteration": 4.89369678, "memory(GiB)": 28.94, "elapsed_time": "1h 36m 55s", "remaining_time": "15h 43m 34s", "loss_scale": 1.0, "consumed_samples": 302848, "global_step/max_steps": "1183/12700"}
{"lm loss": 2.25970221, "grad_norm": 0.50231904, "learning_rate": 9.951e-05, "elapsed_time_per_iteration": 4.87161303, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 0s", "remaining_time": "15h 43m 29s", "loss_scale": 1.0, "consumed_samples": 303104, "global_step/max_steps": "1184/12700"}
{"lm loss": 2.23203778, "grad_norm": 0.51957172, "learning_rate": 9.95e-05, "elapsed_time_per_iteration": 4.88100982, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 5s", "remaining_time": "15h 43m 24s", "loss_scale": 1.0, "consumed_samples": 303360, "global_step/max_steps": "1185/12700"}
{"lm loss": 2.23150563, "grad_norm": 0.57005924, "learning_rate": 9.95e-05, "elapsed_time_per_iteration": 4.89948583, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 9s", "remaining_time": "15h 43m 19s", "loss_scale": 1.0, "consumed_samples": 303616, "global_step/max_steps": "1186/12700"}
{"lm loss": 2.26195383, "grad_norm": 0.55416816, "learning_rate": 9.95e-05, "elapsed_time_per_iteration": 4.81856656, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 14s", "remaining_time": "15h 43m 13s", "loss_scale": 1.0, "consumed_samples": 303872, "global_step/max_steps": "1187/12700"}
{"lm loss": 2.2434864, "grad_norm": 0.51039612, "learning_rate": 9.95e-05, "elapsed_time_per_iteration": 4.86224675, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 19s", "remaining_time": "15h 43m 7s", "loss_scale": 1.0, "consumed_samples": 304128, "global_step/max_steps": "1188/12700"}
{"lm loss": 2.2311306, "grad_norm": 0.51784301, "learning_rate": 9.95e-05, "elapsed_time_per_iteration": 4.99558353, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 24s", "remaining_time": "15h 43m 3s", "loss_scale": 1.0, "consumed_samples": 304384, "global_step/max_steps": "1189/12700"}
{"lm loss": 2.22575688, "grad_norm": 0.52201271, "learning_rate": 9.949e-05, "elapsed_time_per_iteration": 4.94631553, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 29s", "remaining_time": "15h 42m 59s", "loss_scale": 1.0, "consumed_samples": 304640, "global_step/max_steps": "1190/12700"}
{"lm loss": 2.22821379, "grad_norm": 0.55326545, "learning_rate": 9.949e-05, "elapsed_time_per_iteration": 4.88377905, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 34s", "remaining_time": "15h 42m 53s", "loss_scale": 1.0, "consumed_samples": 304896, "global_step/max_steps": "1191/12700"}
{"lm loss": 2.25660896, "grad_norm": 0.58074152, "learning_rate": 9.949e-05, "elapsed_time_per_iteration": 4.92053461, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 39s", "remaining_time": "15h 42m 48s", "loss_scale": 1.0, "consumed_samples": 305152, "global_step/max_steps": "1192/12700"}
{"lm loss": 2.22186327, "grad_norm": 0.54927427, "learning_rate": 9.949e-05, "elapsed_time_per_iteration": 4.9020257, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 44s", "remaining_time": "15h 42m 43s", "loss_scale": 1.0, "consumed_samples": 305408, "global_step/max_steps": "1193/12700"}
{"lm loss": 2.26413941, "grad_norm": 0.46263668, "learning_rate": 9.949e-05, "elapsed_time_per_iteration": 4.90145922, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 49s", "remaining_time": "15h 42m 38s", "loss_scale": 1.0, "consumed_samples": 305664, "global_step/max_steps": "1194/12700"}
{"lm loss": 2.25373697, "grad_norm": 0.45950386, "learning_rate": 9.949e-05, "elapsed_time_per_iteration": 4.81070471, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 54s", "remaining_time": "15h 42m 32s", "loss_scale": 1.0, "consumed_samples": 305920, "global_step/max_steps": "1195/12700"}
{"lm loss": 2.24638677, "grad_norm": 0.51637876, "learning_rate": 9.948e-05, "elapsed_time_per_iteration": 4.89183211, "memory(GiB)": 28.94, "elapsed_time": "1h 37m 58s", "remaining_time": "15h 42m 27s", "loss_scale": 1.0, "consumed_samples": 306176, "global_step/max_steps": "1196/12700"}
{"lm loss": 2.21656537, "grad_norm": 0.47462985, "learning_rate": 9.948e-05, "elapsed_time_per_iteration": 4.85844803, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 3s", "remaining_time": "15h 42m 22s", "loss_scale": 1.0, "consumed_samples": 306432, "global_step/max_steps": "1197/12700"}
{"lm loss": 2.22614956, "grad_norm": 0.49460936, "learning_rate": 9.948e-05, "elapsed_time_per_iteration": 4.88551116, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 8s", "remaining_time": "15h 42m 17s", "loss_scale": 1.0, "consumed_samples": 306688, "global_step/max_steps": "1198/12700"}
{"lm loss": 2.25080752, "grad_norm": 0.45324111, "learning_rate": 9.948e-05, "elapsed_time_per_iteration": 4.9487102, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 13s", "remaining_time": "15h 42m 12s", "loss_scale": 1.0, "consumed_samples": 306944, "global_step/max_steps": "1199/12700"}
{"lm loss": 2.25275922, "grad_norm": 0.46259537, "learning_rate": 9.948e-05, "elapsed_time_per_iteration": 4.84235144, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 18s", "remaining_time": "15h 42m 6s", "loss_scale": 1.0, "consumed_samples": 307200, "global_step/max_steps": "1200/12700"}
{"lm loss": 2.24643207, "grad_norm": 0.46597189, "learning_rate": 9.947e-05, "elapsed_time_per_iteration": 4.90106201, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 23s", "remaining_time": "15h 42m 1s", "loss_scale": 1.0, "consumed_samples": 307456, "global_step/max_steps": "1201/12700"}
{"lm loss": 2.24841595, "grad_norm": 0.46877706, "learning_rate": 9.947e-05, "elapsed_time_per_iteration": 4.86369395, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 28s", "remaining_time": "15h 41m 56s", "loss_scale": 1.0, "consumed_samples": 307712, "global_step/max_steps": "1202/12700"}
{"lm loss": 2.2399292, "grad_norm": 0.4828518, "learning_rate": 9.947e-05, "elapsed_time_per_iteration": 4.86222959, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 33s", "remaining_time": "15h 41m 51s", "loss_scale": 1.0, "consumed_samples": 307968, "global_step/max_steps": "1203/12700"}
{"lm loss": 2.21384072, "grad_norm": 0.61624235, "learning_rate": 9.947e-05, "elapsed_time_per_iteration": 4.89627624, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 37s", "remaining_time": "15h 41m 45s", "loss_scale": 1.0, "consumed_samples": 308224, "global_step/max_steps": "1204/12700"}
{"lm loss": 2.20732474, "grad_norm": 0.57022709, "learning_rate": 9.947e-05, "elapsed_time_per_iteration": 4.81258392, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 42s", "remaining_time": "15h 41m 40s", "loss_scale": 1.0, "consumed_samples": 308480, "global_step/max_steps": "1205/12700"}
{"lm loss": 2.22177887, "grad_norm": 0.50123018, "learning_rate": 9.946e-05, "elapsed_time_per_iteration": 4.81450725, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 47s", "remaining_time": "15h 41m 34s", "loss_scale": 1.0, "consumed_samples": 308736, "global_step/max_steps": "1206/12700"}
{"lm loss": 2.24726272, "grad_norm": 0.50201952, "learning_rate": 9.946e-05, "elapsed_time_per_iteration": 4.79777503, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 52s", "remaining_time": "15h 41m 28s", "loss_scale": 1.0, "consumed_samples": 308992, "global_step/max_steps": "1207/12700"}
{"lm loss": 2.25092316, "grad_norm": 0.5144338, "learning_rate": 9.946e-05, "elapsed_time_per_iteration": 5.00239444, "memory(GiB)": 28.94, "elapsed_time": "1h 38m 57s", "remaining_time": "15h 41m 24s", "loss_scale": 1.0, "consumed_samples": 309248, "global_step/max_steps": "1208/12700"}
{"lm loss": 2.22514439, "grad_norm": 0.50634921, "learning_rate": 9.946e-05, "elapsed_time_per_iteration": 4.9342463, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 2s", "remaining_time": "15h 41m 19s", "loss_scale": 1.0, "consumed_samples": 309504, "global_step/max_steps": "1209/12700"}
{"lm loss": 2.22108984, "grad_norm": 0.51736331, "learning_rate": 9.946e-05, "elapsed_time_per_iteration": 4.89724565, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 7s", "remaining_time": "15h 41m 14s", "loss_scale": 1.0, "consumed_samples": 309760, "global_step/max_steps": "1210/12700"}
{"lm loss": 2.24982309, "grad_norm": 0.52569419, "learning_rate": 9.946e-05, "elapsed_time_per_iteration": 4.87946749, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 12s", "remaining_time": "15h 41m 8s", "loss_scale": 1.0, "consumed_samples": 310016, "global_step/max_steps": "1211/12700"}
{"lm loss": 2.24581504, "grad_norm": 0.57220626, "learning_rate": 9.945e-05, "elapsed_time_per_iteration": 4.86976957, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 16s", "remaining_time": "15h 41m 3s", "loss_scale": 1.0, "consumed_samples": 310272, "global_step/max_steps": "1212/12700"}
{"lm loss": 2.23388028, "grad_norm": 0.56035745, "learning_rate": 9.945e-05, "elapsed_time_per_iteration": 4.84448528, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 21s", "remaining_time": "15h 40m 58s", "loss_scale": 1.0, "consumed_samples": 310528, "global_step/max_steps": "1213/12700"}
{"lm loss": 2.20676351, "grad_norm": 0.51578754, "learning_rate": 9.945e-05, "elapsed_time_per_iteration": 5.00904346, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 26s", "remaining_time": "15h 40m 54s", "loss_scale": 1.0, "consumed_samples": 310784, "global_step/max_steps": "1214/12700"}
{"lm loss": 2.24480033, "grad_norm": 0.51016396, "learning_rate": 9.945e-05, "elapsed_time_per_iteration": 4.91354179, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 31s", "remaining_time": "15h 40m 49s", "loss_scale": 1.0, "consumed_samples": 311040, "global_step/max_steps": "1215/12700"}
{"lm loss": 2.2325604, "grad_norm": 0.45795706, "learning_rate": 9.945e-05, "elapsed_time_per_iteration": 4.84206772, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 36s", "remaining_time": "15h 40m 43s", "loss_scale": 1.0, "consumed_samples": 311296, "global_step/max_steps": "1216/12700"}
{"lm loss": 2.24890637, "grad_norm": 0.51802593, "learning_rate": 9.944e-05, "elapsed_time_per_iteration": 4.86419511, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 41s", "remaining_time": "15h 40m 38s", "loss_scale": 1.0, "consumed_samples": 311552, "global_step/max_steps": "1217/12700"}
{"lm loss": 2.24362016, "grad_norm": 0.51660031, "learning_rate": 9.944e-05, "elapsed_time_per_iteration": 4.87679052, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 46s", "remaining_time": "15h 40m 32s", "loss_scale": 1.0, "consumed_samples": 311808, "global_step/max_steps": "1218/12700"}
{"lm loss": 2.23362446, "grad_norm": 0.51596731, "learning_rate": 9.944e-05, "elapsed_time_per_iteration": 4.87226105, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 51s", "remaining_time": "15h 40m 27s", "loss_scale": 1.0, "consumed_samples": 312064, "global_step/max_steps": "1219/12700"}
{"lm loss": 2.23324299, "grad_norm": 0.51166457, "learning_rate": 9.944e-05, "elapsed_time_per_iteration": 4.97421622, "memory(GiB)": 28.94, "elapsed_time": "1h 39m 56s", "remaining_time": "15h 40m 23s", "loss_scale": 1.0, "consumed_samples": 312320, "global_step/max_steps": "1220/12700"}
{"lm loss": 2.24379086, "grad_norm": 0.46481946, "learning_rate": 9.944e-05, "elapsed_time_per_iteration": 4.86285472, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 1s", "remaining_time": "15h 40m 17s", "loss_scale": 1.0, "consumed_samples": 312576, "global_step/max_steps": "1221/12700"}
{"lm loss": 2.1916132, "grad_norm": 0.4751924, "learning_rate": 9.943e-05, "elapsed_time_per_iteration": 4.99972916, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 6s", "remaining_time": "15h 40m 13s", "loss_scale": 1.0, "consumed_samples": 312832, "global_step/max_steps": "1222/12700"}
{"lm loss": 2.23452115, "grad_norm": 0.49817565, "learning_rate": 9.943e-05, "elapsed_time_per_iteration": 4.80112863, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 10s", "remaining_time": "15h 40m 7s", "loss_scale": 1.0, "consumed_samples": 313088, "global_step/max_steps": "1223/12700"}
{"lm loss": 2.25105548, "grad_norm": 0.51154578, "learning_rate": 9.943e-05, "elapsed_time_per_iteration": 4.80124736, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 15s", "remaining_time": "15h 40m 1s", "loss_scale": 1.0, "consumed_samples": 313344, "global_step/max_steps": "1224/12700"}
{"lm loss": 2.25100017, "grad_norm": 0.45549133, "learning_rate": 9.943e-05, "elapsed_time_per_iteration": 4.80383992, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 20s", "remaining_time": "15h 39m 55s", "loss_scale": 1.0, "consumed_samples": 313600, "global_step/max_steps": "1225/12700"}
{"lm loss": 2.25049281, "grad_norm": 0.54408902, "learning_rate": 9.943e-05, "elapsed_time_per_iteration": 4.74213076, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 25s", "remaining_time": "15h 39m 49s", "loss_scale": 1.0, "consumed_samples": 313856, "global_step/max_steps": "1226/12700"}
{"lm loss": 2.24427676, "grad_norm": 0.61137754, "learning_rate": 9.942e-05, "elapsed_time_per_iteration": 4.83170772, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 30s", "remaining_time": "15h 39m 43s", "loss_scale": 1.0, "consumed_samples": 314112, "global_step/max_steps": "1227/12700"}
{"lm loss": 2.23517299, "grad_norm": 0.53384739, "learning_rate": 9.942e-05, "elapsed_time_per_iteration": 4.88466263, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 34s", "remaining_time": "15h 39m 38s", "loss_scale": 1.0, "consumed_samples": 314368, "global_step/max_steps": "1228/12700"}
{"lm loss": 2.22559452, "grad_norm": 0.47233292, "learning_rate": 9.942e-05, "elapsed_time_per_iteration": 4.92267227, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 39s", "remaining_time": "15h 39m 33s", "loss_scale": 1.0, "consumed_samples": 314624, "global_step/max_steps": "1229/12700"}
{"lm loss": 2.22955656, "grad_norm": 0.50443727, "learning_rate": 9.942e-05, "elapsed_time_per_iteration": 4.7795794, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 44s", "remaining_time": "15h 39m 27s", "loss_scale": 1.0, "consumed_samples": 314880, "global_step/max_steps": "1230/12700"}
{"lm loss": 2.2235167, "grad_norm": 0.55506217, "learning_rate": 9.942e-05, "elapsed_time_per_iteration": 4.85422158, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 49s", "remaining_time": "15h 39m 21s", "loss_scale": 1.0, "consumed_samples": 315136, "global_step/max_steps": "1231/12700"}
{"lm loss": 2.22447538, "grad_norm": 0.51731294, "learning_rate": 9.942e-05, "elapsed_time_per_iteration": 4.84135985, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 54s", "remaining_time": "15h 39m 16s", "loss_scale": 1.0, "consumed_samples": 315392, "global_step/max_steps": "1232/12700"}
{"lm loss": 2.22817683, "grad_norm": 0.54708666, "learning_rate": 9.941e-05, "elapsed_time_per_iteration": 4.85620642, "memory(GiB)": 28.94, "elapsed_time": "1h 40m 59s", "remaining_time": "15h 39m 10s", "loss_scale": 1.0, "consumed_samples": 315648, "global_step/max_steps": "1233/12700"}
{"lm loss": 2.23810053, "grad_norm": 0.48566544, "learning_rate": 9.941e-05, "elapsed_time_per_iteration": 4.87110186, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 4s", "remaining_time": "15h 39m 5s", "loss_scale": 1.0, "consumed_samples": 315904, "global_step/max_steps": "1234/12700"}
{"lm loss": 2.22309422, "grad_norm": 0.5351935, "learning_rate": 9.941e-05, "elapsed_time_per_iteration": 4.85569453, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 8s", "remaining_time": "15h 38m 59s", "loss_scale": 1.0, "consumed_samples": 316160, "global_step/max_steps": "1235/12700"}
{"lm loss": 2.23471856, "grad_norm": 0.53801507, "learning_rate": 9.941e-05, "elapsed_time_per_iteration": 4.898669, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 13s", "remaining_time": "15h 38m 54s", "loss_scale": 1.0, "consumed_samples": 316416, "global_step/max_steps": "1236/12700"}
{"lm loss": 2.24180388, "grad_norm": 0.49687579, "learning_rate": 9.941e-05, "elapsed_time_per_iteration": 4.81736016, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 18s", "remaining_time": "15h 38m 49s", "loss_scale": 1.0, "consumed_samples": 316672, "global_step/max_steps": "1237/12700"}
{"lm loss": 2.27601886, "grad_norm": 0.44780403, "learning_rate": 9.94e-05, "elapsed_time_per_iteration": 4.85382342, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 23s", "remaining_time": "15h 38m 43s", "loss_scale": 1.0, "consumed_samples": 316928, "global_step/max_steps": "1238/12700"}
{"lm loss": 2.24902868, "grad_norm": 0.50579053, "learning_rate": 9.94e-05, "elapsed_time_per_iteration": 4.79856634, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 28s", "remaining_time": "15h 38m 37s", "loss_scale": 1.0, "consumed_samples": 317184, "global_step/max_steps": "1239/12700"}
{"lm loss": 2.2069273, "grad_norm": 0.47572327, "learning_rate": 9.94e-05, "elapsed_time_per_iteration": 4.89541125, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 33s", "remaining_time": "15h 38m 32s", "loss_scale": 1.0, "consumed_samples": 317440, "global_step/max_steps": "1240/12700"}
{"lm loss": 2.21280813, "grad_norm": 0.48009098, "learning_rate": 9.94e-05, "elapsed_time_per_iteration": 4.89850354, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 38s", "remaining_time": "15h 38m 27s", "loss_scale": 1.0, "consumed_samples": 317696, "global_step/max_steps": "1241/12700"}
{"lm loss": 2.23937535, "grad_norm": 0.49358886, "learning_rate": 9.94e-05, "elapsed_time_per_iteration": 4.93917823, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 42s", "remaining_time": "15h 38m 22s", "loss_scale": 1.0, "consumed_samples": 317952, "global_step/max_steps": "1242/12700"}
{"lm loss": 2.25400782, "grad_norm": 0.49364913, "learning_rate": 9.939e-05, "elapsed_time_per_iteration": 4.80821419, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 47s", "remaining_time": "15h 38m 16s", "loss_scale": 1.0, "consumed_samples": 318208, "global_step/max_steps": "1243/12700"}
{"lm loss": 2.24859571, "grad_norm": 0.52553874, "learning_rate": 9.939e-05, "elapsed_time_per_iteration": 4.91101623, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 52s", "remaining_time": "15h 38m 12s", "loss_scale": 1.0, "consumed_samples": 318464, "global_step/max_steps": "1244/12700"}
{"lm loss": 2.22287583, "grad_norm": 0.53400594, "learning_rate": 9.939e-05, "elapsed_time_per_iteration": 4.83407474, "memory(GiB)": 28.94, "elapsed_time": "1h 41m 57s", "remaining_time": "15h 38m 6s", "loss_scale": 1.0, "consumed_samples": 318720, "global_step/max_steps": "1245/12700"}
{"lm loss": 2.24834466, "grad_norm": 0.50692743, "learning_rate": 9.939e-05, "elapsed_time_per_iteration": 4.8842144, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 2s", "remaining_time": "15h 38m 1s", "loss_scale": 1.0, "consumed_samples": 318976, "global_step/max_steps": "1246/12700"}
{"lm loss": 2.22652483, "grad_norm": 0.5166862, "learning_rate": 9.939e-05, "elapsed_time_per_iteration": 4.87586856, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 7s", "remaining_time": "15h 37m 55s", "loss_scale": 1.0, "consumed_samples": 319232, "global_step/max_steps": "1247/12700"}
{"lm loss": 2.267169, "grad_norm": 0.49057832, "learning_rate": 9.938e-05, "elapsed_time_per_iteration": 4.8937757, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 12s", "remaining_time": "15h 37m 50s", "loss_scale": 1.0, "consumed_samples": 319488, "global_step/max_steps": "1248/12700"}
{"lm loss": 2.23572063, "grad_norm": 0.59255999, "learning_rate": 9.938e-05, "elapsed_time_per_iteration": 4.89143515, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 17s", "remaining_time": "15h 37m 45s", "loss_scale": 1.0, "consumed_samples": 319744, "global_step/max_steps": "1249/12700"}
{"lm loss": 2.24318051, "grad_norm": 0.57713944, "learning_rate": 9.938e-05, "elapsed_time_per_iteration": 4.73520446, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 21s", "remaining_time": "15h 37m 39s", "loss_scale": 1.0, "consumed_samples": 320000, "global_step/max_steps": "1250/12700"}
{"lm loss": 2.22194529, "grad_norm": 0.50703841, "learning_rate": 9.938e-05, "elapsed_time_per_iteration": 4.89771342, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 26s", "remaining_time": "15h 37m 34s", "loss_scale": 1.0, "consumed_samples": 320256, "global_step/max_steps": "1251/12700"}
{"lm loss": 2.23712587, "grad_norm": 0.45254058, "learning_rate": 9.938e-05, "elapsed_time_per_iteration": 4.99940705, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 31s", "remaining_time": "15h 37m 29s", "loss_scale": 1.0, "consumed_samples": 320512, "global_step/max_steps": "1252/12700"}
{"lm loss": 2.24708724, "grad_norm": 0.55172932, "learning_rate": 9.937e-05, "elapsed_time_per_iteration": 4.88078308, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 36s", "remaining_time": "15h 37m 24s", "loss_scale": 1.0, "consumed_samples": 320768, "global_step/max_steps": "1253/12700"}
{"lm loss": 2.23875237, "grad_norm": 0.58483416, "learning_rate": 9.937e-05, "elapsed_time_per_iteration": 4.83800602, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 41s", "remaining_time": "15h 37m 19s", "loss_scale": 1.0, "consumed_samples": 321024, "global_step/max_steps": "1254/12700"}
{"lm loss": 2.1942277, "grad_norm": 0.51786649, "learning_rate": 9.937e-05, "elapsed_time_per_iteration": 4.9019537, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 46s", "remaining_time": "15h 37m 14s", "loss_scale": 1.0, "consumed_samples": 321280, "global_step/max_steps": "1255/12700"}
{"lm loss": 2.22807693, "grad_norm": 0.52226633, "learning_rate": 9.937e-05, "elapsed_time_per_iteration": 4.82099152, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 51s", "remaining_time": "15h 37m 8s", "loss_scale": 1.0, "consumed_samples": 321536, "global_step/max_steps": "1256/12700"}
{"lm loss": 2.23853087, "grad_norm": 0.5775966, "learning_rate": 9.937e-05, "elapsed_time_per_iteration": 4.79517961, "memory(GiB)": 28.94, "elapsed_time": "1h 42m 55s", "remaining_time": "15h 37m 2s", "loss_scale": 1.0, "consumed_samples": 321792, "global_step/max_steps": "1257/12700"}
{"lm loss": 2.27743602, "grad_norm": 0.56147128, "learning_rate": 9.936e-05, "elapsed_time_per_iteration": 4.84567976, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 0s", "remaining_time": "15h 36m 56s", "loss_scale": 1.0, "consumed_samples": 322048, "global_step/max_steps": "1258/12700"}
{"lm loss": 2.19539309, "grad_norm": 0.51812953, "learning_rate": 9.936e-05, "elapsed_time_per_iteration": 4.85004115, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 5s", "remaining_time": "15h 36m 51s", "loss_scale": 1.0, "consumed_samples": 322304, "global_step/max_steps": "1259/12700"}
{"lm loss": 2.24128079, "grad_norm": 0.536856, "learning_rate": 9.936e-05, "elapsed_time_per_iteration": 4.89640617, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 10s", "remaining_time": "15h 36m 46s", "loss_scale": 1.0, "consumed_samples": 322560, "global_step/max_steps": "1260/12700"}
{"lm loss": 2.20845938, "grad_norm": 0.52129859, "learning_rate": 9.936e-05, "elapsed_time_per_iteration": 4.97633576, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 15s", "remaining_time": "15h 36m 41s", "loss_scale": 1.0, "consumed_samples": 322816, "global_step/max_steps": "1261/12700"}
{"lm loss": 2.23792601, "grad_norm": 0.48701754, "learning_rate": 9.936e-05, "elapsed_time_per_iteration": 4.86245561, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 20s", "remaining_time": "15h 36m 36s", "loss_scale": 1.0, "consumed_samples": 323072, "global_step/max_steps": "1262/12700"}
{"lm loss": 2.26434255, "grad_norm": 0.54628539, "learning_rate": 9.935e-05, "elapsed_time_per_iteration": 4.79916215, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 25s", "remaining_time": "15h 36m 30s", "loss_scale": 1.0, "consumed_samples": 323328, "global_step/max_steps": "1263/12700"}
{"lm loss": 2.2160182, "grad_norm": 0.60017401, "learning_rate": 9.935e-05, "elapsed_time_per_iteration": 4.9026978, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 30s", "remaining_time": "15h 36m 25s", "loss_scale": 1.0, "consumed_samples": 323584, "global_step/max_steps": "1264/12700"}
{"lm loss": 2.251827, "grad_norm": 0.51738638, "learning_rate": 9.935e-05, "elapsed_time_per_iteration": 4.84126663, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 34s", "remaining_time": "15h 36m 20s", "loss_scale": 1.0, "consumed_samples": 323840, "global_step/max_steps": "1265/12700"}
{"lm loss": 2.25695992, "grad_norm": 0.50724572, "learning_rate": 9.935e-05, "elapsed_time_per_iteration": 4.83318257, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 39s", "remaining_time": "15h 36m 14s", "loss_scale": 1.0, "consumed_samples": 324096, "global_step/max_steps": "1266/12700"}
{"lm loss": 2.23228526, "grad_norm": 0.50702202, "learning_rate": 9.934e-05, "elapsed_time_per_iteration": 4.91681623, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 44s", "remaining_time": "15h 36m 9s", "loss_scale": 1.0, "consumed_samples": 324352, "global_step/max_steps": "1267/12700"}
{"lm loss": 2.23848152, "grad_norm": 0.59268773, "learning_rate": 9.934e-05, "elapsed_time_per_iteration": 4.85806155, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 49s", "remaining_time": "15h 36m 4s", "loss_scale": 1.0, "consumed_samples": 324608, "global_step/max_steps": "1268/12700"}
{"lm loss": 2.25321722, "grad_norm": 0.51071894, "learning_rate": 9.934e-05, "elapsed_time_per_iteration": 4.8264277, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 54s", "remaining_time": "15h 35m 58s", "loss_scale": 1.0, "consumed_samples": 324864, "global_step/max_steps": "1269/12700"}
{"lm loss": 2.23053765, "grad_norm": 0.49969697, "learning_rate": 9.934e-05, "elapsed_time_per_iteration": 4.8400979, "memory(GiB)": 28.94, "elapsed_time": "1h 43m 59s", "remaining_time": "15h 35m 52s", "loss_scale": 1.0, "consumed_samples": 325120, "global_step/max_steps": "1270/12700"}
{"lm loss": 2.24464941, "grad_norm": 0.46000701, "learning_rate": 9.934e-05, "elapsed_time_per_iteration": 4.76565146, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 3s", "remaining_time": "15h 35m 46s", "loss_scale": 1.0, "consumed_samples": 325376, "global_step/max_steps": "1271/12700"}
{"lm loss": 2.27473879, "grad_norm": 0.47112694, "learning_rate": 9.933e-05, "elapsed_time_per_iteration": 4.92321897, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 8s", "remaining_time": "15h 35m 41s", "loss_scale": 1.0, "consumed_samples": 325632, "global_step/max_steps": "1272/12700"}
{"lm loss": 2.27604604, "grad_norm": 0.49056005, "learning_rate": 9.933e-05, "elapsed_time_per_iteration": 4.90917182, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 13s", "remaining_time": "15h 35m 36s", "loss_scale": 1.0, "consumed_samples": 325888, "global_step/max_steps": "1273/12700"}
{"lm loss": 2.2290647, "grad_norm": 0.48758253, "learning_rate": 9.933e-05, "elapsed_time_per_iteration": 4.79943347, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 18s", "remaining_time": "15h 35m 30s", "loss_scale": 1.0, "consumed_samples": 326144, "global_step/max_steps": "1274/12700"}
{"lm loss": 2.25144196, "grad_norm": 0.46285814, "learning_rate": 9.933e-05, "elapsed_time_per_iteration": 4.85733438, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 23s", "remaining_time": "15h 35m 25s", "loss_scale": 1.0, "consumed_samples": 326400, "global_step/max_steps": "1275/12700"}
{"lm loss": 2.19750619, "grad_norm": 0.48774892, "learning_rate": 9.933e-05, "elapsed_time_per_iteration": 5.0225668, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 28s", "remaining_time": "15h 35m 21s", "loss_scale": 1.0, "consumed_samples": 326656, "global_step/max_steps": "1276/12700"}
{"lm loss": 2.26820207, "grad_norm": 0.56780201, "learning_rate": 9.932e-05, "elapsed_time_per_iteration": 4.78746629, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 33s", "remaining_time": "15h 35m 15s", "loss_scale": 1.0, "consumed_samples": 326912, "global_step/max_steps": "1277/12700"}
{"lm loss": 2.25822997, "grad_norm": 0.52632076, "learning_rate": 9.932e-05, "elapsed_time_per_iteration": 4.87426543, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 38s", "remaining_time": "15h 35m 10s", "loss_scale": 1.0, "consumed_samples": 327168, "global_step/max_steps": "1278/12700"}
{"lm loss": 2.22111917, "grad_norm": 0.46363038, "learning_rate": 9.932e-05, "elapsed_time_per_iteration": 4.85885525, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 43s", "remaining_time": "15h 35m 4s", "loss_scale": 1.0, "consumed_samples": 327424, "global_step/max_steps": "1279/12700"}
{"lm loss": 2.22318983, "grad_norm": 0.51902622, "learning_rate": 9.932e-05, "elapsed_time_per_iteration": 4.90474367, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 47s", "remaining_time": "15h 34m 59s", "loss_scale": 1.0, "consumed_samples": 327680, "global_step/max_steps": "1280/12700"}
{"lm loss": 2.232934, "grad_norm": 0.57646137, "learning_rate": 9.932e-05, "elapsed_time_per_iteration": 4.86967134, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 52s", "remaining_time": "15h 34m 54s", "loss_scale": 1.0, "consumed_samples": 327936, "global_step/max_steps": "1281/12700"}
{"lm loss": 2.21549654, "grad_norm": 0.4970324, "learning_rate": 9.931e-05, "elapsed_time_per_iteration": 4.87590766, "memory(GiB)": 28.94, "elapsed_time": "1h 44m 57s", "remaining_time": "15h 34m 49s", "loss_scale": 1.0, "consumed_samples": 328192, "global_step/max_steps": "1282/12700"}
{"lm loss": 2.24802232, "grad_norm": 0.58123308, "learning_rate": 9.931e-05, "elapsed_time_per_iteration": 4.88169217, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 2s", "remaining_time": "15h 34m 44s", "loss_scale": 1.0, "consumed_samples": 328448, "global_step/max_steps": "1283/12700"}
{"lm loss": 2.20329809, "grad_norm": 0.53048182, "learning_rate": 9.931e-05, "elapsed_time_per_iteration": 4.80642986, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 7s", "remaining_time": "15h 34m 38s", "loss_scale": 1.0, "consumed_samples": 328704, "global_step/max_steps": "1284/12700"}
{"lm loss": 2.20913768, "grad_norm": 0.5004282, "learning_rate": 9.931e-05, "elapsed_time_per_iteration": 4.86640263, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 12s", "remaining_time": "15h 34m 33s", "loss_scale": 1.0, "consumed_samples": 328960, "global_step/max_steps": "1285/12700"}
{"lm loss": 2.24393916, "grad_norm": 0.55400473, "learning_rate": 9.93e-05, "elapsed_time_per_iteration": 4.91699362, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 17s", "remaining_time": "15h 34m 28s", "loss_scale": 1.0, "consumed_samples": 329216, "global_step/max_steps": "1286/12700"}
{"lm loss": 2.22375059, "grad_norm": 0.53011334, "learning_rate": 9.93e-05, "elapsed_time_per_iteration": 4.84620404, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 21s", "remaining_time": "15h 34m 22s", "loss_scale": 1.0, "consumed_samples": 329472, "global_step/max_steps": "1287/12700"}
{"lm loss": 2.24483895, "grad_norm": 0.47023526, "learning_rate": 9.93e-05, "elapsed_time_per_iteration": 4.93432331, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 26s", "remaining_time": "15h 34m 18s", "loss_scale": 1.0, "consumed_samples": 329728, "global_step/max_steps": "1288/12700"}
{"lm loss": 2.24329829, "grad_norm": 0.49944082, "learning_rate": 9.93e-05, "elapsed_time_per_iteration": 4.82011676, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 31s", "remaining_time": "15h 34m 12s", "loss_scale": 1.0, "consumed_samples": 329984, "global_step/max_steps": "1289/12700"}
{"lm loss": 2.22021604, "grad_norm": 0.49591702, "learning_rate": 9.93e-05, "elapsed_time_per_iteration": 4.88183641, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 36s", "remaining_time": "15h 34m 7s", "loss_scale": 1.0, "consumed_samples": 330240, "global_step/max_steps": "1290/12700"}
{"lm loss": 2.249506, "grad_norm": 0.49741101, "learning_rate": 9.929e-05, "elapsed_time_per_iteration": 4.91304827, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 41s", "remaining_time": "15h 34m 2s", "loss_scale": 1.0, "consumed_samples": 330496, "global_step/max_steps": "1291/12700"}
{"lm loss": 2.23265386, "grad_norm": 0.48216078, "learning_rate": 9.929e-05, "elapsed_time_per_iteration": 5.0042181, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 46s", "remaining_time": "15h 33m 58s", "loss_scale": 1.0, "consumed_samples": 330752, "global_step/max_steps": "1292/12700"}
{"lm loss": 2.24477172, "grad_norm": 0.66059941, "learning_rate": 9.929e-05, "elapsed_time_per_iteration": 4.80026793, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 51s", "remaining_time": "15h 33m 52s", "loss_scale": 1.0, "consumed_samples": 331008, "global_step/max_steps": "1293/12700"}
{"lm loss": 2.19729471, "grad_norm": 0.61592948, "learning_rate": 9.929e-05, "elapsed_time_per_iteration": 4.8854351, "memory(GiB)": 28.94, "elapsed_time": "1h 45m 56s", "remaining_time": "15h 33m 47s", "loss_scale": 1.0, "consumed_samples": 331264, "global_step/max_steps": "1294/12700"}
{"lm loss": 2.25159431, "grad_norm": 0.49687564, "learning_rate": 9.929e-05, "elapsed_time_per_iteration": 4.88466954, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 1s", "remaining_time": "15h 33m 41s", "loss_scale": 1.0, "consumed_samples": 331520, "global_step/max_steps": "1295/12700"}
{"lm loss": 2.23637223, "grad_norm": 0.48560008, "learning_rate": 9.928e-05, "elapsed_time_per_iteration": 4.88186812, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 5s", "remaining_time": "15h 33m 36s", "loss_scale": 1.0, "consumed_samples": 331776, "global_step/max_steps": "1296/12700"}
{"lm loss": 2.20507956, "grad_norm": 0.54371661, "learning_rate": 9.928e-05, "elapsed_time_per_iteration": 4.84762979, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 10s", "remaining_time": "15h 33m 31s", "loss_scale": 1.0, "consumed_samples": 332032, "global_step/max_steps": "1297/12700"}
{"lm loss": 2.23863769, "grad_norm": 0.5688957, "learning_rate": 9.928e-05, "elapsed_time_per_iteration": 4.85320425, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 15s", "remaining_time": "15h 33m 25s", "loss_scale": 1.0, "consumed_samples": 332288, "global_step/max_steps": "1298/12700"}
{"lm loss": 2.24496269, "grad_norm": 0.51019484, "learning_rate": 9.928e-05, "elapsed_time_per_iteration": 4.76019597, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 20s", "remaining_time": "15h 33m 19s", "loss_scale": 1.0, "consumed_samples": 332544, "global_step/max_steps": "1299/12700"}
{"lm loss": 2.26168513, "grad_norm": 0.51217055, "learning_rate": 9.927e-05, "elapsed_time_per_iteration": 4.88646317, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 25s", "remaining_time": "15h 33m 14s", "loss_scale": 1.0, "consumed_samples": 332800, "global_step/max_steps": "1300/12700"}
{"lm loss": 2.24361682, "grad_norm": 0.55130386, "learning_rate": 9.927e-05, "elapsed_time_per_iteration": 4.85963511, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 30s", "remaining_time": "15h 33m 9s", "loss_scale": 1.0, "consumed_samples": 333056, "global_step/max_steps": "1301/12700"}
{"lm loss": 2.20559335, "grad_norm": 0.50876069, "learning_rate": 9.927e-05, "elapsed_time_per_iteration": 4.91215634, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 35s", "remaining_time": "15h 33m 4s", "loss_scale": 1.0, "consumed_samples": 333312, "global_step/max_steps": "1302/12700"}
{"lm loss": 2.2182281, "grad_norm": 0.50299644, "learning_rate": 9.927e-05, "elapsed_time_per_iteration": 4.92261982, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 40s", "remaining_time": "15h 32m 59s", "loss_scale": 1.0, "consumed_samples": 333568, "global_step/max_steps": "1303/12700"}
{"lm loss": 2.25629735, "grad_norm": 0.52717787, "learning_rate": 9.927e-05, "elapsed_time_per_iteration": 4.84899807, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 44s", "remaining_time": "15h 32m 53s", "loss_scale": 1.0, "consumed_samples": 333824, "global_step/max_steps": "1304/12700"}
{"lm loss": 2.22635674, "grad_norm": 0.51046795, "learning_rate": 9.926e-05, "elapsed_time_per_iteration": 4.81110764, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 49s", "remaining_time": "15h 32m 48s", "loss_scale": 1.0, "consumed_samples": 334080, "global_step/max_steps": "1305/12700"}
{"lm loss": 2.26972437, "grad_norm": 0.48439458, "learning_rate": 9.926e-05, "elapsed_time_per_iteration": 4.83235216, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 54s", "remaining_time": "15h 32m 42s", "loss_scale": 1.0, "consumed_samples": 334336, "global_step/max_steps": "1306/12700"}
{"lm loss": 2.22446203, "grad_norm": 0.56101704, "learning_rate": 9.926e-05, "elapsed_time_per_iteration": 4.83507872, "memory(GiB)": 28.94, "elapsed_time": "1h 46m 59s", "remaining_time": "15h 32m 36s", "loss_scale": 1.0, "consumed_samples": 334592, "global_step/max_steps": "1307/12700"}
{"lm loss": 2.24762678, "grad_norm": 0.51566482, "learning_rate": 9.926e-05, "elapsed_time_per_iteration": 4.83091378, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 4s", "remaining_time": "15h 32m 31s", "loss_scale": 1.0, "consumed_samples": 334848, "global_step/max_steps": "1308/12700"}
{"lm loss": 2.22486615, "grad_norm": 0.48375896, "learning_rate": 9.925e-05, "elapsed_time_per_iteration": 4.80098963, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 8s", "remaining_time": "15h 32m 25s", "loss_scale": 1.0, "consumed_samples": 335104, "global_step/max_steps": "1309/12700"}
{"lm loss": 2.2728126, "grad_norm": 0.55883867, "learning_rate": 9.925e-05, "elapsed_time_per_iteration": 4.83884358, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 13s", "remaining_time": "15h 32m 19s", "loss_scale": 1.0, "consumed_samples": 335360, "global_step/max_steps": "1310/12700"}
{"lm loss": 2.23622036, "grad_norm": 0.49079746, "learning_rate": 9.925e-05, "elapsed_time_per_iteration": 4.88708448, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 18s", "remaining_time": "15h 32m 14s", "loss_scale": 1.0, "consumed_samples": 335616, "global_step/max_steps": "1311/12700"}
{"lm loss": 2.23607445, "grad_norm": 0.51242495, "learning_rate": 9.925e-05, "elapsed_time_per_iteration": 4.8752768, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 23s", "remaining_time": "15h 32m 9s", "loss_scale": 1.0, "consumed_samples": 335872, "global_step/max_steps": "1312/12700"}
{"lm loss": 2.26176882, "grad_norm": 0.56216741, "learning_rate": 9.925e-05, "elapsed_time_per_iteration": 4.85287523, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 28s", "remaining_time": "15h 32m 4s", "loss_scale": 1.0, "consumed_samples": 336128, "global_step/max_steps": "1313/12700"}
{"lm loss": 2.21313858, "grad_norm": 0.48526576, "learning_rate": 9.924e-05, "elapsed_time_per_iteration": 4.88646507, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 33s", "remaining_time": "15h 31m 59s", "loss_scale": 1.0, "consumed_samples": 336384, "global_step/max_steps": "1314/12700"}
{"lm loss": 2.21056104, "grad_norm": 0.49495977, "learning_rate": 9.924e-05, "elapsed_time_per_iteration": 4.82210326, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 38s", "remaining_time": "15h 31m 53s", "loss_scale": 1.0, "consumed_samples": 336640, "global_step/max_steps": "1315/12700"}
{"lm loss": 2.22952724, "grad_norm": 0.52724892, "learning_rate": 9.924e-05, "elapsed_time_per_iteration": 4.83375144, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 42s", "remaining_time": "15h 31m 47s", "loss_scale": 1.0, "consumed_samples": 336896, "global_step/max_steps": "1316/12700"}
{"lm loss": 2.22062612, "grad_norm": 0.51900274, "learning_rate": 9.924e-05, "elapsed_time_per_iteration": 4.87035346, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 47s", "remaining_time": "15h 31m 42s", "loss_scale": 1.0, "consumed_samples": 337152, "global_step/max_steps": "1317/12700"}
{"lm loss": 2.2589426, "grad_norm": 0.56344324, "learning_rate": 9.924e-05, "elapsed_time_per_iteration": 4.94973969, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 52s", "remaining_time": "15h 31m 37s", "loss_scale": 1.0, "consumed_samples": 337408, "global_step/max_steps": "1318/12700"}
{"lm loss": 2.25059462, "grad_norm": 0.47114199, "learning_rate": 9.923e-05, "elapsed_time_per_iteration": 4.84088993, "memory(GiB)": 28.94, "elapsed_time": "1h 47m 57s", "remaining_time": "15h 31m 32s", "loss_scale": 1.0, "consumed_samples": 337664, "global_step/max_steps": "1319/12700"}
{"lm loss": 2.23161697, "grad_norm": 0.5089401, "learning_rate": 9.923e-05, "elapsed_time_per_iteration": 4.90737605, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 2s", "remaining_time": "15h 31m 27s", "loss_scale": 1.0, "consumed_samples": 337920, "global_step/max_steps": "1320/12700"}
{"lm loss": 2.23111582, "grad_norm": 0.52059513, "learning_rate": 9.923e-05, "elapsed_time_per_iteration": 4.94751883, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 7s", "remaining_time": "15h 31m 22s", "loss_scale": 1.0, "consumed_samples": 338176, "global_step/max_steps": "1321/12700"}
{"lm loss": 2.25571918, "grad_norm": 0.53796178, "learning_rate": 9.923e-05, "elapsed_time_per_iteration": 4.83840895, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 12s", "remaining_time": "15h 31m 17s", "loss_scale": 1.0, "consumed_samples": 338432, "global_step/max_steps": "1322/12700"}
{"lm loss": 2.23293471, "grad_norm": 0.46455932, "learning_rate": 9.922e-05, "elapsed_time_per_iteration": 5.05400968, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 17s", "remaining_time": "15h 31m 13s", "loss_scale": 1.0, "consumed_samples": 338688, "global_step/max_steps": "1323/12700"}
{"lm loss": 2.23790669, "grad_norm": 0.5186339, "learning_rate": 9.922e-05, "elapsed_time_per_iteration": 4.81364846, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 22s", "remaining_time": "15h 31m 7s", "loss_scale": 1.0, "consumed_samples": 338944, "global_step/max_steps": "1324/12700"}
{"lm loss": 2.22175097, "grad_norm": 0.52773511, "learning_rate": 9.922e-05, "elapsed_time_per_iteration": 4.81209826, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 27s", "remaining_time": "15h 31m 2s", "loss_scale": 1.0, "consumed_samples": 339200, "global_step/max_steps": "1325/12700"}
{"lm loss": 2.20741749, "grad_norm": 0.46332762, "learning_rate": 9.922e-05, "elapsed_time_per_iteration": 5.04807806, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 32s", "remaining_time": "15h 30m 58s", "loss_scale": 1.0, "consumed_samples": 339456, "global_step/max_steps": "1326/12700"}
{"lm loss": 2.22698021, "grad_norm": 0.50647998, "learning_rate": 9.921e-05, "elapsed_time_per_iteration": 4.94478679, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 37s", "remaining_time": "15h 30m 53s", "loss_scale": 1.0, "consumed_samples": 339712, "global_step/max_steps": "1327/12700"}
{"lm loss": 2.24881268, "grad_norm": 0.46256086, "learning_rate": 9.921e-05, "elapsed_time_per_iteration": 4.89258981, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 41s", "remaining_time": "15h 30m 48s", "loss_scale": 1.0, "consumed_samples": 339968, "global_step/max_steps": "1328/12700"}
{"lm loss": 2.22427654, "grad_norm": 0.52851838, "learning_rate": 9.921e-05, "elapsed_time_per_iteration": 4.96963096, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 46s", "remaining_time": "15h 30m 44s", "loss_scale": 1.0, "consumed_samples": 340224, "global_step/max_steps": "1329/12700"}
{"lm loss": 2.24122024, "grad_norm": 0.51312554, "learning_rate": 9.921e-05, "elapsed_time_per_iteration": 4.85955048, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 51s", "remaining_time": "15h 30m 38s", "loss_scale": 1.0, "consumed_samples": 340480, "global_step/max_steps": "1330/12700"}
{"lm loss": 2.22807264, "grad_norm": 0.48251557, "learning_rate": 9.921e-05, "elapsed_time_per_iteration": 4.96209908, "memory(GiB)": 28.94, "elapsed_time": "1h 48m 56s", "remaining_time": "15h 30m 34s", "loss_scale": 1.0, "consumed_samples": 340736, "global_step/max_steps": "1331/12700"}
{"lm loss": 2.21910596, "grad_norm": 0.51193333, "learning_rate": 9.92e-05, "elapsed_time_per_iteration": 4.88152266, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 1s", "remaining_time": "15h 30m 29s", "loss_scale": 1.0, "consumed_samples": 340992, "global_step/max_steps": "1332/12700"}
{"lm loss": 2.24252248, "grad_norm": 0.44040471, "learning_rate": 9.92e-05, "elapsed_time_per_iteration": 4.87700415, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 6s", "remaining_time": "15h 30m 24s", "loss_scale": 1.0, "consumed_samples": 341248, "global_step/max_steps": "1333/12700"}
{"lm loss": 2.25278115, "grad_norm": 0.46231329, "learning_rate": 9.92e-05, "elapsed_time_per_iteration": 4.80104208, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 11s", "remaining_time": "15h 30m 18s", "loss_scale": 1.0, "consumed_samples": 341504, "global_step/max_steps": "1334/12700"}
{"lm loss": 2.22269464, "grad_norm": 0.49772495, "learning_rate": 9.92e-05, "elapsed_time_per_iteration": 4.86802721, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 16s", "remaining_time": "15h 30m 12s", "loss_scale": 1.0, "consumed_samples": 341760, "global_step/max_steps": "1335/12700"}
{"lm loss": 2.22635388, "grad_norm": 0.48309997, "learning_rate": 9.919e-05, "elapsed_time_per_iteration": 4.8816812, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 21s", "remaining_time": "15h 30m 7s", "loss_scale": 1.0, "consumed_samples": 342016, "global_step/max_steps": "1336/12700"}
{"lm loss": 2.20473909, "grad_norm": 0.50022745, "learning_rate": 9.919e-05, "elapsed_time_per_iteration": 4.87336183, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 25s", "remaining_time": "15h 30m 2s", "loss_scale": 1.0, "consumed_samples": 342272, "global_step/max_steps": "1337/12700"}
{"lm loss": 2.23857307, "grad_norm": 0.54520011, "learning_rate": 9.919e-05, "elapsed_time_per_iteration": 4.86468434, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 30s", "remaining_time": "15h 29m 57s", "loss_scale": 1.0, "consumed_samples": 342528, "global_step/max_steps": "1338/12700"}
{"lm loss": 2.21292663, "grad_norm": 0.50922185, "learning_rate": 9.919e-05, "elapsed_time_per_iteration": 4.85061193, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 35s", "remaining_time": "15h 29m 51s", "loss_scale": 1.0, "consumed_samples": 342784, "global_step/max_steps": "1339/12700"}
{"lm loss": 2.23267126, "grad_norm": 0.54941982, "learning_rate": 9.919e-05, "elapsed_time_per_iteration": 5.01115322, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 40s", "remaining_time": "15h 29m 47s", "loss_scale": 1.0, "consumed_samples": 343040, "global_step/max_steps": "1340/12700"}
{"lm loss": 2.26624846, "grad_norm": 0.48232797, "learning_rate": 9.918e-05, "elapsed_time_per_iteration": 4.80907631, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 45s", "remaining_time": "15h 29m 42s", "loss_scale": 1.0, "consumed_samples": 343296, "global_step/max_steps": "1341/12700"}
{"lm loss": 2.19572687, "grad_norm": 0.51929635, "learning_rate": 9.918e-05, "elapsed_time_per_iteration": 4.79796696, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 50s", "remaining_time": "15h 29m 36s", "loss_scale": 1.0, "consumed_samples": 343552, "global_step/max_steps": "1342/12700"}
{"lm loss": 2.22931433, "grad_norm": 0.50171375, "learning_rate": 9.918e-05, "elapsed_time_per_iteration": 5.01497722, "memory(GiB)": 28.94, "elapsed_time": "1h 49m 55s", "remaining_time": "15h 29m 32s", "loss_scale": 1.0, "consumed_samples": 343808, "global_step/max_steps": "1343/12700"}
{"lm loss": 2.19409966, "grad_norm": 0.5154202, "learning_rate": 9.918e-05, "elapsed_time_per_iteration": 4.80039787, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 0s", "remaining_time": "15h 29m 26s", "loss_scale": 1.0, "consumed_samples": 344064, "global_step/max_steps": "1344/12700"}
{"lm loss": 2.23826313, "grad_norm": 0.55070329, "learning_rate": 9.917e-05, "elapsed_time_per_iteration": 4.86170053, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 4s", "remaining_time": "15h 29m 20s", "loss_scale": 1.0, "consumed_samples": 344320, "global_step/max_steps": "1345/12700"}
{"lm loss": 2.24697733, "grad_norm": 0.49682611, "learning_rate": 9.917e-05, "elapsed_time_per_iteration": 4.96406984, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 9s", "remaining_time": "15h 29m 16s", "loss_scale": 1.0, "consumed_samples": 344576, "global_step/max_steps": "1346/12700"}
{"lm loss": 2.23242855, "grad_norm": 0.53138852, "learning_rate": 9.917e-05, "elapsed_time_per_iteration": 4.85242367, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 14s", "remaining_time": "15h 29m 11s", "loss_scale": 1.0, "consumed_samples": 344832, "global_step/max_steps": "1347/12700"}
{"lm loss": 2.22855926, "grad_norm": 0.47095743, "learning_rate": 9.917e-05, "elapsed_time_per_iteration": 4.83701253, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 19s", "remaining_time": "15h 29m 5s", "loss_scale": 1.0, "consumed_samples": 345088, "global_step/max_steps": "1348/12700"}
{"lm loss": 2.19662523, "grad_norm": 0.54247159, "learning_rate": 9.916e-05, "elapsed_time_per_iteration": 4.79871583, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 24s", "remaining_time": "15h 28m 59s", "loss_scale": 1.0, "consumed_samples": 345344, "global_step/max_steps": "1349/12700"}
{"lm loss": 2.21266747, "grad_norm": 0.59420449, "learning_rate": 9.916e-05, "elapsed_time_per_iteration": 4.8943851, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 29s", "remaining_time": "15h 28m 54s", "loss_scale": 1.0, "consumed_samples": 345600, "global_step/max_steps": "1350/12700"}
{"lm loss": 2.26152992, "grad_norm": 0.500503, "learning_rate": 9.916e-05, "elapsed_time_per_iteration": 4.91682124, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 34s", "remaining_time": "15h 28m 49s", "loss_scale": 1.0, "consumed_samples": 345856, "global_step/max_steps": "1351/12700"}
{"lm loss": 2.2072463, "grad_norm": 0.4694652, "learning_rate": 9.916e-05, "elapsed_time_per_iteration": 4.85250807, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 39s", "remaining_time": "15h 28m 44s", "loss_scale": 1.0, "consumed_samples": 346112, "global_step/max_steps": "1352/12700"}
{"lm loss": 2.21060467, "grad_norm": 0.5166623, "learning_rate": 9.915e-05, "elapsed_time_per_iteration": 4.83101106, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 43s", "remaining_time": "15h 28m 38s", "loss_scale": 1.0, "consumed_samples": 346368, "global_step/max_steps": "1353/12700"}
{"lm loss": 2.21721435, "grad_norm": 0.49778673, "learning_rate": 9.915e-05, "elapsed_time_per_iteration": 4.90316534, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 48s", "remaining_time": "15h 28m 33s", "loss_scale": 1.0, "consumed_samples": 346624, "global_step/max_steps": "1354/12700"}
{"lm loss": 2.22079802, "grad_norm": 0.50844872, "learning_rate": 9.915e-05, "elapsed_time_per_iteration": 4.92100573, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 53s", "remaining_time": "15h 28m 29s", "loss_scale": 1.0, "consumed_samples": 346880, "global_step/max_steps": "1355/12700"}
{"lm loss": 2.22572732, "grad_norm": 0.46774909, "learning_rate": 9.915e-05, "elapsed_time_per_iteration": 4.92453432, "memory(GiB)": 28.94, "elapsed_time": "1h 50m 58s", "remaining_time": "15h 28m 24s", "loss_scale": 1.0, "consumed_samples": 347136, "global_step/max_steps": "1356/12700"}
{"lm loss": 2.21936679, "grad_norm": 0.42369819, "learning_rate": 9.915e-05, "elapsed_time_per_iteration": 4.81067181, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 3s", "remaining_time": "15h 28m 18s", "loss_scale": 1.0, "consumed_samples": 347392, "global_step/max_steps": "1357/12700"}
{"lm loss": 2.21709394, "grad_norm": 0.5393123, "learning_rate": 9.914e-05, "elapsed_time_per_iteration": 4.83311415, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 8s", "remaining_time": "15h 28m 12s", "loss_scale": 1.0, "consumed_samples": 347648, "global_step/max_steps": "1358/12700"}
{"lm loss": 2.24023724, "grad_norm": 0.55496264, "learning_rate": 9.914e-05, "elapsed_time_per_iteration": 4.87800264, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 13s", "remaining_time": "15h 28m 7s", "loss_scale": 1.0, "consumed_samples": 347904, "global_step/max_steps": "1359/12700"}
{"lm loss": 2.20733857, "grad_norm": 0.59761137, "learning_rate": 9.914e-05, "elapsed_time_per_iteration": 4.82199168, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 17s", "remaining_time": "15h 28m 2s", "loss_scale": 1.0, "consumed_samples": 348160, "global_step/max_steps": "1360/12700"}
{"lm loss": 2.22619748, "grad_norm": 0.51730329, "learning_rate": 9.914e-05, "elapsed_time_per_iteration": 4.83441043, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 22s", "remaining_time": "15h 27m 56s", "loss_scale": 1.0, "consumed_samples": 348416, "global_step/max_steps": "1361/12700"}
{"lm loss": 2.24198604, "grad_norm": 0.47149971, "learning_rate": 9.913e-05, "elapsed_time_per_iteration": 4.81128645, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 27s", "remaining_time": "15h 27m 50s", "loss_scale": 1.0, "consumed_samples": 348672, "global_step/max_steps": "1362/12700"}
{"lm loss": 2.23527908, "grad_norm": 0.471944, "learning_rate": 9.913e-05, "elapsed_time_per_iteration": 4.91075039, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 32s", "remaining_time": "15h 27m 45s", "loss_scale": 1.0, "consumed_samples": 348928, "global_step/max_steps": "1363/12700"}
{"lm loss": 2.21054935, "grad_norm": 0.48507109, "learning_rate": 9.913e-05, "elapsed_time_per_iteration": 4.83180261, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 37s", "remaining_time": "15h 27m 40s", "loss_scale": 1.0, "consumed_samples": 349184, "global_step/max_steps": "1364/12700"}
{"lm loss": 2.24712443, "grad_norm": 0.50348347, "learning_rate": 9.913e-05, "elapsed_time_per_iteration": 4.96639252, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 42s", "remaining_time": "15h 27m 35s", "loss_scale": 1.0, "consumed_samples": 349440, "global_step/max_steps": "1365/12700"}
{"lm loss": 2.21929669, "grad_norm": 0.54075027, "learning_rate": 9.912e-05, "elapsed_time_per_iteration": 4.94378781, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 47s", "remaining_time": "15h 27m 31s", "loss_scale": 1.0, "consumed_samples": 349696, "global_step/max_steps": "1366/12700"}
{"lm loss": 2.2356329, "grad_norm": 0.45559144, "learning_rate": 9.912e-05, "elapsed_time_per_iteration": 4.89248395, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 52s", "remaining_time": "15h 27m 26s", "loss_scale": 1.0, "consumed_samples": 349952, "global_step/max_steps": "1367/12700"}
{"lm loss": 2.24807286, "grad_norm": 0.55860925, "learning_rate": 9.912e-05, "elapsed_time_per_iteration": 4.84596324, "memory(GiB)": 28.94, "elapsed_time": "1h 51m 56s", "remaining_time": "15h 27m 20s", "loss_scale": 1.0, "consumed_samples": 350208, "global_step/max_steps": "1368/12700"}
{"lm loss": 2.2241447, "grad_norm": 0.54478675, "learning_rate": 9.912e-05, "elapsed_time_per_iteration": 4.81492186, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 1s", "remaining_time": "15h 27m 15s", "loss_scale": 1.0, "consumed_samples": 350464, "global_step/max_steps": "1369/12700"}
{"lm loss": 2.23601747, "grad_norm": 0.48371574, "learning_rate": 9.911e-05, "elapsed_time_per_iteration": 4.85766387, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 6s", "remaining_time": "15h 27m 9s", "loss_scale": 1.0, "consumed_samples": 350720, "global_step/max_steps": "1370/12700"}
{"lm loss": 2.24474883, "grad_norm": 0.53933644, "learning_rate": 9.911e-05, "elapsed_time_per_iteration": 4.89544535, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 11s", "remaining_time": "15h 27m 4s", "loss_scale": 1.0, "consumed_samples": 350976, "global_step/max_steps": "1371/12700"}
{"lm loss": 2.22408795, "grad_norm": 0.47283566, "learning_rate": 9.911e-05, "elapsed_time_per_iteration": 4.86068606, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 16s", "remaining_time": "15h 26m 59s", "loss_scale": 1.0, "consumed_samples": 351232, "global_step/max_steps": "1372/12700"}
{"lm loss": 2.24496579, "grad_norm": 0.54610866, "learning_rate": 9.911e-05, "elapsed_time_per_iteration": 4.83552051, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 21s", "remaining_time": "15h 26m 53s", "loss_scale": 1.0, "consumed_samples": 351488, "global_step/max_steps": "1373/12700"}
{"lm loss": 2.24740076, "grad_norm": 0.55506146, "learning_rate": 9.91e-05, "elapsed_time_per_iteration": 4.90844202, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 26s", "remaining_time": "15h 26m 48s", "loss_scale": 1.0, "consumed_samples": 351744, "global_step/max_steps": "1374/12700"}
{"lm loss": 2.24015856, "grad_norm": 0.50056511, "learning_rate": 9.91e-05, "elapsed_time_per_iteration": 4.86500263, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 31s", "remaining_time": "15h 26m 43s", "loss_scale": 1.0, "consumed_samples": 352000, "global_step/max_steps": "1375/12700"}
{"lm loss": 2.20900726, "grad_norm": 0.49204534, "learning_rate": 9.91e-05, "elapsed_time_per_iteration": 4.90802073, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 35s", "remaining_time": "15h 26m 38s", "loss_scale": 1.0, "consumed_samples": 352256, "global_step/max_steps": "1376/12700"}
{"lm loss": 2.24574566, "grad_norm": 0.50196719, "learning_rate": 9.91e-05, "elapsed_time_per_iteration": 4.79376554, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 40s", "remaining_time": "15h 26m 32s", "loss_scale": 1.0, "consumed_samples": 352512, "global_step/max_steps": "1377/12700"}
{"lm loss": 2.21929765, "grad_norm": 0.57211995, "learning_rate": 9.91e-05, "elapsed_time_per_iteration": 4.83937764, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 45s", "remaining_time": "15h 26m 27s", "loss_scale": 1.0, "consumed_samples": 352768, "global_step/max_steps": "1378/12700"}
{"lm loss": 2.22103953, "grad_norm": 0.46855015, "learning_rate": 9.909e-05, "elapsed_time_per_iteration": 4.83599043, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 50s", "remaining_time": "15h 26m 21s", "loss_scale": 1.0, "consumed_samples": 353024, "global_step/max_steps": "1379/12700"}
{"lm loss": 2.2339642, "grad_norm": 0.5346083, "learning_rate": 9.909e-05, "elapsed_time_per_iteration": 5.02180004, "memory(GiB)": 28.94, "elapsed_time": "1h 52m 55s", "remaining_time": "15h 26m 17s", "loss_scale": 1.0, "consumed_samples": 353280, "global_step/max_steps": "1380/12700"}
{"lm loss": 2.24395561, "grad_norm": 0.49957505, "learning_rate": 9.909e-05, "elapsed_time_per_iteration": 4.78921556, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 0s", "remaining_time": "15h 26m 12s", "loss_scale": 1.0, "consumed_samples": 353536, "global_step/max_steps": "1381/12700"}
{"lm loss": 2.23708749, "grad_norm": 0.51430029, "learning_rate": 9.909e-05, "elapsed_time_per_iteration": 4.84304309, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 5s", "remaining_time": "15h 26m 6s", "loss_scale": 1.0, "consumed_samples": 353792, "global_step/max_steps": "1382/12700"}
{"lm loss": 2.22055006, "grad_norm": 0.49220401, "learning_rate": 9.908e-05, "elapsed_time_per_iteration": 4.77892947, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 9s", "remaining_time": "15h 26m 0s", "loss_scale": 1.0, "consumed_samples": 354048, "global_step/max_steps": "1383/12700"}
{"lm loss": 2.25581336, "grad_norm": 0.47423998, "learning_rate": 9.908e-05, "elapsed_time_per_iteration": 4.7721765, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 14s", "remaining_time": "15h 25m 54s", "loss_scale": 1.0, "consumed_samples": 354304, "global_step/max_steps": "1384/12700"}
{"lm loss": 2.22623968, "grad_norm": 0.49966687, "learning_rate": 9.908e-05, "elapsed_time_per_iteration": 4.94245982, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 19s", "remaining_time": "15h 25m 49s", "loss_scale": 1.0, "consumed_samples": 354560, "global_step/max_steps": "1385/12700"}
{"lm loss": 2.22467446, "grad_norm": 0.51691055, "learning_rate": 9.908e-05, "elapsed_time_per_iteration": 4.76259375, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 24s", "remaining_time": "15h 25m 43s", "loss_scale": 1.0, "consumed_samples": 354816, "global_step/max_steps": "1386/12700"}
{"lm loss": 2.24827504, "grad_norm": 0.47876158, "learning_rate": 9.907e-05, "elapsed_time_per_iteration": 4.88158822, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 29s", "remaining_time": "15h 25m 38s", "loss_scale": 1.0, "consumed_samples": 355072, "global_step/max_steps": "1387/12700"}
{"lm loss": 2.21453428, "grad_norm": 0.4658519, "learning_rate": 9.907e-05, "elapsed_time_per_iteration": 5.82436705, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 34s", "remaining_time": "15h 25m 41s", "loss_scale": 1.0, "consumed_samples": 355328, "global_step/max_steps": "1388/12700"}
{"lm loss": 2.2246716, "grad_norm": 0.52613056, "learning_rate": 9.907e-05, "elapsed_time_per_iteration": 4.90963721, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 39s", "remaining_time": "15h 25m 36s", "loss_scale": 1.0, "consumed_samples": 355584, "global_step/max_steps": "1389/12700"}
{"lm loss": 2.24898744, "grad_norm": 0.51957017, "learning_rate": 9.907e-05, "elapsed_time_per_iteration": 4.99451804, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 44s", "remaining_time": "15h 25m 32s", "loss_scale": 1.0, "consumed_samples": 355840, "global_step/max_steps": "1390/12700"}
{"lm loss": 2.23406577, "grad_norm": 0.506706, "learning_rate": 9.906e-05, "elapsed_time_per_iteration": 4.98063445, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 49s", "remaining_time": "15h 25m 27s", "loss_scale": 1.0, "consumed_samples": 356096, "global_step/max_steps": "1391/12700"}
{"lm loss": 2.2327714, "grad_norm": 0.42747241, "learning_rate": 9.906e-05, "elapsed_time_per_iteration": 4.92818046, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 54s", "remaining_time": "15h 25m 22s", "loss_scale": 1.0, "consumed_samples": 356352, "global_step/max_steps": "1392/12700"}
{"lm loss": 2.21368933, "grad_norm": 0.48181036, "learning_rate": 9.906e-05, "elapsed_time_per_iteration": 4.82244205, "memory(GiB)": 28.94, "elapsed_time": "1h 53m 59s", "remaining_time": "15h 25m 17s", "loss_scale": 1.0, "consumed_samples": 356608, "global_step/max_steps": "1393/12700"}
{"lm loss": 2.24306488, "grad_norm": 0.48688039, "learning_rate": 9.906e-05, "elapsed_time_per_iteration": 4.90420842, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 4s", "remaining_time": "15h 25m 12s", "loss_scale": 1.0, "consumed_samples": 356864, "global_step/max_steps": "1394/12700"}
{"lm loss": 2.18684816, "grad_norm": 0.49421418, "learning_rate": 9.905e-05, "elapsed_time_per_iteration": 4.83577013, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 9s", "remaining_time": "15h 25m 6s", "loss_scale": 1.0, "consumed_samples": 357120, "global_step/max_steps": "1395/12700"}
{"lm loss": 2.2702136, "grad_norm": 0.50592595, "learning_rate": 9.905e-05, "elapsed_time_per_iteration": 4.95700359, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 14s", "remaining_time": "15h 25m 2s", "loss_scale": 1.0, "consumed_samples": 357376, "global_step/max_steps": "1396/12700"}
{"lm loss": 2.19716215, "grad_norm": 0.53660965, "learning_rate": 9.905e-05, "elapsed_time_per_iteration": 4.86835408, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 19s", "remaining_time": "15h 24m 57s", "loss_scale": 1.0, "consumed_samples": 357632, "global_step/max_steps": "1397/12700"}
{"lm loss": 2.2210722, "grad_norm": 0.52959305, "learning_rate": 9.905e-05, "elapsed_time_per_iteration": 4.8535378, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 24s", "remaining_time": "15h 24m 51s", "loss_scale": 1.0, "consumed_samples": 357888, "global_step/max_steps": "1398/12700"}
{"lm loss": 2.2351954, "grad_norm": 0.60213709, "learning_rate": 9.904e-05, "elapsed_time_per_iteration": 4.78565359, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 28s", "remaining_time": "15h 24m 45s", "loss_scale": 1.0, "consumed_samples": 358144, "global_step/max_steps": "1399/12700"}
{"lm loss": 2.25421786, "grad_norm": 0.63903123, "learning_rate": 9.904e-05, "elapsed_time_per_iteration": 4.82502532, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 33s", "remaining_time": "15h 24m 40s", "loss_scale": 1.0, "consumed_samples": 358400, "global_step/max_steps": "1400/12700"}
{"lm loss": 2.21724987, "grad_norm": 0.54106456, "learning_rate": 9.904e-05, "elapsed_time_per_iteration": 4.81331229, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 38s", "remaining_time": "15h 24m 34s", "loss_scale": 1.0, "consumed_samples": 358656, "global_step/max_steps": "1401/12700"}
{"lm loss": 2.22934318, "grad_norm": 0.53035027, "learning_rate": 9.904e-05, "elapsed_time_per_iteration": 5.02283096, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 43s", "remaining_time": "15h 24m 30s", "loss_scale": 1.0, "consumed_samples": 358912, "global_step/max_steps": "1402/12700"}
{"lm loss": 2.2328074, "grad_norm": 0.51626837, "learning_rate": 9.903e-05, "elapsed_time_per_iteration": 4.86451459, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 48s", "remaining_time": "15h 24m 25s", "loss_scale": 1.0, "consumed_samples": 359168, "global_step/max_steps": "1403/12700"}
{"lm loss": 2.18966365, "grad_norm": 0.54248703, "learning_rate": 9.903e-05, "elapsed_time_per_iteration": 5.05613708, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 53s", "remaining_time": "15h 24m 21s", "loss_scale": 1.0, "consumed_samples": 359424, "global_step/max_steps": "1404/12700"}
{"lm loss": 2.19923472, "grad_norm": 0.54465097, "learning_rate": 9.903e-05, "elapsed_time_per_iteration": 4.82138419, "memory(GiB)": 28.94, "elapsed_time": "1h 54m 58s", "remaining_time": "15h 24m 15s", "loss_scale": 1.0, "consumed_samples": 359680, "global_step/max_steps": "1405/12700"}
{"lm loss": 2.24618196, "grad_norm": 0.5429883, "learning_rate": 9.903e-05, "elapsed_time_per_iteration": 4.83339548, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 3s", "remaining_time": "15h 24m 10s", "loss_scale": 1.0, "consumed_samples": 359936, "global_step/max_steps": "1406/12700"}
{"lm loss": 2.23042321, "grad_norm": 0.53723955, "learning_rate": 9.902e-05, "elapsed_time_per_iteration": 4.83259153, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 7s", "remaining_time": "15h 24m 4s", "loss_scale": 1.0, "consumed_samples": 360192, "global_step/max_steps": "1407/12700"}
{"lm loss": 2.2178061, "grad_norm": 0.57361156, "learning_rate": 9.902e-05, "elapsed_time_per_iteration": 4.79726171, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 12s", "remaining_time": "15h 23m 59s", "loss_scale": 1.0, "consumed_samples": 360448, "global_step/max_steps": "1408/12700"}
{"lm loss": 2.2286377, "grad_norm": 0.53074127, "learning_rate": 9.902e-05, "elapsed_time_per_iteration": 4.8831718, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 17s", "remaining_time": "15h 23m 53s", "loss_scale": 1.0, "consumed_samples": 360704, "global_step/max_steps": "1409/12700"}
{"lm loss": 2.24990535, "grad_norm": 0.61917526, "learning_rate": 9.902e-05, "elapsed_time_per_iteration": 4.86735868, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 22s", "remaining_time": "15h 23m 48s", "loss_scale": 1.0, "consumed_samples": 360960, "global_step/max_steps": "1410/12700"}
{"lm loss": 2.23171902, "grad_norm": 0.52664989, "learning_rate": 9.901e-05, "elapsed_time_per_iteration": 4.88473654, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 27s", "remaining_time": "15h 23m 43s", "loss_scale": 1.0, "consumed_samples": 361216, "global_step/max_steps": "1411/12700"}
{"lm loss": 2.2308538, "grad_norm": 0.58316708, "learning_rate": 9.901e-05, "elapsed_time_per_iteration": 4.78073239, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 32s", "remaining_time": "15h 23m 37s", "loss_scale": 1.0, "consumed_samples": 361472, "global_step/max_steps": "1412/12700"}
{"lm loss": 2.24777341, "grad_norm": 0.51509291, "learning_rate": 9.901e-05, "elapsed_time_per_iteration": 4.85589051, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 36s", "remaining_time": "15h 23m 32s", "loss_scale": 1.0, "consumed_samples": 361728, "global_step/max_steps": "1413/12700"}
{"lm loss": 2.20650673, "grad_norm": 0.51917332, "learning_rate": 9.901e-05, "elapsed_time_per_iteration": 4.94793248, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 41s", "remaining_time": "15h 23m 27s", "loss_scale": 1.0, "consumed_samples": 361984, "global_step/max_steps": "1414/12700"}
{"lm loss": 2.20732832, "grad_norm": 0.47391939, "learning_rate": 9.9e-05, "elapsed_time_per_iteration": 4.91504264, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 46s", "remaining_time": "15h 23m 22s", "loss_scale": 1.0, "consumed_samples": 362240, "global_step/max_steps": "1415/12700"}
{"lm loss": 2.22626877, "grad_norm": 0.47717524, "learning_rate": 9.9e-05, "elapsed_time_per_iteration": 4.79943919, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 51s", "remaining_time": "15h 23m 17s", "loss_scale": 1.0, "consumed_samples": 362496, "global_step/max_steps": "1416/12700"}
{"lm loss": 2.22576833, "grad_norm": 0.49051738, "learning_rate": 9.9e-05, "elapsed_time_per_iteration": 4.78276157, "memory(GiB)": 28.94, "elapsed_time": "1h 55m 56s", "remaining_time": "15h 23m 11s", "loss_scale": 1.0, "consumed_samples": 362752, "global_step/max_steps": "1417/12700"}
{"lm loss": 2.220927, "grad_norm": 0.47204232, "learning_rate": 9.9e-05, "elapsed_time_per_iteration": 4.80982876, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 1s", "remaining_time": "15h 23m 5s", "loss_scale": 1.0, "consumed_samples": 363008, "global_step/max_steps": "1418/12700"}
{"lm loss": 2.26689982, "grad_norm": 0.42927289, "learning_rate": 9.899e-05, "elapsed_time_per_iteration": 4.85223126, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 6s", "remaining_time": "15h 23m 0s", "loss_scale": 1.0, "consumed_samples": 363264, "global_step/max_steps": "1419/12700"}
{"lm loss": 2.23540926, "grad_norm": 0.48947647, "learning_rate": 9.899e-05, "elapsed_time_per_iteration": 4.97451901, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 11s", "remaining_time": "15h 22m 55s", "loss_scale": 1.0, "consumed_samples": 363520, "global_step/max_steps": "1420/12700"}
{"lm loss": 2.21911573, "grad_norm": 0.44815907, "learning_rate": 9.899e-05, "elapsed_time_per_iteration": 4.92750978, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 15s", "remaining_time": "15h 22m 50s", "loss_scale": 1.0, "consumed_samples": 363776, "global_step/max_steps": "1421/12700"}
{"lm loss": 2.24300885, "grad_norm": 0.47235036, "learning_rate": 9.899e-05, "elapsed_time_per_iteration": 4.72542357, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 20s", "remaining_time": "15h 22m 44s", "loss_scale": 1.0, "consumed_samples": 364032, "global_step/max_steps": "1422/12700"}
{"lm loss": 2.22644973, "grad_norm": 0.49518958, "learning_rate": 9.898e-05, "elapsed_time_per_iteration": 4.84899139, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 25s", "remaining_time": "15h 22m 39s", "loss_scale": 1.0, "consumed_samples": 364288, "global_step/max_steps": "1423/12700"}
{"lm loss": 2.2198019, "grad_norm": 0.50391531, "learning_rate": 9.898e-05, "elapsed_time_per_iteration": 4.80492616, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 30s", "remaining_time": "15h 22m 33s", "loss_scale": 1.0, "consumed_samples": 364544, "global_step/max_steps": "1424/12700"}
{"lm loss": 2.18655777, "grad_norm": 0.43666825, "learning_rate": 9.898e-05, "elapsed_time_per_iteration": 4.79046035, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 35s", "remaining_time": "15h 22m 27s", "loss_scale": 1.0, "consumed_samples": 364800, "global_step/max_steps": "1425/12700"}
{"lm loss": 2.24242425, "grad_norm": 0.50408387, "learning_rate": 9.897e-05, "elapsed_time_per_iteration": 4.87975621, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 40s", "remaining_time": "15h 22m 22s", "loss_scale": 1.0, "consumed_samples": 365056, "global_step/max_steps": "1426/12700"}
{"lm loss": 2.2178545, "grad_norm": 0.46844426, "learning_rate": 9.897e-05, "elapsed_time_per_iteration": 4.90804744, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 44s", "remaining_time": "15h 22m 17s", "loss_scale": 1.0, "consumed_samples": 365312, "global_step/max_steps": "1427/12700"}
{"lm loss": 2.21815658, "grad_norm": 0.49353448, "learning_rate": 9.897e-05, "elapsed_time_per_iteration": 4.96600509, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 49s", "remaining_time": "15h 22m 13s", "loss_scale": 1.0, "consumed_samples": 365568, "global_step/max_steps": "1428/12700"}
{"lm loss": 2.24491382, "grad_norm": 0.46430394, "learning_rate": 9.897e-05, "elapsed_time_per_iteration": 4.85339618, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 54s", "remaining_time": "15h 22m 7s", "loss_scale": 1.0, "consumed_samples": 365824, "global_step/max_steps": "1429/12700"}
{"lm loss": 2.24436498, "grad_norm": 0.47416139, "learning_rate": 9.896e-05, "elapsed_time_per_iteration": 4.88301969, "memory(GiB)": 28.94, "elapsed_time": "1h 56m 59s", "remaining_time": "15h 22m 2s", "loss_scale": 1.0, "consumed_samples": 366080, "global_step/max_steps": "1430/12700"}
{"lm loss": 2.19999218, "grad_norm": 0.43198326, "learning_rate": 9.896e-05, "elapsed_time_per_iteration": 4.87790227, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 4s", "remaining_time": "15h 21m 57s", "loss_scale": 1.0, "consumed_samples": 366336, "global_step/max_steps": "1431/12700"}
{"lm loss": 2.20529318, "grad_norm": 0.44966406, "learning_rate": 9.896e-05, "elapsed_time_per_iteration": 4.86830354, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 9s", "remaining_time": "15h 21m 52s", "loss_scale": 1.0, "consumed_samples": 366592, "global_step/max_steps": "1432/12700"}
{"lm loss": 2.22901726, "grad_norm": 0.47533953, "learning_rate": 9.896e-05, "elapsed_time_per_iteration": 4.85531259, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 14s", "remaining_time": "15h 21m 46s", "loss_scale": 1.0, "consumed_samples": 366848, "global_step/max_steps": "1433/12700"}
{"lm loss": 2.23754478, "grad_norm": 0.46473673, "learning_rate": 9.895e-05, "elapsed_time_per_iteration": 4.83328319, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 19s", "remaining_time": "15h 21m 41s", "loss_scale": 1.0, "consumed_samples": 367104, "global_step/max_steps": "1434/12700"}
{"lm loss": 2.20475078, "grad_norm": 0.44546634, "learning_rate": 9.895e-05, "elapsed_time_per_iteration": 4.81381273, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 23s", "remaining_time": "15h 21m 35s", "loss_scale": 1.0, "consumed_samples": 367360, "global_step/max_steps": "1435/12700"}
{"lm loss": 2.21630764, "grad_norm": 0.4720476, "learning_rate": 9.895e-05, "elapsed_time_per_iteration": 4.95386505, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 28s", "remaining_time": "15h 21m 31s", "loss_scale": 1.0, "consumed_samples": 367616, "global_step/max_steps": "1436/12700"}
{"lm loss": 2.20041776, "grad_norm": 0.46085259, "learning_rate": 9.895e-05, "elapsed_time_per_iteration": 4.87440443, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 33s", "remaining_time": "15h 21m 26s", "loss_scale": 1.0, "consumed_samples": 367872, "global_step/max_steps": "1437/12700"}
{"lm loss": 2.21330237, "grad_norm": 0.45272359, "learning_rate": 9.894e-05, "elapsed_time_per_iteration": 4.90537381, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 38s", "remaining_time": "15h 21m 21s", "loss_scale": 1.0, "consumed_samples": 368128, "global_step/max_steps": "1438/12700"}
{"lm loss": 2.21519017, "grad_norm": 0.45024499, "learning_rate": 9.894e-05, "elapsed_time_per_iteration": 4.87930894, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 43s", "remaining_time": "15h 21m 15s", "loss_scale": 1.0, "consumed_samples": 368384, "global_step/max_steps": "1439/12700"}
{"lm loss": 2.22703671, "grad_norm": 0.464982, "learning_rate": 9.894e-05, "elapsed_time_per_iteration": 4.94638062, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 48s", "remaining_time": "15h 21m 11s", "loss_scale": 1.0, "consumed_samples": 368640, "global_step/max_steps": "1440/12700"}
{"lm loss": 2.21411681, "grad_norm": 0.46099922, "learning_rate": 9.894e-05, "elapsed_time_per_iteration": 4.86982799, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 53s", "remaining_time": "15h 21m 6s", "loss_scale": 1.0, "consumed_samples": 368896, "global_step/max_steps": "1441/12700"}
{"lm loss": 2.21575165, "grad_norm": 0.46668097, "learning_rate": 9.893e-05, "elapsed_time_per_iteration": 4.85943151, "memory(GiB)": 28.94, "elapsed_time": "1h 57m 58s", "remaining_time": "15h 21m 0s", "loss_scale": 1.0, "consumed_samples": 369152, "global_step/max_steps": "1442/12700"}
{"lm loss": 2.20768571, "grad_norm": 0.4858163, "learning_rate": 9.893e-05, "elapsed_time_per_iteration": 4.92215014, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 3s", "remaining_time": "15h 20m 56s", "loss_scale": 1.0, "consumed_samples": 369408, "global_step/max_steps": "1443/12700"}
{"lm loss": 2.22939205, "grad_norm": 0.56488127, "learning_rate": 9.893e-05, "elapsed_time_per_iteration": 4.88933587, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 7s", "remaining_time": "15h 20m 50s", "loss_scale": 1.0, "consumed_samples": 369664, "global_step/max_steps": "1444/12700"}
{"lm loss": 2.20178127, "grad_norm": 0.57693702, "learning_rate": 9.893e-05, "elapsed_time_per_iteration": 4.86755085, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 12s", "remaining_time": "15h 20m 45s", "loss_scale": 1.0, "consumed_samples": 369920, "global_step/max_steps": "1445/12700"}
{"lm loss": 2.20990705, "grad_norm": 0.49499127, "learning_rate": 9.892e-05, "elapsed_time_per_iteration": 4.93769813, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 17s", "remaining_time": "15h 20m 41s", "loss_scale": 1.0, "consumed_samples": 370176, "global_step/max_steps": "1446/12700"}
{"lm loss": 2.24839592, "grad_norm": 0.47291848, "learning_rate": 9.892e-05, "elapsed_time_per_iteration": 4.83207369, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 22s", "remaining_time": "15h 20m 35s", "loss_scale": 1.0, "consumed_samples": 370432, "global_step/max_steps": "1447/12700"}
{"lm loss": 2.21344876, "grad_norm": 0.47474852, "learning_rate": 9.892e-05, "elapsed_time_per_iteration": 4.89225483, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 27s", "remaining_time": "15h 20m 30s", "loss_scale": 1.0, "consumed_samples": 370688, "global_step/max_steps": "1448/12700"}
{"lm loss": 2.19123149, "grad_norm": 0.57950157, "learning_rate": 9.891e-05, "elapsed_time_per_iteration": 4.91402721, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 32s", "remaining_time": "15h 20m 25s", "loss_scale": 1.0, "consumed_samples": 370944, "global_step/max_steps": "1449/12700"}
{"lm loss": 2.19295788, "grad_norm": 0.55274421, "learning_rate": 9.891e-05, "elapsed_time_per_iteration": 4.80050802, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 37s", "remaining_time": "15h 20m 19s", "loss_scale": 1.0, "consumed_samples": 371200, "global_step/max_steps": "1450/12700"}
{"lm loss": 2.22060657, "grad_norm": 0.51963729, "learning_rate": 9.891e-05, "elapsed_time_per_iteration": 4.8537643, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 42s", "remaining_time": "15h 20m 14s", "loss_scale": 1.0, "consumed_samples": 371456, "global_step/max_steps": "1451/12700"}
{"lm loss": 2.23577738, "grad_norm": 0.44662267, "learning_rate": 9.891e-05, "elapsed_time_per_iteration": 4.8413434, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 46s", "remaining_time": "15h 20m 9s", "loss_scale": 1.0, "consumed_samples": 371712, "global_step/max_steps": "1452/12700"}
{"lm loss": 2.21025372, "grad_norm": 0.51570177, "learning_rate": 9.89e-05, "elapsed_time_per_iteration": 5.05275559, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 51s", "remaining_time": "15h 20m 5s", "loss_scale": 1.0, "consumed_samples": 371968, "global_step/max_steps": "1453/12700"}
{"lm loss": 2.23825455, "grad_norm": 0.50597358, "learning_rate": 9.89e-05, "elapsed_time_per_iteration": 4.98805475, "memory(GiB)": 28.94, "elapsed_time": "1h 58m 56s", "remaining_time": "15h 20m 1s", "loss_scale": 1.0, "consumed_samples": 372224, "global_step/max_steps": "1454/12700"}
{"lm loss": 2.22399783, "grad_norm": 0.52286953, "learning_rate": 9.89e-05, "elapsed_time_per_iteration": 4.81515789, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 1s", "remaining_time": "15h 19m 55s", "loss_scale": 1.0, "consumed_samples": 372480, "global_step/max_steps": "1455/12700"}
{"lm loss": 2.22732067, "grad_norm": 0.52301633, "learning_rate": 9.89e-05, "elapsed_time_per_iteration": 4.86178184, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 6s", "remaining_time": "15h 19m 50s", "loss_scale": 1.0, "consumed_samples": 372736, "global_step/max_steps": "1456/12700"}
{"lm loss": 2.25393605, "grad_norm": 0.58989829, "learning_rate": 9.889e-05, "elapsed_time_per_iteration": 4.92777443, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 11s", "remaining_time": "15h 19m 45s", "loss_scale": 1.0, "consumed_samples": 372992, "global_step/max_steps": "1457/12700"}
{"lm loss": 2.2115078, "grad_norm": 0.49306944, "learning_rate": 9.889e-05, "elapsed_time_per_iteration": 4.89378977, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 16s", "remaining_time": "15h 19m 40s", "loss_scale": 1.0, "consumed_samples": 373248, "global_step/max_steps": "1458/12700"}
{"lm loss": 2.20191693, "grad_norm": 0.52015114, "learning_rate": 9.889e-05, "elapsed_time_per_iteration": 4.83512974, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 21s", "remaining_time": "15h 19m 34s", "loss_scale": 1.0, "consumed_samples": 373504, "global_step/max_steps": "1459/12700"}
{"lm loss": 2.21140575, "grad_norm": 0.54977334, "learning_rate": 9.889e-05, "elapsed_time_per_iteration": 4.8925941, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 26s", "remaining_time": "15h 19m 29s", "loss_scale": 1.0, "consumed_samples": 373760, "global_step/max_steps": "1460/12700"}
{"lm loss": 2.26950455, "grad_norm": 0.49072781, "learning_rate": 9.888e-05, "elapsed_time_per_iteration": 4.91690111, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 31s", "remaining_time": "15h 19m 25s", "loss_scale": 1.0, "consumed_samples": 374016, "global_step/max_steps": "1461/12700"}
{"lm loss": 2.2468133, "grad_norm": 0.44555908, "learning_rate": 9.888e-05, "elapsed_time_per_iteration": 4.87052393, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 35s", "remaining_time": "15h 19m 19s", "loss_scale": 1.0, "consumed_samples": 374272, "global_step/max_steps": "1462/12700"}
{"lm loss": 2.24464965, "grad_norm": 0.59009236, "learning_rate": 9.888e-05, "elapsed_time_per_iteration": 4.86357927, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 40s", "remaining_time": "15h 19m 14s", "loss_scale": 1.0, "consumed_samples": 374528, "global_step/max_steps": "1463/12700"}
{"lm loss": 2.22734213, "grad_norm": 0.53889179, "learning_rate": 9.887e-05, "elapsed_time_per_iteration": 4.92654562, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 45s", "remaining_time": "15h 19m 9s", "loss_scale": 1.0, "consumed_samples": 374784, "global_step/max_steps": "1464/12700"}
{"lm loss": 2.25212765, "grad_norm": 0.4845286, "learning_rate": 9.887e-05, "elapsed_time_per_iteration": 4.85792017, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 50s", "remaining_time": "15h 19m 4s", "loss_scale": 1.0, "consumed_samples": 375040, "global_step/max_steps": "1465/12700"}
{"lm loss": 2.230335, "grad_norm": 0.4784205, "learning_rate": 9.887e-05, "elapsed_time_per_iteration": 4.81069303, "memory(GiB)": 28.94, "elapsed_time": "1h 59m 55s", "remaining_time": "15h 18m 58s", "loss_scale": 1.0, "consumed_samples": 375296, "global_step/max_steps": "1466/12700"}
{"lm loss": 2.23596692, "grad_norm": 0.47847217, "learning_rate": 9.887e-05, "elapsed_time_per_iteration": 4.87863231, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 0s", "remaining_time": "15h 18m 53s", "loss_scale": 1.0, "consumed_samples": 375552, "global_step/max_steps": "1467/12700"}
{"lm loss": 2.22435999, "grad_norm": 0.49357811, "learning_rate": 9.886e-05, "elapsed_time_per_iteration": 4.82847285, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 5s", "remaining_time": "15h 18m 48s", "loss_scale": 1.0, "consumed_samples": 375808, "global_step/max_steps": "1468/12700"}
{"lm loss": 2.23495197, "grad_norm": 0.42473972, "learning_rate": 9.886e-05, "elapsed_time_per_iteration": 4.83222723, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 9s", "remaining_time": "15h 18m 42s", "loss_scale": 1.0, "consumed_samples": 376064, "global_step/max_steps": "1469/12700"}
{"lm loss": 2.21524906, "grad_norm": 0.46537781, "learning_rate": 9.886e-05, "elapsed_time_per_iteration": 4.85322523, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 14s", "remaining_time": "15h 18m 37s", "loss_scale": 1.0, "consumed_samples": 376320, "global_step/max_steps": "1470/12700"}
{"lm loss": 2.2209003, "grad_norm": 0.48197389, "learning_rate": 9.886e-05, "elapsed_time_per_iteration": 4.85050058, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 19s", "remaining_time": "15h 18m 32s", "loss_scale": 1.0, "consumed_samples": 376576, "global_step/max_steps": "1471/12700"}
{"lm loss": 2.22251368, "grad_norm": 0.44678232, "learning_rate": 9.885e-05, "elapsed_time_per_iteration": 4.98708677, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 24s", "remaining_time": "15h 18m 27s", "loss_scale": 1.0, "consumed_samples": 376832, "global_step/max_steps": "1472/12700"}
{"lm loss": 2.22390032, "grad_norm": 0.47452784, "learning_rate": 9.885e-05, "elapsed_time_per_iteration": 4.83919621, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 29s", "remaining_time": "15h 18m 22s", "loss_scale": 1.0, "consumed_samples": 377088, "global_step/max_steps": "1473/12700"}
{"lm loss": 2.24206161, "grad_norm": 0.47323793, "learning_rate": 9.885e-05, "elapsed_time_per_iteration": 4.84206367, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 34s", "remaining_time": "15h 18m 16s", "loss_scale": 1.0, "consumed_samples": 377344, "global_step/max_steps": "1474/12700"}
{"lm loss": 2.23300219, "grad_norm": 0.44901651, "learning_rate": 9.884e-05, "elapsed_time_per_iteration": 4.80599904, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 39s", "remaining_time": "15h 18m 11s", "loss_scale": 1.0, "consumed_samples": 377600, "global_step/max_steps": "1475/12700"}
{"lm loss": 2.19914842, "grad_norm": 0.44512028, "learning_rate": 9.884e-05, "elapsed_time_per_iteration": 4.96120501, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 44s", "remaining_time": "15h 18m 6s", "loss_scale": 1.0, "consumed_samples": 377856, "global_step/max_steps": "1476/12700"}
{"lm loss": 2.2275846, "grad_norm": 0.49245179, "learning_rate": 9.884e-05, "elapsed_time_per_iteration": 5.90046644, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 50s", "remaining_time": "15h 18m 9s", "loss_scale": 1.0, "consumed_samples": 378112, "global_step/max_steps": "1477/12700"}
{"lm loss": 2.21592999, "grad_norm": 0.47203198, "learning_rate": 9.884e-05, "elapsed_time_per_iteration": 4.89503765, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 54s", "remaining_time": "15h 18m 4s", "loss_scale": 1.0, "consumed_samples": 378368, "global_step/max_steps": "1478/12700"}
{"lm loss": 2.22931051, "grad_norm": 0.49079111, "learning_rate": 9.883e-05, "elapsed_time_per_iteration": 4.85499835, "memory(GiB)": 28.94, "elapsed_time": "2h 0m 59s", "remaining_time": "15h 17m 59s", "loss_scale": 1.0, "consumed_samples": 378624, "global_step/max_steps": "1479/12700"}
{"lm loss": 2.24457121, "grad_norm": 0.48727584, "learning_rate": 9.883e-05, "elapsed_time_per_iteration": 4.86910534, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 4s", "remaining_time": "15h 17m 53s", "loss_scale": 1.0, "consumed_samples": 378880, "global_step/max_steps": "1480/12700"}
{"lm loss": 2.23257375, "grad_norm": 0.4778178, "learning_rate": 9.883e-05, "elapsed_time_per_iteration": 4.81975532, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 9s", "remaining_time": "15h 17m 48s", "loss_scale": 1.0, "consumed_samples": 379136, "global_step/max_steps": "1481/12700"}
{"lm loss": 2.21094871, "grad_norm": 0.47352391, "learning_rate": 9.883e-05, "elapsed_time_per_iteration": 4.89128709, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 14s", "remaining_time": "15h 17m 43s", "loss_scale": 1.0, "consumed_samples": 379392, "global_step/max_steps": "1482/12700"}
{"lm loss": 2.2082026, "grad_norm": 0.45741048, "learning_rate": 9.882e-05, "elapsed_time_per_iteration": 4.89789486, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 19s", "remaining_time": "15h 17m 38s", "loss_scale": 1.0, "consumed_samples": 379648, "global_step/max_steps": "1483/12700"}
{"lm loss": 2.22958541, "grad_norm": 0.46185493, "learning_rate": 9.882e-05, "elapsed_time_per_iteration": 4.87560701, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 24s", "remaining_time": "15h 17m 33s", "loss_scale": 1.0, "consumed_samples": 379904, "global_step/max_steps": "1484/12700"}
{"lm loss": 2.21896935, "grad_norm": 0.509763, "learning_rate": 9.882e-05, "elapsed_time_per_iteration": 4.89918852, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 29s", "remaining_time": "15h 17m 28s", "loss_scale": 1.0, "consumed_samples": 380160, "global_step/max_steps": "1485/12700"}
{"lm loss": 2.19503736, "grad_norm": 0.56173003, "learning_rate": 9.881e-05, "elapsed_time_per_iteration": 4.83789659, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 33s", "remaining_time": "15h 17m 22s", "loss_scale": 1.0, "consumed_samples": 380416, "global_step/max_steps": "1486/12700"}
{"lm loss": 2.21889877, "grad_norm": 0.49352634, "learning_rate": 9.881e-05, "elapsed_time_per_iteration": 4.80950332, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 38s", "remaining_time": "15h 17m 16s", "loss_scale": 1.0, "consumed_samples": 380672, "global_step/max_steps": "1487/12700"}
{"lm loss": 2.23116279, "grad_norm": 0.49680436, "learning_rate": 9.881e-05, "elapsed_time_per_iteration": 4.75817752, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 43s", "remaining_time": "15h 17m 10s", "loss_scale": 1.0, "consumed_samples": 380928, "global_step/max_steps": "1488/12700"}
{"lm loss": 2.19114518, "grad_norm": 0.51590896, "learning_rate": 9.881e-05, "elapsed_time_per_iteration": 4.82888699, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 48s", "remaining_time": "15h 17m 5s", "loss_scale": 1.0, "consumed_samples": 381184, "global_step/max_steps": "1489/12700"}
{"lm loss": 2.2291677, "grad_norm": 0.49609965, "learning_rate": 9.88e-05, "elapsed_time_per_iteration": 4.83695436, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 53s", "remaining_time": "15h 17m 0s", "loss_scale": 1.0, "consumed_samples": 381440, "global_step/max_steps": "1490/12700"}
{"lm loss": 2.21828222, "grad_norm": 0.4956823, "learning_rate": 9.88e-05, "elapsed_time_per_iteration": 4.81604958, "memory(GiB)": 28.94, "elapsed_time": "2h 1m 57s", "remaining_time": "15h 16m 54s", "loss_scale": 1.0, "consumed_samples": 381696, "global_step/max_steps": "1491/12700"}
{"lm loss": 2.2382834, "grad_norm": 0.49186862, "learning_rate": 9.88e-05, "elapsed_time_per_iteration": 4.8234098, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 2s", "remaining_time": "15h 16m 48s", "loss_scale": 1.0, "consumed_samples": 381952, "global_step/max_steps": "1492/12700"}
{"lm loss": 2.20515418, "grad_norm": 0.44900256, "learning_rate": 9.879e-05, "elapsed_time_per_iteration": 4.80005288, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 7s", "remaining_time": "15h 16m 43s", "loss_scale": 1.0, "consumed_samples": 382208, "global_step/max_steps": "1493/12700"}
{"lm loss": 2.22318363, "grad_norm": 0.52047145, "learning_rate": 9.879e-05, "elapsed_time_per_iteration": 4.91397142, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 12s", "remaining_time": "15h 16m 38s", "loss_scale": 1.0, "consumed_samples": 382464, "global_step/max_steps": "1494/12700"}
{"lm loss": 2.24198008, "grad_norm": 0.51581746, "learning_rate": 9.879e-05, "elapsed_time_per_iteration": 4.77386117, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 17s", "remaining_time": "15h 16m 32s", "loss_scale": 1.0, "consumed_samples": 382720, "global_step/max_steps": "1495/12700"}
{"lm loss": 2.2203474, "grad_norm": 0.47107962, "learning_rate": 9.879e-05, "elapsed_time_per_iteration": 4.81515837, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 22s", "remaining_time": "15h 16m 26s", "loss_scale": 1.0, "consumed_samples": 382976, "global_step/max_steps": "1496/12700"}
{"lm loss": 2.25265908, "grad_norm": 0.51761585, "learning_rate": 9.878e-05, "elapsed_time_per_iteration": 4.85602641, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 26s", "remaining_time": "15h 16m 21s", "loss_scale": 1.0, "consumed_samples": 383232, "global_step/max_steps": "1497/12700"}
{"lm loss": 2.22637653, "grad_norm": 0.59224999, "learning_rate": 9.878e-05, "elapsed_time_per_iteration": 4.82384348, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 31s", "remaining_time": "15h 16m 15s", "loss_scale": 1.0, "consumed_samples": 383488, "global_step/max_steps": "1498/12700"}
{"lm loss": 2.21064329, "grad_norm": 0.49684128, "learning_rate": 9.878e-05, "elapsed_time_per_iteration": 4.86976624, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 36s", "remaining_time": "15h 16m 10s", "loss_scale": 1.0, "consumed_samples": 383744, "global_step/max_steps": "1499/12700"}
{"lm loss": 2.22326088, "grad_norm": 0.49512073, "learning_rate": 9.877e-05, "elapsed_time_per_iteration": 4.86781001, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 41s", "remaining_time": "15h 16m 5s", "loss_scale": 1.0, "consumed_samples": 384000, "global_step/max_steps": "1500/12700"}
{"lm loss": 2.22703695, "grad_norm": 0.54491735, "learning_rate": 9.877e-05, "elapsed_time_per_iteration": 4.86003399, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 46s", "remaining_time": "15h 16m 0s", "loss_scale": 1.0, "consumed_samples": 384256, "global_step/max_steps": "1501/12700"}
{"lm loss": 2.21873164, "grad_norm": 0.52553564, "learning_rate": 9.877e-05, "elapsed_time_per_iteration": 4.88627791, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 51s", "remaining_time": "15h 15m 55s", "loss_scale": 1.0, "consumed_samples": 384512, "global_step/max_steps": "1502/12700"}
{"lm loss": 2.23101711, "grad_norm": 0.47924545, "learning_rate": 9.877e-05, "elapsed_time_per_iteration": 4.97203183, "memory(GiB)": 28.94, "elapsed_time": "2h 2m 56s", "remaining_time": "15h 15m 50s", "loss_scale": 1.0, "consumed_samples": 384768, "global_step/max_steps": "1503/12700"}
{"lm loss": 2.20236349, "grad_norm": 0.50159925, "learning_rate": 9.876e-05, "elapsed_time_per_iteration": 4.91541672, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 1s", "remaining_time": "15h 15m 45s", "loss_scale": 1.0, "consumed_samples": 385024, "global_step/max_steps": "1504/12700"}
{"lm loss": 2.19872832, "grad_norm": 0.49415317, "learning_rate": 9.876e-05, "elapsed_time_per_iteration": 4.85827541, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 5s", "remaining_time": "15h 15m 40s", "loss_scale": 1.0, "consumed_samples": 385280, "global_step/max_steps": "1505/12700"}
{"lm loss": 2.22418046, "grad_norm": 0.51911503, "learning_rate": 9.876e-05, "elapsed_time_per_iteration": 4.73508859, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 10s", "remaining_time": "15h 15m 34s", "loss_scale": 1.0, "consumed_samples": 385536, "global_step/max_steps": "1506/12700"}
{"lm loss": 2.22023082, "grad_norm": 0.50127208, "learning_rate": 9.876e-05, "elapsed_time_per_iteration": 4.94664788, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 15s", "remaining_time": "15h 15m 29s", "loss_scale": 1.0, "consumed_samples": 385792, "global_step/max_steps": "1507/12700"}
{"lm loss": 2.23267031, "grad_norm": 0.47829682, "learning_rate": 9.875e-05, "elapsed_time_per_iteration": 4.81081557, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 20s", "remaining_time": "15h 15m 24s", "loss_scale": 1.0, "consumed_samples": 386048, "global_step/max_steps": "1508/12700"}
{"lm loss": 2.22525954, "grad_norm": 0.49963486, "learning_rate": 9.875e-05, "elapsed_time_per_iteration": 4.82606483, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 25s", "remaining_time": "15h 15m 18s", "loss_scale": 1.0, "consumed_samples": 386304, "global_step/max_steps": "1509/12700"}
{"lm loss": 2.22102451, "grad_norm": 0.47829652, "learning_rate": 9.875e-05, "elapsed_time_per_iteration": 4.85476756, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 30s", "remaining_time": "15h 15m 13s", "loss_scale": 1.0, "consumed_samples": 386560, "global_step/max_steps": "1510/12700"}
{"lm loss": 2.19727397, "grad_norm": 0.46406251, "learning_rate": 9.874e-05, "elapsed_time_per_iteration": 4.84541678, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 34s", "remaining_time": "15h 15m 8s", "loss_scale": 1.0, "consumed_samples": 386816, "global_step/max_steps": "1511/12700"}
{"lm loss": 2.2285018, "grad_norm": 0.57277077, "learning_rate": 9.874e-05, "elapsed_time_per_iteration": 4.90793633, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 39s", "remaining_time": "15h 15m 3s", "loss_scale": 1.0, "consumed_samples": 387072, "global_step/max_steps": "1512/12700"}
{"lm loss": 2.23773146, "grad_norm": 0.44480032, "learning_rate": 9.874e-05, "elapsed_time_per_iteration": 4.88496637, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 44s", "remaining_time": "15h 14m 58s", "loss_scale": 1.0, "consumed_samples": 387328, "global_step/max_steps": "1513/12700"}
{"lm loss": 2.23165393, "grad_norm": 0.51631826, "learning_rate": 9.874e-05, "elapsed_time_per_iteration": 4.93469119, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 49s", "remaining_time": "15h 14m 53s", "loss_scale": 1.0, "consumed_samples": 387584, "global_step/max_steps": "1514/12700"}
{"lm loss": 2.22407126, "grad_norm": 0.57018358, "learning_rate": 9.873e-05, "elapsed_time_per_iteration": 4.88710022, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 54s", "remaining_time": "15h 14m 48s", "loss_scale": 1.0, "consumed_samples": 387840, "global_step/max_steps": "1515/12700"}
{"lm loss": 2.19296765, "grad_norm": 0.51736504, "learning_rate": 9.873e-05, "elapsed_time_per_iteration": 4.85059285, "memory(GiB)": 28.94, "elapsed_time": "2h 3m 59s", "remaining_time": "15h 14m 42s", "loss_scale": 1.0, "consumed_samples": 388096, "global_step/max_steps": "1516/12700"}
{"lm loss": 2.23277831, "grad_norm": 0.46673927, "learning_rate": 9.873e-05, "elapsed_time_per_iteration": 4.93920755, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 4s", "remaining_time": "15h 14m 38s", "loss_scale": 1.0, "consumed_samples": 388352, "global_step/max_steps": "1517/12700"}
{"lm loss": 2.2369473, "grad_norm": 0.51945865, "learning_rate": 9.872e-05, "elapsed_time_per_iteration": 4.86700511, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 9s", "remaining_time": "15h 14m 33s", "loss_scale": 1.0, "consumed_samples": 388608, "global_step/max_steps": "1518/12700"}
{"lm loss": 2.22689056, "grad_norm": 0.47841638, "learning_rate": 9.872e-05, "elapsed_time_per_iteration": 4.93280435, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 14s", "remaining_time": "15h 14m 28s", "loss_scale": 1.0, "consumed_samples": 388864, "global_step/max_steps": "1519/12700"}
{"lm loss": 2.18602037, "grad_norm": 0.50857943, "learning_rate": 9.872e-05, "elapsed_time_per_iteration": 4.8099339, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 18s", "remaining_time": "15h 14m 22s", "loss_scale": 1.0, "consumed_samples": 389120, "global_step/max_steps": "1520/12700"}
{"lm loss": 2.2359097, "grad_norm": 0.56085509, "learning_rate": 9.872e-05, "elapsed_time_per_iteration": 4.92513776, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 23s", "remaining_time": "15h 14m 17s", "loss_scale": 1.0, "consumed_samples": 389376, "global_step/max_steps": "1521/12700"}
{"lm loss": 2.20159769, "grad_norm": 0.52816951, "learning_rate": 9.871e-05, "elapsed_time_per_iteration": 4.81052232, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 28s", "remaining_time": "15h 14m 12s", "loss_scale": 1.0, "consumed_samples": 389632, "global_step/max_steps": "1522/12700"}
{"lm loss": 2.22903562, "grad_norm": 0.50928527, "learning_rate": 9.871e-05, "elapsed_time_per_iteration": 4.8594389, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 33s", "remaining_time": "15h 14m 7s", "loss_scale": 1.0, "consumed_samples": 389888, "global_step/max_steps": "1523/12700"}
{"lm loss": 2.20961952, "grad_norm": 0.5056529, "learning_rate": 9.871e-05, "elapsed_time_per_iteration": 4.94869828, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 38s", "remaining_time": "15h 14m 2s", "loss_scale": 1.0, "consumed_samples": 390144, "global_step/max_steps": "1524/12700"}
{"lm loss": 2.21747184, "grad_norm": 0.47088036, "learning_rate": 9.87e-05, "elapsed_time_per_iteration": 4.82255793, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 43s", "remaining_time": "15h 13m 56s", "loss_scale": 1.0, "consumed_samples": 390400, "global_step/max_steps": "1525/12700"}
{"lm loss": 2.23606634, "grad_norm": 0.53525579, "learning_rate": 9.87e-05, "elapsed_time_per_iteration": 4.86948109, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 48s", "remaining_time": "15h 13m 51s", "loss_scale": 1.0, "consumed_samples": 390656, "global_step/max_steps": "1526/12700"}
{"lm loss": 2.22105336, "grad_norm": 0.47124261, "learning_rate": 9.87e-05, "elapsed_time_per_iteration": 4.81337023, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 53s", "remaining_time": "15h 13m 46s", "loss_scale": 1.0, "consumed_samples": 390912, "global_step/max_steps": "1527/12700"}
{"lm loss": 2.23801494, "grad_norm": 0.48821101, "learning_rate": 9.869e-05, "elapsed_time_per_iteration": 4.92432976, "memory(GiB)": 28.94, "elapsed_time": "2h 4m 57s", "remaining_time": "15h 13m 41s", "loss_scale": 1.0, "consumed_samples": 391168, "global_step/max_steps": "1528/12700"}
{"lm loss": 2.23680568, "grad_norm": 0.47233289, "learning_rate": 9.869e-05, "elapsed_time_per_iteration": 4.98278213, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 2s", "remaining_time": "15h 13m 37s", "loss_scale": 1.0, "consumed_samples": 391424, "global_step/max_steps": "1529/12700"}
{"lm loss": 2.20826077, "grad_norm": 0.43095446, "learning_rate": 9.869e-05, "elapsed_time_per_iteration": 4.87014341, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 7s", "remaining_time": "15h 13m 31s", "loss_scale": 1.0, "consumed_samples": 391680, "global_step/max_steps": "1530/12700"}
{"lm loss": 2.2403512, "grad_norm": 0.52387983, "learning_rate": 9.869e-05, "elapsed_time_per_iteration": 4.89606309, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 12s", "remaining_time": "15h 13m 26s", "loss_scale": 1.0, "consumed_samples": 391936, "global_step/max_steps": "1531/12700"}
{"lm loss": 2.2122035, "grad_norm": 0.48785934, "learning_rate": 9.868e-05, "elapsed_time_per_iteration": 4.86028695, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 17s", "remaining_time": "15h 13m 21s", "loss_scale": 1.0, "consumed_samples": 392192, "global_step/max_steps": "1532/12700"}
{"lm loss": 2.2294395, "grad_norm": 0.44135183, "learning_rate": 9.868e-05, "elapsed_time_per_iteration": 4.88192749, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 22s", "remaining_time": "15h 13m 16s", "loss_scale": 1.0, "consumed_samples": 392448, "global_step/max_steps": "1533/12700"}
{"lm loss": 2.2013824, "grad_norm": 0.45066336, "learning_rate": 9.868e-05, "elapsed_time_per_iteration": 4.91333127, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 27s", "remaining_time": "15h 13m 11s", "loss_scale": 1.0, "consumed_samples": 392704, "global_step/max_steps": "1534/12700"}
{"lm loss": 2.21582699, "grad_norm": 0.437585, "learning_rate": 9.867e-05, "elapsed_time_per_iteration": 4.88294077, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 32s", "remaining_time": "15h 13m 6s", "loss_scale": 1.0, "consumed_samples": 392960, "global_step/max_steps": "1535/12700"}
{"lm loss": 2.20204043, "grad_norm": 0.46486911, "learning_rate": 9.867e-05, "elapsed_time_per_iteration": 4.83445334, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 37s", "remaining_time": "15h 13m 1s", "loss_scale": 1.0, "consumed_samples": 393216, "global_step/max_steps": "1536/12700"}
{"lm loss": 2.26185989, "grad_norm": 0.46887174, "learning_rate": 9.867e-05, "elapsed_time_per_iteration": 4.77883339, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 41s", "remaining_time": "15h 12m 55s", "loss_scale": 1.0, "consumed_samples": 393472, "global_step/max_steps": "1537/12700"}
{"lm loss": 2.22803593, "grad_norm": 0.47879848, "learning_rate": 9.867e-05, "elapsed_time_per_iteration": 4.83553958, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 46s", "remaining_time": "15h 12m 49s", "loss_scale": 1.0, "consumed_samples": 393728, "global_step/max_steps": "1538/12700"}
{"lm loss": 2.20855951, "grad_norm": 0.51874733, "learning_rate": 9.866e-05, "elapsed_time_per_iteration": 4.87602305, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 51s", "remaining_time": "15h 12m 44s", "loss_scale": 1.0, "consumed_samples": 393984, "global_step/max_steps": "1539/12700"}
{"lm loss": 2.20625472, "grad_norm": 0.41444856, "learning_rate": 9.866e-05, "elapsed_time_per_iteration": 5.0077548, "memory(GiB)": 28.94, "elapsed_time": "2h 5m 56s", "remaining_time": "15h 12m 40s", "loss_scale": 1.0, "consumed_samples": 394240, "global_step/max_steps": "1540/12700"}
{"lm loss": 2.23773766, "grad_norm": 0.48834062, "learning_rate": 9.866e-05, "elapsed_time_per_iteration": 4.8394258, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 1s", "remaining_time": "15h 12m 35s", "loss_scale": 1.0, "consumed_samples": 394496, "global_step/max_steps": "1541/12700"}
{"lm loss": 2.21144199, "grad_norm": 0.50552416, "learning_rate": 9.865e-05, "elapsed_time_per_iteration": 5.83289313, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 7s", "remaining_time": "15h 12m 37s", "loss_scale": 1.0, "consumed_samples": 394752, "global_step/max_steps": "1542/12700"}
{"lm loss": 2.20980716, "grad_norm": 0.45750049, "learning_rate": 9.865e-05, "elapsed_time_per_iteration": 4.88840771, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 12s", "remaining_time": "15h 12m 31s", "loss_scale": 1.0, "consumed_samples": 395008, "global_step/max_steps": "1543/12700"}
{"lm loss": 2.21067572, "grad_norm": 0.47504038, "learning_rate": 9.865e-05, "elapsed_time_per_iteration": 4.92167997, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 17s", "remaining_time": "15h 12m 27s", "loss_scale": 1.0, "consumed_samples": 395264, "global_step/max_steps": "1544/12700"}
{"lm loss": 2.2055738, "grad_norm": 0.45865035, "learning_rate": 9.864e-05, "elapsed_time_per_iteration": 4.90678596, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 21s", "remaining_time": "15h 12m 22s", "loss_scale": 1.0, "consumed_samples": 395520, "global_step/max_steps": "1545/12700"}
{"lm loss": 2.20085859, "grad_norm": 0.48950338, "learning_rate": 9.864e-05, "elapsed_time_per_iteration": 4.91588855, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 26s", "remaining_time": "15h 12m 17s", "loss_scale": 1.0, "consumed_samples": 395776, "global_step/max_steps": "1546/12700"}
{"lm loss": 2.21646762, "grad_norm": 0.48916057, "learning_rate": 9.864e-05, "elapsed_time_per_iteration": 4.96560526, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 31s", "remaining_time": "15h 12m 12s", "loss_scale": 1.0, "consumed_samples": 396032, "global_step/max_steps": "1547/12700"}
{"lm loss": 2.2317605, "grad_norm": 0.44110316, "learning_rate": 9.864e-05, "elapsed_time_per_iteration": 4.85469031, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 36s", "remaining_time": "15h 12m 7s", "loss_scale": 1.0, "consumed_samples": 396288, "global_step/max_steps": "1548/12700"}
{"lm loss": 2.1959815, "grad_norm": 0.50785625, "learning_rate": 9.863e-05, "elapsed_time_per_iteration": 4.78016686, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 41s", "remaining_time": "15h 12m 1s", "loss_scale": 1.0, "consumed_samples": 396544, "global_step/max_steps": "1549/12700"}
{"lm loss": 2.2500596, "grad_norm": 0.51637787, "learning_rate": 9.863e-05, "elapsed_time_per_iteration": 4.84465766, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 46s", "remaining_time": "15h 11m 56s", "loss_scale": 1.0, "consumed_samples": 396800, "global_step/max_steps": "1550/12700"}
{"lm loss": 2.24365497, "grad_norm": 0.56206489, "learning_rate": 9.863e-05, "elapsed_time_per_iteration": 4.88363433, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 51s", "remaining_time": "15h 11m 51s", "loss_scale": 1.0, "consumed_samples": 397056, "global_step/max_steps": "1551/12700"}
{"lm loss": 2.19437265, "grad_norm": 0.60979199, "learning_rate": 9.862e-05, "elapsed_time_per_iteration": 4.95353699, "memory(GiB)": 28.94, "elapsed_time": "2h 6m 56s", "remaining_time": "15h 11m 46s", "loss_scale": 1.0, "consumed_samples": 397312, "global_step/max_steps": "1552/12700"}
{"lm loss": 2.2147975, "grad_norm": 0.51597142, "learning_rate": 9.862e-05, "elapsed_time_per_iteration": 4.80823898, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 0s", "remaining_time": "15h 11m 41s", "loss_scale": 1.0, "consumed_samples": 397568, "global_step/max_steps": "1553/12700"}
{"lm loss": 2.25795555, "grad_norm": 0.53576952, "learning_rate": 9.862e-05, "elapsed_time_per_iteration": 4.90155387, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 5s", "remaining_time": "15h 11m 36s", "loss_scale": 1.0, "consumed_samples": 397824, "global_step/max_steps": "1554/12700"}
{"lm loss": 2.19685388, "grad_norm": 0.49676207, "learning_rate": 9.861e-05, "elapsed_time_per_iteration": 4.83156776, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 10s", "remaining_time": "15h 11m 30s", "loss_scale": 1.0, "consumed_samples": 398080, "global_step/max_steps": "1555/12700"}
{"lm loss": 2.19717669, "grad_norm": 0.51837134, "learning_rate": 9.861e-05, "elapsed_time_per_iteration": 4.90037608, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 15s", "remaining_time": "15h 11m 25s", "loss_scale": 1.0, "consumed_samples": 398336, "global_step/max_steps": "1556/12700"}
{"lm loss": 2.22217107, "grad_norm": 0.5373643, "learning_rate": 9.861e-05, "elapsed_time_per_iteration": 4.87101269, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 20s", "remaining_time": "15h 11m 20s", "loss_scale": 1.0, "consumed_samples": 398592, "global_step/max_steps": "1557/12700"}
{"lm loss": 2.22106934, "grad_norm": 0.52492762, "learning_rate": 9.861e-05, "elapsed_time_per_iteration": 4.90347075, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 25s", "remaining_time": "15h 11m 15s", "loss_scale": 1.0, "consumed_samples": 398848, "global_step/max_steps": "1558/12700"}
{"lm loss": 2.22995949, "grad_norm": 0.47017401, "learning_rate": 9.86e-05, "elapsed_time_per_iteration": 4.84024048, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 30s", "remaining_time": "15h 11m 10s", "loss_scale": 1.0, "consumed_samples": 399104, "global_step/max_steps": "1559/12700"}
{"lm loss": 2.18754292, "grad_norm": 0.54575449, "learning_rate": 9.86e-05, "elapsed_time_per_iteration": 4.78445578, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 35s", "remaining_time": "15h 11m 4s", "loss_scale": 1.0, "consumed_samples": 399360, "global_step/max_steps": "1560/12700"}
{"lm loss": 2.17871094, "grad_norm": 0.47700956, "learning_rate": 9.86e-05, "elapsed_time_per_iteration": 4.93962359, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 39s", "remaining_time": "15h 10m 59s", "loss_scale": 1.0, "consumed_samples": 399616, "global_step/max_steps": "1561/12700"}
{"lm loss": 2.19432068, "grad_norm": 0.53465271, "learning_rate": 9.859e-05, "elapsed_time_per_iteration": 4.88942409, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 44s", "remaining_time": "15h 10m 54s", "loss_scale": 1.0, "consumed_samples": 399872, "global_step/max_steps": "1562/12700"}
{"lm loss": 2.23585105, "grad_norm": 0.47431147, "learning_rate": 9.859e-05, "elapsed_time_per_iteration": 4.91714883, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 49s", "remaining_time": "15h 10m 50s", "loss_scale": 1.0, "consumed_samples": 400128, "global_step/max_steps": "1563/12700"}
{"lm loss": 2.23742104, "grad_norm": 0.49145567, "learning_rate": 9.859e-05, "elapsed_time_per_iteration": 4.83913422, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 54s", "remaining_time": "15h 10m 44s", "loss_scale": 1.0, "consumed_samples": 400384, "global_step/max_steps": "1564/12700"}
{"lm loss": 2.22118139, "grad_norm": 0.53871232, "learning_rate": 9.858e-05, "elapsed_time_per_iteration": 4.89946747, "memory(GiB)": 28.94, "elapsed_time": "2h 7m 59s", "remaining_time": "15h 10m 39s", "loss_scale": 1.0, "consumed_samples": 400640, "global_step/max_steps": "1565/12700"}
{"lm loss": 2.20955706, "grad_norm": 0.50476539, "learning_rate": 9.858e-05, "elapsed_time_per_iteration": 4.89322066, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 4s", "remaining_time": "15h 10m 34s", "loss_scale": 1.0, "consumed_samples": 400896, "global_step/max_steps": "1566/12700"}
{"lm loss": 2.22741556, "grad_norm": 0.49632388, "learning_rate": 9.858e-05, "elapsed_time_per_iteration": 4.92431164, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 9s", "remaining_time": "15h 10m 29s", "loss_scale": 1.0, "consumed_samples": 401152, "global_step/max_steps": "1567/12700"}
{"lm loss": 2.21499968, "grad_norm": 0.50131941, "learning_rate": 9.858e-05, "elapsed_time_per_iteration": 4.899652, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 14s", "remaining_time": "15h 10m 24s", "loss_scale": 1.0, "consumed_samples": 401408, "global_step/max_steps": "1568/12700"}
{"lm loss": 2.26274395, "grad_norm": 0.47438958, "learning_rate": 9.857e-05, "elapsed_time_per_iteration": 4.84440327, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 19s", "remaining_time": "15h 10m 19s", "loss_scale": 1.0, "consumed_samples": 401664, "global_step/max_steps": "1569/12700"}
{"lm loss": 2.24504161, "grad_norm": 0.51470435, "learning_rate": 9.857e-05, "elapsed_time_per_iteration": 5.07398486, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 24s", "remaining_time": "15h 10m 15s", "loss_scale": 1.0, "consumed_samples": 401920, "global_step/max_steps": "1570/12700"}
{"lm loss": 2.22208524, "grad_norm": 0.53620011, "learning_rate": 9.857e-05, "elapsed_time_per_iteration": 4.97238994, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 29s", "remaining_time": "15h 10m 11s", "loss_scale": 1.0, "consumed_samples": 402176, "global_step/max_steps": "1571/12700"}
{"lm loss": 2.21625781, "grad_norm": 0.41076168, "learning_rate": 9.856e-05, "elapsed_time_per_iteration": 4.90109301, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 33s", "remaining_time": "15h 10m 6s", "loss_scale": 1.0, "consumed_samples": 402432, "global_step/max_steps": "1572/12700"}
{"lm loss": 2.22588682, "grad_norm": 0.5487538, "learning_rate": 9.856e-05, "elapsed_time_per_iteration": 4.98558259, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 38s", "remaining_time": "15h 10m 2s", "loss_scale": 1.0, "consumed_samples": 402688, "global_step/max_steps": "1573/12700"}
{"lm loss": 2.19642806, "grad_norm": 0.46458668, "learning_rate": 9.856e-05, "elapsed_time_per_iteration": 4.85620666, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 43s", "remaining_time": "15h 9m 56s", "loss_scale": 1.0, "consumed_samples": 402944, "global_step/max_steps": "1574/12700"}
{"lm loss": 2.22780132, "grad_norm": 0.54513836, "learning_rate": 9.855e-05, "elapsed_time_per_iteration": 4.90668011, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 48s", "remaining_time": "15h 9m 51s", "loss_scale": 1.0, "consumed_samples": 403200, "global_step/max_steps": "1575/12700"}
{"lm loss": 2.21282482, "grad_norm": 0.49178663, "learning_rate": 9.855e-05, "elapsed_time_per_iteration": 4.92321658, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 53s", "remaining_time": "15h 9m 47s", "loss_scale": 1.0, "consumed_samples": 403456, "global_step/max_steps": "1576/12700"}
{"lm loss": 2.19641161, "grad_norm": 0.53615952, "learning_rate": 9.855e-05, "elapsed_time_per_iteration": 4.86116481, "memory(GiB)": 28.94, "elapsed_time": "2h 8m 58s", "remaining_time": "15h 9m 41s", "loss_scale": 1.0, "consumed_samples": 403712, "global_step/max_steps": "1577/12700"}
{"lm loss": 2.22469163, "grad_norm": 0.48832229, "learning_rate": 9.855e-05, "elapsed_time_per_iteration": 4.83093214, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 3s", "remaining_time": "15h 9m 36s", "loss_scale": 1.0, "consumed_samples": 403968, "global_step/max_steps": "1578/12700"}
{"lm loss": 2.25202918, "grad_norm": 0.46014586, "learning_rate": 9.854e-05, "elapsed_time_per_iteration": 4.8754456, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 8s", "remaining_time": "15h 9m 31s", "loss_scale": 1.0, "consumed_samples": 404224, "global_step/max_steps": "1579/12700"}
{"lm loss": 2.22307992, "grad_norm": 0.46886817, "learning_rate": 9.854e-05, "elapsed_time_per_iteration": 4.8798666, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 13s", "remaining_time": "15h 9m 26s", "loss_scale": 1.0, "consumed_samples": 404480, "global_step/max_steps": "1580/12700"}
{"lm loss": 2.23565173, "grad_norm": 0.43458185, "learning_rate": 9.854e-05, "elapsed_time_per_iteration": 4.91695905, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 18s", "remaining_time": "15h 9m 21s", "loss_scale": 1.0, "consumed_samples": 404736, "global_step/max_steps": "1581/12700"}
{"lm loss": 2.18421745, "grad_norm": 0.44362149, "learning_rate": 9.853e-05, "elapsed_time_per_iteration": 4.96505475, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 22s", "remaining_time": "15h 9m 16s", "loss_scale": 1.0, "consumed_samples": 404992, "global_step/max_steps": "1582/12700"}
{"lm loss": 2.2273531, "grad_norm": 0.47120205, "learning_rate": 9.853e-05, "elapsed_time_per_iteration": 4.80759382, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 27s", "remaining_time": "15h 9m 11s", "loss_scale": 1.0, "consumed_samples": 405248, "global_step/max_steps": "1583/12700"}
{"lm loss": 2.22021461, "grad_norm": 0.41560197, "learning_rate": 9.853e-05, "elapsed_time_per_iteration": 4.9650619, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 32s", "remaining_time": "15h 9m 6s", "loss_scale": 1.0, "consumed_samples": 405504, "global_step/max_steps": "1584/12700"}
{"lm loss": 2.17476416, "grad_norm": 0.46485046, "learning_rate": 9.852e-05, "elapsed_time_per_iteration": 4.86748099, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 37s", "remaining_time": "15h 9m 1s", "loss_scale": 1.0, "consumed_samples": 405760, "global_step/max_steps": "1585/12700"}
{"lm loss": 2.22208738, "grad_norm": 0.45590907, "learning_rate": 9.852e-05, "elapsed_time_per_iteration": 4.75037694, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 42s", "remaining_time": "15h 8m 55s", "loss_scale": 1.0, "consumed_samples": 406016, "global_step/max_steps": "1586/12700"}
{"lm loss": 2.19994259, "grad_norm": 0.46396005, "learning_rate": 9.852e-05, "elapsed_time_per_iteration": 4.88664222, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 47s", "remaining_time": "15h 8m 50s", "loss_scale": 1.0, "consumed_samples": 406272, "global_step/max_steps": "1587/12700"}
{"lm loss": 2.20777082, "grad_norm": 0.4427141, "learning_rate": 9.851e-05, "elapsed_time_per_iteration": 4.8871789, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 52s", "remaining_time": "15h 8m 45s", "loss_scale": 1.0, "consumed_samples": 406528, "global_step/max_steps": "1588/12700"}
{"lm loss": 2.22377539, "grad_norm": 0.44610068, "learning_rate": 9.851e-05, "elapsed_time_per_iteration": 4.94938469, "memory(GiB)": 28.94, "elapsed_time": "2h 9m 57s", "remaining_time": "15h 8m 40s", "loss_scale": 1.0, "consumed_samples": 406784, "global_step/max_steps": "1589/12700"}
{"lm loss": 2.20457673, "grad_norm": 0.45233464, "learning_rate": 9.851e-05, "elapsed_time_per_iteration": 4.91112614, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 2s", "remaining_time": "15h 8m 36s", "loss_scale": 1.0, "consumed_samples": 407040, "global_step/max_steps": "1590/12700"}
{"lm loss": 2.22237659, "grad_norm": 0.43753633, "learning_rate": 9.851e-05, "elapsed_time_per_iteration": 4.9097991, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 6s", "remaining_time": "15h 8m 31s", "loss_scale": 1.0, "consumed_samples": 407296, "global_step/max_steps": "1591/12700"}
{"lm loss": 2.23685741, "grad_norm": 0.44668573, "learning_rate": 9.85e-05, "elapsed_time_per_iteration": 4.80265999, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 11s", "remaining_time": "15h 8m 25s", "loss_scale": 1.0, "consumed_samples": 407552, "global_step/max_steps": "1592/12700"}
{"lm loss": 2.18880391, "grad_norm": 0.47692457, "learning_rate": 9.85e-05, "elapsed_time_per_iteration": 4.87103295, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 16s", "remaining_time": "15h 8m 20s", "loss_scale": 1.0, "consumed_samples": 407808, "global_step/max_steps": "1593/12700"}
{"lm loss": 2.20729375, "grad_norm": 0.42615253, "learning_rate": 9.85e-05, "elapsed_time_per_iteration": 4.86314511, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 21s", "remaining_time": "15h 8m 15s", "loss_scale": 1.0, "consumed_samples": 408064, "global_step/max_steps": "1594/12700"}
{"lm loss": 2.18937445, "grad_norm": 0.48002529, "learning_rate": 9.849e-05, "elapsed_time_per_iteration": 4.88765192, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 26s", "remaining_time": "15h 8m 10s", "loss_scale": 1.0, "consumed_samples": 408320, "global_step/max_steps": "1595/12700"}
{"lm loss": 2.19082475, "grad_norm": 0.43514174, "learning_rate": 9.849e-05, "elapsed_time_per_iteration": 4.77274895, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 31s", "remaining_time": "15h 8m 4s", "loss_scale": 1.0, "consumed_samples": 408576, "global_step/max_steps": "1596/12700"}
{"lm loss": 2.20403743, "grad_norm": 0.43074059, "learning_rate": 9.849e-05, "elapsed_time_per_iteration": 4.92347407, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 36s", "remaining_time": "15h 7m 59s", "loss_scale": 1.0, "consumed_samples": 408832, "global_step/max_steps": "1597/12700"}
{"lm loss": 2.21746731, "grad_norm": 0.47425362, "learning_rate": 9.848e-05, "elapsed_time_per_iteration": 4.79991627, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 40s", "remaining_time": "15h 7m 53s", "loss_scale": 1.0, "consumed_samples": 409088, "global_step/max_steps": "1598/12700"}
{"lm loss": 2.23174286, "grad_norm": 0.48077929, "learning_rate": 9.848e-05, "elapsed_time_per_iteration": 4.88130903, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 45s", "remaining_time": "15h 7m 48s", "loss_scale": 1.0, "consumed_samples": 409344, "global_step/max_steps": "1599/12700"}
{"lm loss": 2.20576668, "grad_norm": 0.50746691, "learning_rate": 9.848e-05, "elapsed_time_per_iteration": 4.84853959, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 50s", "remaining_time": "15h 7m 43s", "loss_scale": 1.0, "consumed_samples": 409600, "global_step/max_steps": "1600/12700"}
{"lm loss": 2.21960831, "grad_norm": 0.43517533, "learning_rate": 9.847e-05, "elapsed_time_per_iteration": 4.91853189, "memory(GiB)": 28.94, "elapsed_time": "2h 10m 55s", "remaining_time": "15h 7m 38s", "loss_scale": 1.0, "consumed_samples": 409856, "global_step/max_steps": "1601/12700"}
{"lm loss": 2.24418473, "grad_norm": 0.42403463, "learning_rate": 9.847e-05, "elapsed_time_per_iteration": 4.83161187, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 0s", "remaining_time": "15h 7m 33s", "loss_scale": 1.0, "consumed_samples": 410112, "global_step/max_steps": "1602/12700"}
{"lm loss": 2.22240353, "grad_norm": 0.44575664, "learning_rate": 9.847e-05, "elapsed_time_per_iteration": 4.83412743, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 5s", "remaining_time": "15h 7m 27s", "loss_scale": 1.0, "consumed_samples": 410368, "global_step/max_steps": "1603/12700"}
{"lm loss": 2.21122551, "grad_norm": 0.45749995, "learning_rate": 9.846e-05, "elapsed_time_per_iteration": 4.93567944, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 10s", "remaining_time": "15h 7m 23s", "loss_scale": 1.0, "consumed_samples": 410624, "global_step/max_steps": "1604/12700"}
{"lm loss": 2.20880985, "grad_norm": 0.44686311, "learning_rate": 9.846e-05, "elapsed_time_per_iteration": 4.82461214, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 14s", "remaining_time": "15h 7m 17s", "loss_scale": 1.0, "consumed_samples": 410880, "global_step/max_steps": "1605/12700"}
{"lm loss": 2.20139718, "grad_norm": 0.47383955, "learning_rate": 9.846e-05, "elapsed_time_per_iteration": 4.90673018, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 19s", "remaining_time": "15h 7m 12s", "loss_scale": 1.0, "consumed_samples": 411136, "global_step/max_steps": "1606/12700"}
{"lm loss": 2.22797656, "grad_norm": 0.48238358, "learning_rate": 9.845e-05, "elapsed_time_per_iteration": 4.8703568, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 24s", "remaining_time": "15h 7m 7s", "loss_scale": 1.0, "consumed_samples": 411392, "global_step/max_steps": "1607/12700"}
{"lm loss": 2.21024919, "grad_norm": 0.46218801, "learning_rate": 9.845e-05, "elapsed_time_per_iteration": 4.80597043, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 29s", "remaining_time": "15h 7m 1s", "loss_scale": 1.0, "consumed_samples": 411648, "global_step/max_steps": "1608/12700"}
{"lm loss": 2.23577404, "grad_norm": 0.49777937, "learning_rate": 9.845e-05, "elapsed_time_per_iteration": 4.83912349, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 34s", "remaining_time": "15h 6m 56s", "loss_scale": 1.0, "consumed_samples": 411904, "global_step/max_steps": "1609/12700"}
{"lm loss": 2.24118876, "grad_norm": 0.51631886, "learning_rate": 9.845e-05, "elapsed_time_per_iteration": 4.80859566, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 39s", "remaining_time": "15h 6m 50s", "loss_scale": 1.0, "consumed_samples": 412160, "global_step/max_steps": "1610/12700"}
{"lm loss": 2.19409966, "grad_norm": 0.45424923, "learning_rate": 9.844e-05, "elapsed_time_per_iteration": 4.84998274, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 44s", "remaining_time": "15h 6m 45s", "loss_scale": 1.0, "consumed_samples": 412416, "global_step/max_steps": "1611/12700"}
{"lm loss": 2.2179935, "grad_norm": 0.48332113, "learning_rate": 9.844e-05, "elapsed_time_per_iteration": 4.7911427, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 48s", "remaining_time": "15h 6m 39s", "loss_scale": 1.0, "consumed_samples": 412672, "global_step/max_steps": "1612/12700"}
{"lm loss": 2.18922973, "grad_norm": 0.51120132, "learning_rate": 9.844e-05, "elapsed_time_per_iteration": 4.86449909, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 53s", "remaining_time": "15h 6m 34s", "loss_scale": 1.0, "consumed_samples": 412928, "global_step/max_steps": "1613/12700"}
{"lm loss": 2.2110672, "grad_norm": 0.51523274, "learning_rate": 9.843e-05, "elapsed_time_per_iteration": 4.90963793, "memory(GiB)": 28.94, "elapsed_time": "2h 11m 58s", "remaining_time": "15h 6m 29s", "loss_scale": 1.0, "consumed_samples": 413184, "global_step/max_steps": "1614/12700"}
{"lm loss": 2.20404577, "grad_norm": 0.48644173, "learning_rate": 9.843e-05, "elapsed_time_per_iteration": 4.85376143, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 3s", "remaining_time": "15h 6m 24s", "loss_scale": 1.0, "consumed_samples": 413440, "global_step/max_steps": "1615/12700"}
{"lm loss": 2.17372203, "grad_norm": 0.4776206, "learning_rate": 9.843e-05, "elapsed_time_per_iteration": 4.85486412, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 8s", "remaining_time": "15h 6m 19s", "loss_scale": 1.0, "consumed_samples": 413696, "global_step/max_steps": "1616/12700"}
{"lm loss": 2.18909001, "grad_norm": 0.47998357, "learning_rate": 9.842e-05, "elapsed_time_per_iteration": 4.81207108, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 13s", "remaining_time": "15h 6m 13s", "loss_scale": 1.0, "consumed_samples": 413952, "global_step/max_steps": "1617/12700"}
{"lm loss": 2.22498679, "grad_norm": 0.51412868, "learning_rate": 9.842e-05, "elapsed_time_per_iteration": 4.89875126, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 17s", "remaining_time": "15h 6m 8s", "loss_scale": 1.0, "consumed_samples": 414208, "global_step/max_steps": "1618/12700"}
{"lm loss": 2.23838472, "grad_norm": 0.46493962, "learning_rate": 9.842e-05, "elapsed_time_per_iteration": 4.85991955, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 22s", "remaining_time": "15h 6m 3s", "loss_scale": 1.0, "consumed_samples": 414464, "global_step/max_steps": "1619/12700"}
{"lm loss": 2.18833351, "grad_norm": 0.49720052, "learning_rate": 9.841e-05, "elapsed_time_per_iteration": 4.86492586, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 27s", "remaining_time": "15h 5m 58s", "loss_scale": 1.0, "consumed_samples": 414720, "global_step/max_steps": "1620/12700"}
{"lm loss": 2.22664404, "grad_norm": 0.47886187, "learning_rate": 9.841e-05, "elapsed_time_per_iteration": 4.89558935, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 32s", "remaining_time": "15h 5m 53s", "loss_scale": 1.0, "consumed_samples": 414976, "global_step/max_steps": "1621/12700"}
{"lm loss": 2.2040925, "grad_norm": 0.49119493, "learning_rate": 9.841e-05, "elapsed_time_per_iteration": 4.93390965, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 37s", "remaining_time": "15h 5m 48s", "loss_scale": 1.0, "consumed_samples": 415232, "global_step/max_steps": "1622/12700"}
{"lm loss": 2.24289989, "grad_norm": 0.48086587, "learning_rate": 9.84e-05, "elapsed_time_per_iteration": 4.84582114, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 42s", "remaining_time": "15h 5m 43s", "loss_scale": 1.0, "consumed_samples": 415488, "global_step/max_steps": "1623/12700"}
{"lm loss": 2.1912961, "grad_norm": 0.50062865, "learning_rate": 9.84e-05, "elapsed_time_per_iteration": 4.84703302, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 47s", "remaining_time": "15h 5m 38s", "loss_scale": 1.0, "consumed_samples": 415744, "global_step/max_steps": "1624/12700"}
{"lm loss": 2.22085762, "grad_norm": 0.48516753, "learning_rate": 9.84e-05, "elapsed_time_per_iteration": 4.83280754, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 52s", "remaining_time": "15h 5m 32s", "loss_scale": 1.0, "consumed_samples": 416000, "global_step/max_steps": "1625/12700"}
{"lm loss": 2.25513077, "grad_norm": 0.44764078, "learning_rate": 9.839e-05, "elapsed_time_per_iteration": 4.75877929, "memory(GiB)": 28.94, "elapsed_time": "2h 12m 56s", "remaining_time": "15h 5m 26s", "loss_scale": 1.0, "consumed_samples": 416256, "global_step/max_steps": "1626/12700"}
{"lm loss": 2.22893381, "grad_norm": 0.53210795, "learning_rate": 9.839e-05, "elapsed_time_per_iteration": 4.83106899, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 1s", "remaining_time": "15h 5m 21s", "loss_scale": 1.0, "consumed_samples": 416512, "global_step/max_steps": "1627/12700"}
{"lm loss": 2.22937274, "grad_norm": 0.49047604, "learning_rate": 9.839e-05, "elapsed_time_per_iteration": 5.01256633, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 6s", "remaining_time": "15h 5m 17s", "loss_scale": 1.0, "consumed_samples": 416768, "global_step/max_steps": "1628/12700"}
{"lm loss": 2.17773223, "grad_norm": 0.55342495, "learning_rate": 9.838e-05, "elapsed_time_per_iteration": 4.91903925, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 11s", "remaining_time": "15h 5m 12s", "loss_scale": 1.0, "consumed_samples": 417024, "global_step/max_steps": "1629/12700"}
{"lm loss": 2.21803832, "grad_norm": 0.48061413, "learning_rate": 9.838e-05, "elapsed_time_per_iteration": 4.85688257, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 16s", "remaining_time": "15h 5m 7s", "loss_scale": 1.0, "consumed_samples": 417280, "global_step/max_steps": "1630/12700"}
{"lm loss": 2.21173525, "grad_norm": 0.45623058, "learning_rate": 9.838e-05, "elapsed_time_per_iteration": 4.90936208, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 21s", "remaining_time": "15h 5m 2s", "loss_scale": 1.0, "consumed_samples": 417536, "global_step/max_steps": "1631/12700"}
{"lm loss": 2.21754885, "grad_norm": 0.55135119, "learning_rate": 9.837e-05, "elapsed_time_per_iteration": 4.83455753, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 26s", "remaining_time": "15h 4m 56s", "loss_scale": 1.0, "consumed_samples": 417792, "global_step/max_steps": "1632/12700"}
{"lm loss": 2.188694, "grad_norm": 0.56025183, "learning_rate": 9.837e-05, "elapsed_time_per_iteration": 4.95444036, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 31s", "remaining_time": "15h 4m 52s", "loss_scale": 1.0, "consumed_samples": 418048, "global_step/max_steps": "1633/12700"}
{"lm loss": 2.19780588, "grad_norm": 0.51081437, "learning_rate": 9.837e-05, "elapsed_time_per_iteration": 4.87598801, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 36s", "remaining_time": "15h 4m 47s", "loss_scale": 1.0, "consumed_samples": 418304, "global_step/max_steps": "1634/12700"}
{"lm loss": 2.18938184, "grad_norm": 0.44853771, "learning_rate": 9.837e-05, "elapsed_time_per_iteration": 4.96437931, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 40s", "remaining_time": "15h 4m 42s", "loss_scale": 1.0, "consumed_samples": 418560, "global_step/max_steps": "1635/12700"}
{"lm loss": 2.21794677, "grad_norm": 0.5168469, "learning_rate": 9.836e-05, "elapsed_time_per_iteration": 4.91579676, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 45s", "remaining_time": "15h 4m 37s", "loss_scale": 1.0, "consumed_samples": 418816, "global_step/max_steps": "1636/12700"}
{"lm loss": 2.25976515, "grad_norm": 0.5423559, "learning_rate": 9.836e-05, "elapsed_time_per_iteration": 4.83546185, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 50s", "remaining_time": "15h 4m 32s", "loss_scale": 1.0, "consumed_samples": 419072, "global_step/max_steps": "1637/12700"}
{"lm loss": 2.21457624, "grad_norm": 0.45007628, "learning_rate": 9.836e-05, "elapsed_time_per_iteration": 4.87557936, "memory(GiB)": 28.94, "elapsed_time": "2h 13m 55s", "remaining_time": "15h 4m 27s", "loss_scale": 1.0, "consumed_samples": 419328, "global_step/max_steps": "1638/12700"}
{"lm loss": 2.21780539, "grad_norm": 0.47574964, "learning_rate": 9.835e-05, "elapsed_time_per_iteration": 4.88629413, "memory(GiB)": 28.94, "elapsed_time": "2h 14m 0s", "remaining_time": "15h 4m 22s", "loss_scale": 1.0, "consumed_samples": 419584, "global_step/max_steps": "1639/12700"}
{"lm loss": 2.24534011, "grad_norm": 0.49181819, "learning_rate": 9.835e-05, "elapsed_time_per_iteration": 4.93696594, "memory(GiB)": 28.94, "elapsed_time": "2h 14m 5s", "remaining_time": "15h 4m 17s", "loss_scale": 1.0, "consumed_samples": 419840, "global_step/max_steps": "1640/12700"}
{"lm loss": 2.15615678, "grad_norm": 0.46738777, "learning_rate": 9.835e-05, "elapsed_time_per_iteration": 4.88791275, "memory(GiB)": 28.94, "elapsed_time": "2h 14m 10s", "remaining_time": "15h 4m 12s", "loss_scale": 1.0, "consumed_samples": 420096, "global_step/max_steps": "1641/12700"}
{"lm loss": 2.22899604, "grad_norm": 0.4900569, "learning_rate": 9.834e-05, "elapsed_time_per_iteration": 4.92539668, "memory(GiB)": 28.94, "elapsed_time": "2h 14m 15s", "remaining_time": "15h 4m 7s", "loss_scale": 1.0, "consumed_samples": 420352, "global_step/max_steps": "1642/12700"}
{"lm loss": 2.2065258, "grad_norm": 0.45784855, "learning_rate": 9.834e-05, "elapsed_time_per_iteration": 4.84061718, "memory(GiB)": 28.94, "elapsed_time": "2h 14m 20s", "remaining_time": "15h 4m 2s", "loss_scale": 1.0, "consumed_samples": 420608, "global_step/max_steps": "1643/12700"}
{"lm loss": 2.19984603, "grad_norm": 0.46397263, "learning_rate": 9.834e-05, "elapsed_time_per_iteration": 4.79489493, "memory(GiB)": 28.94, "elapsed_time": "2h 14m 24s", "remaining_time": "15h 3m 56s", "loss_scale": 1.0, "consumed_samples": 420864, "global_step/max_steps": "1644/12700"}
{"lm loss": 2.1862154, "grad_norm": 0.43443382, "learning_rate": 9.833e-05, "elapsed_time_per_iteration": 4.81357193, "memory(GiB)": 28.94, "elapsed_time": "2h 14m 29s", "remaining_time": "15h 3m 51s", "loss_scale": 1.0, "consumed_samples": 421120, "global_step/max_steps": "1645/12700"}
{"lm loss": 2.23828244, "grad_norm": 0.4545244, "learning_rate": 9.833e-05, "elapsed_time_per_iteration": 4.85175729, "memory(GiB)": 28.98, "elapsed_time": "2h 14m 34s", "remaining_time": "15h 3m 46s", "loss_scale": 1.0, "consumed_samples": 421376, "global_step/max_steps": "1646/12700"}
{"lm loss": 2.20868182, "grad_norm": 0.46272826, "learning_rate": 9.833e-05, "elapsed_time_per_iteration": 4.98262072, "memory(GiB)": 28.98, "elapsed_time": "2h 14m 39s", "remaining_time": "15h 3m 41s", "loss_scale": 1.0, "consumed_samples": 421632, "global_step/max_steps": "1647/12700"}
{"lm loss": 2.23838782, "grad_norm": 0.45628798, "learning_rate": 9.832e-05, "elapsed_time_per_iteration": 4.97983599, "memory(GiB)": 28.98, "elapsed_time": "2h 14m 44s", "remaining_time": "15h 3m 37s", "loss_scale": 1.0, "consumed_samples": 421888, "global_step/max_steps": "1648/12700"}
{"lm loss": 2.20453906, "grad_norm": 0.46505117, "learning_rate": 9.832e-05, "elapsed_time_per_iteration": 4.88318372, "memory(GiB)": 28.98, "elapsed_time": "2h 14m 49s", "remaining_time": "15h 3m 32s", "loss_scale": 1.0, "consumed_samples": 422144, "global_step/max_steps": "1649/12700"}
{"lm loss": 2.20842004, "grad_norm": 0.44993964, "learning_rate": 9.832e-05, "elapsed_time_per_iteration": 4.93605638, "memory(GiB)": 28.98, "elapsed_time": "2h 14m 54s", "remaining_time": "15h 3m 27s", "loss_scale": 1.0, "consumed_samples": 422400, "global_step/max_steps": "1650/12700"}
{"lm loss": 2.19481087, "grad_norm": 0.47418737, "learning_rate": 9.831e-05, "elapsed_time_per_iteration": 4.80155683, "memory(GiB)": 28.98, "elapsed_time": "2h 14m 59s", "remaining_time": "15h 3m 21s", "loss_scale": 1.0, "consumed_samples": 422656, "global_step/max_steps": "1651/12700"}
{"lm loss": 2.22026682, "grad_norm": 0.47675303, "learning_rate": 9.831e-05, "elapsed_time_per_iteration": 5.09249234, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 4s", "remaining_time": "15h 3m 18s", "loss_scale": 1.0, "consumed_samples": 422912, "global_step/max_steps": "1652/12700"}
{"lm loss": 2.23630881, "grad_norm": 0.4203231, "learning_rate": 9.831e-05, "elapsed_time_per_iteration": 4.81300306, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 9s", "remaining_time": "15h 3m 12s", "loss_scale": 1.0, "consumed_samples": 423168, "global_step/max_steps": "1653/12700"}
{"lm loss": 2.18235469, "grad_norm": 0.4966774, "learning_rate": 9.83e-05, "elapsed_time_per_iteration": 4.8961165, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 13s", "remaining_time": "15h 3m 7s", "loss_scale": 1.0, "consumed_samples": 423424, "global_step/max_steps": "1654/12700"}
{"lm loss": 2.25707817, "grad_norm": 0.43916875, "learning_rate": 9.83e-05, "elapsed_time_per_iteration": 4.91516304, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 18s", "remaining_time": "15h 3m 2s", "loss_scale": 1.0, "consumed_samples": 423680, "global_step/max_steps": "1655/12700"}
{"lm loss": 2.2127502, "grad_norm": 0.43522388, "learning_rate": 9.83e-05, "elapsed_time_per_iteration": 4.82315588, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 23s", "remaining_time": "15h 2m 57s", "loss_scale": 1.0, "consumed_samples": 423936, "global_step/max_steps": "1656/12700"}
{"lm loss": 2.21492624, "grad_norm": 0.48364094, "learning_rate": 9.829e-05, "elapsed_time_per_iteration": 4.86776018, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 28s", "remaining_time": "15h 2m 52s", "loss_scale": 1.0, "consumed_samples": 424192, "global_step/max_steps": "1657/12700"}
{"lm loss": 2.20288754, "grad_norm": 0.5061177, "learning_rate": 9.829e-05, "elapsed_time_per_iteration": 4.84691167, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 33s", "remaining_time": "15h 2m 47s", "loss_scale": 1.0, "consumed_samples": 424448, "global_step/max_steps": "1658/12700"}
{"lm loss": 2.20471501, "grad_norm": 0.49272946, "learning_rate": 9.829e-05, "elapsed_time_per_iteration": 4.80941033, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 38s", "remaining_time": "15h 2m 41s", "loss_scale": 1.0, "consumed_samples": 424704, "global_step/max_steps": "1659/12700"}
{"lm loss": 2.22056246, "grad_norm": 0.50852495, "learning_rate": 9.828e-05, "elapsed_time_per_iteration": 4.80563974, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 43s", "remaining_time": "15h 2m 35s", "loss_scale": 1.0, "consumed_samples": 424960, "global_step/max_steps": "1660/12700"}
{"lm loss": 2.20811009, "grad_norm": 0.50939047, "learning_rate": 9.828e-05, "elapsed_time_per_iteration": 5.05440283, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 48s", "remaining_time": "15h 2m 31s", "loss_scale": 1.0, "consumed_samples": 425216, "global_step/max_steps": "1661/12700"}
{"lm loss": 2.22967148, "grad_norm": 0.515773, "learning_rate": 9.828e-05, "elapsed_time_per_iteration": 4.87671638, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 52s", "remaining_time": "15h 2m 26s", "loss_scale": 1.0, "consumed_samples": 425472, "global_step/max_steps": "1662/12700"}
{"lm loss": 2.19417357, "grad_norm": 0.44555527, "learning_rate": 9.827e-05, "elapsed_time_per_iteration": 4.9002049, "memory(GiB)": 28.98, "elapsed_time": "2h 15m 57s", "remaining_time": "15h 2m 21s", "loss_scale": 1.0, "consumed_samples": 425728, "global_step/max_steps": "1663/12700"}
{"lm loss": 2.19202733, "grad_norm": 0.54239094, "learning_rate": 9.827e-05, "elapsed_time_per_iteration": 4.87126756, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 2s", "remaining_time": "15h 2m 16s", "loss_scale": 1.0, "consumed_samples": 425984, "global_step/max_steps": "1664/12700"}
{"lm loss": 2.18260264, "grad_norm": 0.49038559, "learning_rate": 9.827e-05, "elapsed_time_per_iteration": 4.87729859, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 7s", "remaining_time": "15h 2m 11s", "loss_scale": 1.0, "consumed_samples": 426240, "global_step/max_steps": "1665/12700"}
{"lm loss": 2.22203803, "grad_norm": 0.46446925, "learning_rate": 9.826e-05, "elapsed_time_per_iteration": 4.93248153, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 12s", "remaining_time": "15h 2m 6s", "loss_scale": 1.0, "consumed_samples": 426496, "global_step/max_steps": "1666/12700"}
{"lm loss": 2.21679974, "grad_norm": 0.51453495, "learning_rate": 9.826e-05, "elapsed_time_per_iteration": 4.77943873, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 17s", "remaining_time": "15h 2m 1s", "loss_scale": 1.0, "consumed_samples": 426752, "global_step/max_steps": "1667/12700"}
{"lm loss": 2.19905162, "grad_norm": 0.56684464, "learning_rate": 9.826e-05, "elapsed_time_per_iteration": 4.95202374, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 22s", "remaining_time": "15h 1m 56s", "loss_scale": 1.0, "consumed_samples": 427008, "global_step/max_steps": "1668/12700"}
{"lm loss": 2.22266698, "grad_norm": 0.48196864, "learning_rate": 9.825e-05, "elapsed_time_per_iteration": 4.93592, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 27s", "remaining_time": "15h 1m 51s", "loss_scale": 1.0, "consumed_samples": 427264, "global_step/max_steps": "1669/12700"}
{"lm loss": 2.23669314, "grad_norm": 0.48711416, "learning_rate": 9.825e-05, "elapsed_time_per_iteration": 4.95835018, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 32s", "remaining_time": "15h 1m 47s", "loss_scale": 1.0, "consumed_samples": 427520, "global_step/max_steps": "1670/12700"}
{"lm loss": 2.23794889, "grad_norm": 0.5893088, "learning_rate": 9.825e-05, "elapsed_time_per_iteration": 4.90158987, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 37s", "remaining_time": "15h 1m 42s", "loss_scale": 1.0, "consumed_samples": 427776, "global_step/max_steps": "1671/12700"}
{"lm loss": 2.20098376, "grad_norm": 0.61836767, "learning_rate": 9.824e-05, "elapsed_time_per_iteration": 4.90437412, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 41s", "remaining_time": "15h 1m 37s", "loss_scale": 1.0, "consumed_samples": 428032, "global_step/max_steps": "1672/12700"}
{"lm loss": 2.19729042, "grad_norm": 0.48998606, "learning_rate": 9.824e-05, "elapsed_time_per_iteration": 4.81416559, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 46s", "remaining_time": "15h 1m 32s", "loss_scale": 1.0, "consumed_samples": 428288, "global_step/max_steps": "1673/12700"}
{"lm loss": 2.22830963, "grad_norm": 0.52541965, "learning_rate": 9.824e-05, "elapsed_time_per_iteration": 4.87924051, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 51s", "remaining_time": "15h 1m 26s", "loss_scale": 1.0, "consumed_samples": 428544, "global_step/max_steps": "1674/12700"}
{"lm loss": 2.21446776, "grad_norm": 0.54514259, "learning_rate": 9.823e-05, "elapsed_time_per_iteration": 4.89802027, "memory(GiB)": 28.98, "elapsed_time": "2h 16m 56s", "remaining_time": "15h 1m 22s", "loss_scale": 1.0, "consumed_samples": 428800, "global_step/max_steps": "1675/12700"}
{"lm loss": 2.21890831, "grad_norm": 0.52861255, "learning_rate": 9.823e-05, "elapsed_time_per_iteration": 4.80620241, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 1s", "remaining_time": "15h 1m 16s", "loss_scale": 1.0, "consumed_samples": 429056, "global_step/max_steps": "1676/12700"}
{"lm loss": 2.1901536, "grad_norm": 0.48509866, "learning_rate": 9.823e-05, "elapsed_time_per_iteration": 4.97350311, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 6s", "remaining_time": "15h 1m 12s", "loss_scale": 1.0, "consumed_samples": 429312, "global_step/max_steps": "1677/12700"}
{"lm loss": 2.24313712, "grad_norm": 0.50626862, "learning_rate": 9.822e-05, "elapsed_time_per_iteration": 4.92846441, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 11s", "remaining_time": "15h 1m 7s", "loss_scale": 1.0, "consumed_samples": 429568, "global_step/max_steps": "1678/12700"}
{"lm loss": 2.20769906, "grad_norm": 0.51169515, "learning_rate": 9.822e-05, "elapsed_time_per_iteration": 4.83828759, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 16s", "remaining_time": "15h 1m 1s", "loss_scale": 1.0, "consumed_samples": 429824, "global_step/max_steps": "1679/12700"}
{"lm loss": 2.22164035, "grad_norm": 0.47233784, "learning_rate": 9.822e-05, "elapsed_time_per_iteration": 4.890661, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 20s", "remaining_time": "15h 0m 56s", "loss_scale": 1.0, "consumed_samples": 430080, "global_step/max_steps": "1680/12700"}
{"lm loss": 2.21272182, "grad_norm": 0.48918635, "learning_rate": 9.821e-05, "elapsed_time_per_iteration": 4.90001273, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 25s", "remaining_time": "15h 0m 51s", "loss_scale": 1.0, "consumed_samples": 430336, "global_step/max_steps": "1681/12700"}
{"lm loss": 2.23439193, "grad_norm": 0.46610573, "learning_rate": 9.821e-05, "elapsed_time_per_iteration": 4.87024426, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 30s", "remaining_time": "15h 0m 46s", "loss_scale": 1.0, "consumed_samples": 430592, "global_step/max_steps": "1682/12700"}
{"lm loss": 2.18544006, "grad_norm": 0.48419094, "learning_rate": 9.821e-05, "elapsed_time_per_iteration": 4.73981762, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 35s", "remaining_time": "15h 0m 40s", "loss_scale": 1.0, "consumed_samples": 430848, "global_step/max_steps": "1683/12700"}
{"lm loss": 2.20819211, "grad_norm": 0.5427745, "learning_rate": 9.82e-05, "elapsed_time_per_iteration": 4.93067002, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 40s", "remaining_time": "15h 0m 36s", "loss_scale": 1.0, "consumed_samples": 431104, "global_step/max_steps": "1684/12700"}
{"lm loss": 2.25658751, "grad_norm": 0.52679735, "learning_rate": 9.82e-05, "elapsed_time_per_iteration": 4.91150999, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 45s", "remaining_time": "15h 0m 31s", "loss_scale": 1.0, "consumed_samples": 431360, "global_step/max_steps": "1685/12700"}
{"lm loss": 2.23790956, "grad_norm": 0.46076635, "learning_rate": 9.82e-05, "elapsed_time_per_iteration": 4.99777484, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 50s", "remaining_time": "15h 0m 26s", "loss_scale": 1.0, "consumed_samples": 431616, "global_step/max_steps": "1686/12700"}
{"lm loss": 2.23607302, "grad_norm": 0.49520063, "learning_rate": 9.819e-05, "elapsed_time_per_iteration": 4.94349027, "memory(GiB)": 28.98, "elapsed_time": "2h 17m 55s", "remaining_time": "15h 0m 22s", "loss_scale": 1.0, "consumed_samples": 431872, "global_step/max_steps": "1687/12700"}
{"lm loss": 2.17324996, "grad_norm": 0.48967594, "learning_rate": 9.819e-05, "elapsed_time_per_iteration": 4.97302151, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 0s", "remaining_time": "15h 0m 17s", "loss_scale": 1.0, "consumed_samples": 432128, "global_step/max_steps": "1688/12700"}
{"lm loss": 2.25522423, "grad_norm": 0.48560467, "learning_rate": 9.818e-05, "elapsed_time_per_iteration": 4.96080947, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 5s", "remaining_time": "15h 0m 13s", "loss_scale": 1.0, "consumed_samples": 432384, "global_step/max_steps": "1689/12700"}
{"lm loss": 2.20895219, "grad_norm": 0.46887791, "learning_rate": 9.818e-05, "elapsed_time_per_iteration": 5.00333571, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 10s", "remaining_time": "15h 0m 9s", "loss_scale": 1.0, "consumed_samples": 432640, "global_step/max_steps": "1690/12700"}
{"lm loss": 2.2416954, "grad_norm": 0.43826282, "learning_rate": 9.818e-05, "elapsed_time_per_iteration": 4.83968019, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 15s", "remaining_time": "15h 0m 3s", "loss_scale": 1.0, "consumed_samples": 432896, "global_step/max_steps": "1691/12700"}
{"lm loss": 2.20591402, "grad_norm": 0.47156703, "learning_rate": 9.817e-05, "elapsed_time_per_iteration": 4.85699034, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 19s", "remaining_time": "14h 59m 58s", "loss_scale": 1.0, "consumed_samples": 433152, "global_step/max_steps": "1692/12700"}
{"lm loss": 2.22100234, "grad_norm": 0.48479787, "learning_rate": 9.817e-05, "elapsed_time_per_iteration": 4.79858756, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 24s", "remaining_time": "14h 59m 52s", "loss_scale": 1.0, "consumed_samples": 433408, "global_step/max_steps": "1693/12700"}
{"lm loss": 2.18739676, "grad_norm": 0.46043134, "learning_rate": 9.817e-05, "elapsed_time_per_iteration": 4.90947104, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 29s", "remaining_time": "14h 59m 47s", "loss_scale": 1.0, "consumed_samples": 433664, "global_step/max_steps": "1694/12700"}
{"lm loss": 2.2153542, "grad_norm": 0.47467914, "learning_rate": 9.816e-05, "elapsed_time_per_iteration": 4.99646235, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 34s", "remaining_time": "14h 59m 43s", "loss_scale": 1.0, "consumed_samples": 433920, "global_step/max_steps": "1695/12700"}
{"lm loss": 2.20827174, "grad_norm": 0.45019588, "learning_rate": 9.816e-05, "elapsed_time_per_iteration": 4.8380928, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 39s", "remaining_time": "14h 59m 38s", "loss_scale": 1.0, "consumed_samples": 434176, "global_step/max_steps": "1696/12700"}
{"lm loss": 2.20164585, "grad_norm": 0.45406097, "learning_rate": 9.816e-05, "elapsed_time_per_iteration": 4.81140494, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 44s", "remaining_time": "14h 59m 32s", "loss_scale": 1.0, "consumed_samples": 434432, "global_step/max_steps": "1697/12700"}
{"lm loss": 2.19445276, "grad_norm": 0.42545199, "learning_rate": 9.815e-05, "elapsed_time_per_iteration": 4.91712618, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 49s", "remaining_time": "14h 59m 27s", "loss_scale": 1.0, "consumed_samples": 434688, "global_step/max_steps": "1698/12700"}
{"lm loss": 2.22305202, "grad_norm": 0.48106423, "learning_rate": 9.815e-05, "elapsed_time_per_iteration": 4.79597855, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 53s", "remaining_time": "14h 59m 22s", "loss_scale": 1.0, "consumed_samples": 434944, "global_step/max_steps": "1699/12700"}
{"lm loss": 2.21358919, "grad_norm": 0.50146377, "learning_rate": 9.815e-05, "elapsed_time_per_iteration": 4.92275929, "memory(GiB)": 28.98, "elapsed_time": "2h 18m 58s", "remaining_time": "14h 59m 17s", "loss_scale": 1.0, "consumed_samples": 435200, "global_step/max_steps": "1700/12700"}
{"lm loss": 2.19610786, "grad_norm": 0.49647617, "learning_rate": 9.814e-05, "elapsed_time_per_iteration": 4.81071806, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 3s", "remaining_time": "14h 59m 12s", "loss_scale": 1.0, "consumed_samples": 435456, "global_step/max_steps": "1701/12700"}
{"lm loss": 2.18821383, "grad_norm": 0.47543508, "learning_rate": 9.814e-05, "elapsed_time_per_iteration": 4.86490893, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 8s", "remaining_time": "14h 59m 6s", "loss_scale": 1.0, "consumed_samples": 435712, "global_step/max_steps": "1702/12700"}
{"lm loss": 2.18958735, "grad_norm": 0.44463262, "learning_rate": 9.814e-05, "elapsed_time_per_iteration": 4.8446219, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 13s", "remaining_time": "14h 59m 1s", "loss_scale": 1.0, "consumed_samples": 435968, "global_step/max_steps": "1703/12700"}
{"lm loss": 2.21732783, "grad_norm": 0.45383084, "learning_rate": 9.813e-05, "elapsed_time_per_iteration": 4.89985085, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 18s", "remaining_time": "14h 58m 56s", "loss_scale": 1.0, "consumed_samples": 436224, "global_step/max_steps": "1704/12700"}
{"lm loss": 2.19150853, "grad_norm": 0.45095021, "learning_rate": 9.813e-05, "elapsed_time_per_iteration": 4.86128473, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 23s", "remaining_time": "14h 58m 51s", "loss_scale": 1.0, "consumed_samples": 436480, "global_step/max_steps": "1705/12700"}
{"lm loss": 2.2333467, "grad_norm": 0.46335459, "learning_rate": 9.813e-05, "elapsed_time_per_iteration": 4.86640787, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 28s", "remaining_time": "14h 58m 46s", "loss_scale": 1.0, "consumed_samples": 436736, "global_step/max_steps": "1706/12700"}
{"lm loss": 2.22920966, "grad_norm": 0.46439862, "learning_rate": 9.812e-05, "elapsed_time_per_iteration": 4.8826139, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 32s", "remaining_time": "14h 58m 41s", "loss_scale": 1.0, "consumed_samples": 436992, "global_step/max_steps": "1707/12700"}
{"lm loss": 2.24789286, "grad_norm": 0.4808417, "learning_rate": 9.812e-05, "elapsed_time_per_iteration": 4.93722248, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 37s", "remaining_time": "14h 58m 36s", "loss_scale": 1.0, "consumed_samples": 437248, "global_step/max_steps": "1708/12700"}
{"lm loss": 2.22628379, "grad_norm": 0.47615588, "learning_rate": 9.812e-05, "elapsed_time_per_iteration": 4.78500867, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 42s", "remaining_time": "14h 58m 30s", "loss_scale": 1.0, "consumed_samples": 437504, "global_step/max_steps": "1709/12700"}
{"lm loss": 2.2056179, "grad_norm": 0.51198065, "learning_rate": 9.811e-05, "elapsed_time_per_iteration": 4.88539147, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 47s", "remaining_time": "14h 58m 25s", "loss_scale": 1.0, "consumed_samples": 437760, "global_step/max_steps": "1710/12700"}
{"lm loss": 2.19132447, "grad_norm": 0.49411565, "learning_rate": 9.811e-05, "elapsed_time_per_iteration": 4.87850547, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 52s", "remaining_time": "14h 58m 20s", "loss_scale": 1.0, "consumed_samples": 438016, "global_step/max_steps": "1711/12700"}
{"lm loss": 2.24800181, "grad_norm": 0.50300884, "learning_rate": 9.811e-05, "elapsed_time_per_iteration": 4.78141737, "memory(GiB)": 28.98, "elapsed_time": "2h 19m 57s", "remaining_time": "14h 58m 15s", "loss_scale": 1.0, "consumed_samples": 438272, "global_step/max_steps": "1712/12700"}
{"lm loss": 2.20788479, "grad_norm": 0.49125686, "learning_rate": 9.81e-05, "elapsed_time_per_iteration": 4.8715663, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 2s", "remaining_time": "14h 58m 9s", "loss_scale": 1.0, "consumed_samples": 438528, "global_step/max_steps": "1713/12700"}
{"lm loss": 2.2036922, "grad_norm": 0.46200153, "learning_rate": 9.81e-05, "elapsed_time_per_iteration": 4.81449223, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 6s", "remaining_time": "14h 58m 4s", "loss_scale": 1.0, "consumed_samples": 438784, "global_step/max_steps": "1714/12700"}
{"lm loss": 2.21255279, "grad_norm": 0.47826689, "learning_rate": 9.809e-05, "elapsed_time_per_iteration": 4.89927244, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 11s", "remaining_time": "14h 57m 59s", "loss_scale": 1.0, "consumed_samples": 439040, "global_step/max_steps": "1715/12700"}
{"lm loss": 2.22639012, "grad_norm": 0.49985826, "learning_rate": 9.809e-05, "elapsed_time_per_iteration": 4.94845343, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 16s", "remaining_time": "14h 57m 54s", "loss_scale": 1.0, "consumed_samples": 439296, "global_step/max_steps": "1716/12700"}
{"lm loss": 2.21132612, "grad_norm": 0.49138132, "learning_rate": 9.809e-05, "elapsed_time_per_iteration": 4.83339834, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 21s", "remaining_time": "14h 57m 49s", "loss_scale": 1.0, "consumed_samples": 439552, "global_step/max_steps": "1717/12700"}
{"lm loss": 2.18443966, "grad_norm": 0.48963323, "learning_rate": 9.808e-05, "elapsed_time_per_iteration": 4.82588649, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 26s", "remaining_time": "14h 57m 44s", "loss_scale": 1.0, "consumed_samples": 439808, "global_step/max_steps": "1718/12700"}
{"lm loss": 2.23264718, "grad_norm": 0.47467411, "learning_rate": 9.808e-05, "elapsed_time_per_iteration": 4.91845942, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 31s", "remaining_time": "14h 57m 39s", "loss_scale": 1.0, "consumed_samples": 440064, "global_step/max_steps": "1719/12700"}
{"lm loss": 2.16810942, "grad_norm": 0.54966962, "learning_rate": 9.808e-05, "elapsed_time_per_iteration": 4.96730113, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 36s", "remaining_time": "14h 57m 34s", "loss_scale": 1.0, "consumed_samples": 440320, "global_step/max_steps": "1720/12700"}
{"lm loss": 2.17184258, "grad_norm": 0.48810634, "learning_rate": 9.807e-05, "elapsed_time_per_iteration": 4.86964321, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 41s", "remaining_time": "14h 57m 29s", "loss_scale": 1.0, "consumed_samples": 440576, "global_step/max_steps": "1721/12700"}
{"lm loss": 2.21937203, "grad_norm": 0.50427556, "learning_rate": 9.807e-05, "elapsed_time_per_iteration": 4.87340689, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 46s", "remaining_time": "14h 57m 24s", "loss_scale": 1.0, "consumed_samples": 440832, "global_step/max_steps": "1722/12700"}
{"lm loss": 2.20663571, "grad_norm": 0.47623044, "learning_rate": 9.807e-05, "elapsed_time_per_iteration": 4.95705104, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 50s", "remaining_time": "14h 57m 20s", "loss_scale": 1.0, "consumed_samples": 441088, "global_step/max_steps": "1723/12700"}
{"lm loss": 2.2120235, "grad_norm": 0.42306164, "learning_rate": 9.806e-05, "elapsed_time_per_iteration": 4.84717917, "memory(GiB)": 28.98, "elapsed_time": "2h 20m 55s", "remaining_time": "14h 57m 14s", "loss_scale": 1.0, "consumed_samples": 441344, "global_step/max_steps": "1724/12700"}
{"lm loss": 2.19977164, "grad_norm": 0.49633551, "learning_rate": 9.806e-05, "elapsed_time_per_iteration": 4.8756063, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 0s", "remaining_time": "14h 57m 9s", "loss_scale": 1.0, "consumed_samples": 441600, "global_step/max_steps": "1725/12700"}
{"lm loss": 2.23841667, "grad_norm": 0.47549197, "learning_rate": 9.806e-05, "elapsed_time_per_iteration": 4.91990805, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 5s", "remaining_time": "14h 57m 4s", "loss_scale": 1.0, "consumed_samples": 441856, "global_step/max_steps": "1726/12700"}
{"lm loss": 2.22419739, "grad_norm": 0.45159009, "learning_rate": 9.805e-05, "elapsed_time_per_iteration": 4.87526727, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 10s", "remaining_time": "14h 56m 59s", "loss_scale": 1.0, "consumed_samples": 442112, "global_step/max_steps": "1727/12700"}
{"lm loss": 2.22672749, "grad_norm": 0.47425628, "learning_rate": 9.805e-05, "elapsed_time_per_iteration": 4.83129501, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 15s", "remaining_time": "14h 56m 54s", "loss_scale": 1.0, "consumed_samples": 442368, "global_step/max_steps": "1728/12700"}
{"lm loss": 2.22919011, "grad_norm": 0.57592791, "learning_rate": 9.805e-05, "elapsed_time_per_iteration": 4.91251779, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 20s", "remaining_time": "14h 56m 49s", "loss_scale": 1.0, "consumed_samples": 442624, "global_step/max_steps": "1729/12700"}
{"lm loss": 2.21385431, "grad_norm": 0.5537129, "learning_rate": 9.804e-05, "elapsed_time_per_iteration": 4.80472565, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 25s", "remaining_time": "14h 56m 43s", "loss_scale": 1.0, "consumed_samples": 442880, "global_step/max_steps": "1730/12700"}
{"lm loss": 2.22634292, "grad_norm": 0.45728502, "learning_rate": 9.804e-05, "elapsed_time_per_iteration": 4.83223128, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 29s", "remaining_time": "14h 56m 38s", "loss_scale": 1.0, "consumed_samples": 443136, "global_step/max_steps": "1731/12700"}
{"lm loss": 2.20998263, "grad_norm": 0.47295415, "learning_rate": 9.803e-05, "elapsed_time_per_iteration": 4.83257508, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 34s", "remaining_time": "14h 56m 33s", "loss_scale": 1.0, "consumed_samples": 443392, "global_step/max_steps": "1732/12700"}
{"lm loss": 2.22466373, "grad_norm": 0.49267763, "learning_rate": 9.803e-05, "elapsed_time_per_iteration": 4.92861462, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 39s", "remaining_time": "14h 56m 28s", "loss_scale": 1.0, "consumed_samples": 443648, "global_step/max_steps": "1733/12700"}
{"lm loss": 2.20437074, "grad_norm": 0.48318437, "learning_rate": 9.803e-05, "elapsed_time_per_iteration": 4.87046456, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 44s", "remaining_time": "14h 56m 23s", "loss_scale": 1.0, "consumed_samples": 443904, "global_step/max_steps": "1734/12700"}
{"lm loss": 2.25156784, "grad_norm": 0.456016, "learning_rate": 9.802e-05, "elapsed_time_per_iteration": 4.91417623, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 49s", "remaining_time": "14h 56m 18s", "loss_scale": 1.0, "consumed_samples": 444160, "global_step/max_steps": "1735/12700"}
{"lm loss": 2.23074913, "grad_norm": 0.44292811, "learning_rate": 9.802e-05, "elapsed_time_per_iteration": 4.98404002, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 54s", "remaining_time": "14h 56m 14s", "loss_scale": 1.0, "consumed_samples": 444416, "global_step/max_steps": "1736/12700"}
{"lm loss": 2.22648191, "grad_norm": 0.41999152, "learning_rate": 9.802e-05, "elapsed_time_per_iteration": 5.00477386, "memory(GiB)": 28.98, "elapsed_time": "2h 21m 59s", "remaining_time": "14h 56m 9s", "loss_scale": 1.0, "consumed_samples": 444672, "global_step/max_steps": "1737/12700"}
{"lm loss": 2.1918323, "grad_norm": 0.46058607, "learning_rate": 9.801e-05, "elapsed_time_per_iteration": 4.87267709, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 4s", "remaining_time": "14h 56m 4s", "loss_scale": 1.0, "consumed_samples": 444928, "global_step/max_steps": "1738/12700"}
{"lm loss": 2.17260003, "grad_norm": 0.43755347, "learning_rate": 9.801e-05, "elapsed_time_per_iteration": 4.92656183, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 9s", "remaining_time": "14h 55m 59s", "loss_scale": 1.0, "consumed_samples": 445184, "global_step/max_steps": "1739/12700"}
{"lm loss": 2.21741009, "grad_norm": 0.43003073, "learning_rate": 9.801e-05, "elapsed_time_per_iteration": 4.92748594, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 14s", "remaining_time": "14h 55m 55s", "loss_scale": 1.0, "consumed_samples": 445440, "global_step/max_steps": "1740/12700"}
{"lm loss": 2.20641732, "grad_norm": 0.45798942, "learning_rate": 9.8e-05, "elapsed_time_per_iteration": 4.94397068, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 19s", "remaining_time": "14h 55m 50s", "loss_scale": 1.0, "consumed_samples": 445696, "global_step/max_steps": "1741/12700"}
{"lm loss": 2.21451283, "grad_norm": 0.49138698, "learning_rate": 9.8e-05, "elapsed_time_per_iteration": 4.89580846, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 23s", "remaining_time": "14h 55m 45s", "loss_scale": 1.0, "consumed_samples": 445952, "global_step/max_steps": "1742/12700"}
{"lm loss": 2.23255038, "grad_norm": 0.47706568, "learning_rate": 9.8e-05, "elapsed_time_per_iteration": 4.83829427, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 28s", "remaining_time": "14h 55m 40s", "loss_scale": 1.0, "consumed_samples": 446208, "global_step/max_steps": "1743/12700"}
{"lm loss": 2.19550061, "grad_norm": 0.44776526, "learning_rate": 9.799e-05, "elapsed_time_per_iteration": 4.83158565, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 33s", "remaining_time": "14h 55m 34s", "loss_scale": 1.0, "consumed_samples": 446464, "global_step/max_steps": "1744/12700"}
{"lm loss": 2.22076106, "grad_norm": 0.46133989, "learning_rate": 9.799e-05, "elapsed_time_per_iteration": 4.87047768, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 38s", "remaining_time": "14h 55m 29s", "loss_scale": 1.0, "consumed_samples": 446720, "global_step/max_steps": "1745/12700"}
{"lm loss": 2.23402095, "grad_norm": 0.48292649, "learning_rate": 9.798e-05, "elapsed_time_per_iteration": 4.87208247, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 43s", "remaining_time": "14h 55m 24s", "loss_scale": 1.0, "consumed_samples": 446976, "global_step/max_steps": "1746/12700"}
{"lm loss": 2.21084929, "grad_norm": 0.5020954, "learning_rate": 9.798e-05, "elapsed_time_per_iteration": 4.9343555, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 48s", "remaining_time": "14h 55m 19s", "loss_scale": 1.0, "consumed_samples": 447232, "global_step/max_steps": "1747/12700"}
{"lm loss": 2.19686007, "grad_norm": 0.47333586, "learning_rate": 9.798e-05, "elapsed_time_per_iteration": 4.88435435, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 53s", "remaining_time": "14h 55m 14s", "loss_scale": 1.0, "consumed_samples": 447488, "global_step/max_steps": "1748/12700"}
{"lm loss": 2.18806338, "grad_norm": 0.47004703, "learning_rate": 9.797e-05, "elapsed_time_per_iteration": 4.77986598, "memory(GiB)": 28.98, "elapsed_time": "2h 22m 57s", "remaining_time": "14h 55m 9s", "loss_scale": 1.0, "consumed_samples": 447744, "global_step/max_steps": "1749/12700"}
{"lm loss": 2.20048094, "grad_norm": 0.48272175, "learning_rate": 9.797e-05, "elapsed_time_per_iteration": 4.85022116, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 2s", "remaining_time": "14h 55m 4s", "loss_scale": 1.0, "consumed_samples": 448000, "global_step/max_steps": "1750/12700"}
{"lm loss": 2.20980048, "grad_norm": 0.4667531, "learning_rate": 9.797e-05, "elapsed_time_per_iteration": 4.85078931, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 7s", "remaining_time": "14h 54m 58s", "loss_scale": 1.0, "consumed_samples": 448256, "global_step/max_steps": "1751/12700"}
{"lm loss": 2.20754671, "grad_norm": 0.45675907, "learning_rate": 9.796e-05, "elapsed_time_per_iteration": 4.87951756, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 12s", "remaining_time": "14h 54m 53s", "loss_scale": 1.0, "consumed_samples": 448512, "global_step/max_steps": "1752/12700"}
{"lm loss": 2.20558619, "grad_norm": 0.46610156, "learning_rate": 9.796e-05, "elapsed_time_per_iteration": 4.79420447, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 17s", "remaining_time": "14h 54m 48s", "loss_scale": 1.0, "consumed_samples": 448768, "global_step/max_steps": "1753/12700"}
{"lm loss": 2.22239351, "grad_norm": 0.50762534, "learning_rate": 9.796e-05, "elapsed_time_per_iteration": 4.90401912, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 22s", "remaining_time": "14h 54m 43s", "loss_scale": 1.0, "consumed_samples": 449024, "global_step/max_steps": "1754/12700"}
{"lm loss": 2.22016597, "grad_norm": 0.49808368, "learning_rate": 9.795e-05, "elapsed_time_per_iteration": 4.81752086, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 27s", "remaining_time": "14h 54m 37s", "loss_scale": 1.0, "consumed_samples": 449280, "global_step/max_steps": "1755/12700"}
{"lm loss": 2.22061157, "grad_norm": 0.45515588, "learning_rate": 9.795e-05, "elapsed_time_per_iteration": 4.81493354, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 31s", "remaining_time": "14h 54m 32s", "loss_scale": 1.0, "consumed_samples": 449536, "global_step/max_steps": "1756/12700"}
{"lm loss": 2.21096182, "grad_norm": 0.45239377, "learning_rate": 9.794e-05, "elapsed_time_per_iteration": 4.81258678, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 36s", "remaining_time": "14h 54m 26s", "loss_scale": 1.0, "consumed_samples": 449792, "global_step/max_steps": "1757/12700"}
{"lm loss": 2.20455456, "grad_norm": 0.48603791, "learning_rate": 9.794e-05, "elapsed_time_per_iteration": 4.74805021, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 41s", "remaining_time": "14h 54m 20s", "loss_scale": 1.0, "consumed_samples": 450048, "global_step/max_steps": "1758/12700"}
{"lm loss": 2.21713829, "grad_norm": 0.44549084, "learning_rate": 9.794e-05, "elapsed_time_per_iteration": 4.93180919, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 46s", "remaining_time": "14h 54m 16s", "loss_scale": 1.0, "consumed_samples": 450304, "global_step/max_steps": "1759/12700"}
{"lm loss": 2.22377729, "grad_norm": 0.44141445, "learning_rate": 9.793e-05, "elapsed_time_per_iteration": 4.88164425, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 51s", "remaining_time": "14h 54m 11s", "loss_scale": 1.0, "consumed_samples": 450560, "global_step/max_steps": "1760/12700"}
{"lm loss": 2.23558307, "grad_norm": 0.47186479, "learning_rate": 9.793e-05, "elapsed_time_per_iteration": 4.79179645, "memory(GiB)": 28.98, "elapsed_time": "2h 23m 56s", "remaining_time": "14h 54m 5s", "loss_scale": 1.0, "consumed_samples": 450816, "global_step/max_steps": "1761/12700"}
{"lm loss": 2.18811274, "grad_norm": 0.51464671, "learning_rate": 9.793e-05, "elapsed_time_per_iteration": 5.00685239, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 1s", "remaining_time": "14h 54m 1s", "loss_scale": 1.0, "consumed_samples": 451072, "global_step/max_steps": "1762/12700"}
{"lm loss": 2.21327782, "grad_norm": 0.54175568, "learning_rate": 9.792e-05, "elapsed_time_per_iteration": 4.80706048, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 5s", "remaining_time": "14h 53m 55s", "loss_scale": 1.0, "consumed_samples": 451328, "global_step/max_steps": "1763/12700"}
{"lm loss": 2.21354413, "grad_norm": 0.49817118, "learning_rate": 9.792e-05, "elapsed_time_per_iteration": 4.82874918, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 10s", "remaining_time": "14h 53m 50s", "loss_scale": 1.0, "consumed_samples": 451584, "global_step/max_steps": "1764/12700"}
{"lm loss": 2.22713137, "grad_norm": 0.48877776, "learning_rate": 9.792e-05, "elapsed_time_per_iteration": 4.92355967, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 15s", "remaining_time": "14h 53m 45s", "loss_scale": 1.0, "consumed_samples": 451840, "global_step/max_steps": "1765/12700"}
{"lm loss": 2.24947715, "grad_norm": 0.44143122, "learning_rate": 9.791e-05, "elapsed_time_per_iteration": 4.92355132, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 20s", "remaining_time": "14h 53m 40s", "loss_scale": 1.0, "consumed_samples": 452096, "global_step/max_steps": "1766/12700"}
{"lm loss": 2.21670532, "grad_norm": 0.47466299, "learning_rate": 9.791e-05, "elapsed_time_per_iteration": 4.90687895, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 25s", "remaining_time": "14h 53m 35s", "loss_scale": 1.0, "consumed_samples": 452352, "global_step/max_steps": "1767/12700"}
{"lm loss": 2.20798898, "grad_norm": 0.54111713, "learning_rate": 9.79e-05, "elapsed_time_per_iteration": 4.89391661, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 30s", "remaining_time": "14h 53m 31s", "loss_scale": 1.0, "consumed_samples": 452608, "global_step/max_steps": "1768/12700"}
{"lm loss": 2.21054697, "grad_norm": 0.58838987, "learning_rate": 9.79e-05, "elapsed_time_per_iteration": 4.73830485, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 35s", "remaining_time": "14h 53m 25s", "loss_scale": 1.0, "consumed_samples": 452864, "global_step/max_steps": "1769/12700"}
{"lm loss": 2.23457527, "grad_norm": 0.5599252, "learning_rate": 9.79e-05, "elapsed_time_per_iteration": 4.90141582, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 39s", "remaining_time": "14h 53m 20s", "loss_scale": 1.0, "consumed_samples": 453120, "global_step/max_steps": "1770/12700"}
{"lm loss": 2.19256568, "grad_norm": 0.43181002, "learning_rate": 9.789e-05, "elapsed_time_per_iteration": 5.01130295, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 45s", "remaining_time": "14h 53m 15s", "loss_scale": 1.0, "consumed_samples": 453376, "global_step/max_steps": "1771/12700"}
{"lm loss": 2.19025755, "grad_norm": 0.4911235, "learning_rate": 9.789e-05, "elapsed_time_per_iteration": 4.79191136, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 49s", "remaining_time": "14h 53m 10s", "loss_scale": 1.0, "consumed_samples": 453632, "global_step/max_steps": "1772/12700"}
{"lm loss": 2.2146225, "grad_norm": 0.50875038, "learning_rate": 9.789e-05, "elapsed_time_per_iteration": 4.85809779, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 54s", "remaining_time": "14h 53m 5s", "loss_scale": 1.0, "consumed_samples": 453888, "global_step/max_steps": "1773/12700"}
{"lm loss": 2.22623205, "grad_norm": 0.49357563, "learning_rate": 9.788e-05, "elapsed_time_per_iteration": 4.74701309, "memory(GiB)": 28.98, "elapsed_time": "2h 24m 59s", "remaining_time": "14h 52m 59s", "loss_scale": 1.0, "consumed_samples": 454144, "global_step/max_steps": "1774/12700"}
{"lm loss": 2.20156503, "grad_norm": 0.49246848, "learning_rate": 9.788e-05, "elapsed_time_per_iteration": 4.88659406, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 4s", "remaining_time": "14h 52m 54s", "loss_scale": 1.0, "consumed_samples": 454400, "global_step/max_steps": "1775/12700"}
{"lm loss": 2.17732882, "grad_norm": 0.49595395, "learning_rate": 9.788e-05, "elapsed_time_per_iteration": 4.76852036, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 9s", "remaining_time": "14h 52m 48s", "loss_scale": 1.0, "consumed_samples": 454656, "global_step/max_steps": "1776/12700"}
{"lm loss": 2.20712209, "grad_norm": 0.45405668, "learning_rate": 9.787e-05, "elapsed_time_per_iteration": 4.91248178, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 13s", "remaining_time": "14h 52m 43s", "loss_scale": 1.0, "consumed_samples": 454912, "global_step/max_steps": "1777/12700"}
{"lm loss": 2.22292924, "grad_norm": 0.47776327, "learning_rate": 9.787e-05, "elapsed_time_per_iteration": 5.01245308, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 18s", "remaining_time": "14h 52m 39s", "loss_scale": 1.0, "consumed_samples": 455168, "global_step/max_steps": "1778/12700"}
{"lm loss": 2.23364925, "grad_norm": 0.48404664, "learning_rate": 9.786e-05, "elapsed_time_per_iteration": 4.93587375, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 23s", "remaining_time": "14h 52m 34s", "loss_scale": 1.0, "consumed_samples": 455424, "global_step/max_steps": "1779/12700"}
{"lm loss": 2.20981407, "grad_norm": 0.50200963, "learning_rate": 9.786e-05, "elapsed_time_per_iteration": 4.868433, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 28s", "remaining_time": "14h 52m 29s", "loss_scale": 1.0, "consumed_samples": 455680, "global_step/max_steps": "1780/12700"}
{"lm loss": 2.24348187, "grad_norm": 0.47830784, "learning_rate": 9.786e-05, "elapsed_time_per_iteration": 4.92301989, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 33s", "remaining_time": "14h 52m 24s", "loss_scale": 1.0, "consumed_samples": 455936, "global_step/max_steps": "1781/12700"}
{"lm loss": 2.19343328, "grad_norm": 0.454889, "learning_rate": 9.785e-05, "elapsed_time_per_iteration": 4.90134835, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 38s", "remaining_time": "14h 52m 19s", "loss_scale": 1.0, "consumed_samples": 456192, "global_step/max_steps": "1782/12700"}
{"lm loss": 2.26142025, "grad_norm": 0.54717726, "learning_rate": 9.785e-05, "elapsed_time_per_iteration": 4.82665801, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 43s", "remaining_time": "14h 52m 14s", "loss_scale": 1.0, "consumed_samples": 456448, "global_step/max_steps": "1783/12700"}
{"lm loss": 2.18160295, "grad_norm": 0.56427372, "learning_rate": 9.785e-05, "elapsed_time_per_iteration": 4.90851974, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 48s", "remaining_time": "14h 52m 9s", "loss_scale": 1.0, "consumed_samples": 456704, "global_step/max_steps": "1784/12700"}
{"lm loss": 2.19621515, "grad_norm": 0.50188684, "learning_rate": 9.784e-05, "elapsed_time_per_iteration": 4.84164238, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 53s", "remaining_time": "14h 52m 4s", "loss_scale": 1.0, "consumed_samples": 456960, "global_step/max_steps": "1785/12700"}
{"lm loss": 2.19718623, "grad_norm": 0.47794613, "learning_rate": 9.784e-05, "elapsed_time_per_iteration": 4.93008399, "memory(GiB)": 28.98, "elapsed_time": "2h 25m 58s", "remaining_time": "14h 51m 59s", "loss_scale": 1.0, "consumed_samples": 457216, "global_step/max_steps": "1786/12700"}
{"lm loss": 2.22098255, "grad_norm": 0.54779297, "learning_rate": 9.783e-05, "elapsed_time_per_iteration": 4.89945626, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 3s", "remaining_time": "14h 51m 54s", "loss_scale": 1.0, "consumed_samples": 457472, "global_step/max_steps": "1787/12700"}
{"lm loss": 2.19419026, "grad_norm": 0.53364581, "learning_rate": 9.783e-05, "elapsed_time_per_iteration": 4.82936573, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 7s", "remaining_time": "14h 51m 49s", "loss_scale": 1.0, "consumed_samples": 457728, "global_step/max_steps": "1788/12700"}
{"lm loss": 2.24075985, "grad_norm": 0.46842721, "learning_rate": 9.783e-05, "elapsed_time_per_iteration": 4.93845582, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 12s", "remaining_time": "14h 51m 44s", "loss_scale": 1.0, "consumed_samples": 457984, "global_step/max_steps": "1789/12700"}
{"lm loss": 2.18529034, "grad_norm": 0.56503087, "learning_rate": 9.782e-05, "elapsed_time_per_iteration": 4.88671207, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 17s", "remaining_time": "14h 51m 39s", "loss_scale": 1.0, "consumed_samples": 458240, "global_step/max_steps": "1790/12700"}
{"lm loss": 2.19619012, "grad_norm": 0.57673609, "learning_rate": 9.782e-05, "elapsed_time_per_iteration": 4.92754149, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 22s", "remaining_time": "14h 51m 34s", "loss_scale": 1.0, "consumed_samples": 458496, "global_step/max_steps": "1791/12700"}
{"lm loss": 2.22377563, "grad_norm": 0.47166604, "learning_rate": 9.782e-05, "elapsed_time_per_iteration": 4.84578466, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 27s", "remaining_time": "14h 51m 29s", "loss_scale": 1.0, "consumed_samples": 458752, "global_step/max_steps": "1792/12700"}
{"lm loss": 2.21274209, "grad_norm": 0.52047229, "learning_rate": 9.781e-05, "elapsed_time_per_iteration": 4.8779695, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 32s", "remaining_time": "14h 51m 24s", "loss_scale": 1.0, "consumed_samples": 459008, "global_step/max_steps": "1793/12700"}
{"lm loss": 2.2047627, "grad_norm": 0.5172869, "learning_rate": 9.781e-05, "elapsed_time_per_iteration": 4.86195898, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 37s", "remaining_time": "14h 51m 19s", "loss_scale": 1.0, "consumed_samples": 459264, "global_step/max_steps": "1794/12700"}
{"lm loss": 2.19411063, "grad_norm": 0.43669072, "learning_rate": 9.78e-05, "elapsed_time_per_iteration": 4.8450799, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 42s", "remaining_time": "14h 51m 14s", "loss_scale": 1.0, "consumed_samples": 459520, "global_step/max_steps": "1795/12700"}
{"lm loss": 2.18219543, "grad_norm": 0.47284493, "learning_rate": 9.78e-05, "elapsed_time_per_iteration": 4.94831204, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 46s", "remaining_time": "14h 51m 9s", "loss_scale": 1.0, "consumed_samples": 459776, "global_step/max_steps": "1796/12700"}
{"lm loss": 2.15803909, "grad_norm": 0.46276122, "learning_rate": 9.78e-05, "elapsed_time_per_iteration": 4.92535448, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 51s", "remaining_time": "14h 51m 4s", "loss_scale": 1.0, "consumed_samples": 460032, "global_step/max_steps": "1797/12700"}
{"lm loss": 2.19293118, "grad_norm": 0.49025586, "learning_rate": 9.779e-05, "elapsed_time_per_iteration": 4.92568135, "memory(GiB)": 28.98, "elapsed_time": "2h 26m 56s", "remaining_time": "14h 50m 59s", "loss_scale": 1.0, "consumed_samples": 460288, "global_step/max_steps": "1798/12700"}
{"lm loss": 2.20149374, "grad_norm": 0.46951273, "learning_rate": 9.779e-05, "elapsed_time_per_iteration": 4.92884111, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 1s", "remaining_time": "14h 50m 55s", "loss_scale": 1.0, "consumed_samples": 460544, "global_step/max_steps": "1799/12700"}
{"lm loss": 2.22035861, "grad_norm": 0.47597346, "learning_rate": 9.779e-05, "elapsed_time_per_iteration": 5.68297029, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 7s", "remaining_time": "14h 50m 55s", "loss_scale": 1.0, "consumed_samples": 460800, "global_step/max_steps": "1800/12700"}
{"lm loss": 2.18532085, "grad_norm": 0.48155841, "learning_rate": 9.778e-05, "elapsed_time_per_iteration": 4.80542231, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 12s", "remaining_time": "14h 50m 49s", "loss_scale": 1.0, "consumed_samples": 461056, "global_step/max_steps": "1801/12700"}
{"lm loss": 2.21857548, "grad_norm": 0.49708283, "learning_rate": 9.778e-05, "elapsed_time_per_iteration": 4.87135458, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 17s", "remaining_time": "14h 50m 44s", "loss_scale": 1.0, "consumed_samples": 461312, "global_step/max_steps": "1802/12700"}
{"lm loss": 2.20862174, "grad_norm": 0.46243638, "learning_rate": 9.777e-05, "elapsed_time_per_iteration": 4.91035318, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 22s", "remaining_time": "14h 50m 39s", "loss_scale": 1.0, "consumed_samples": 461568, "global_step/max_steps": "1803/12700"}
{"lm loss": 2.24759173, "grad_norm": 0.42149517, "learning_rate": 9.777e-05, "elapsed_time_per_iteration": 5.00659871, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 27s", "remaining_time": "14h 50m 35s", "loss_scale": 1.0, "consumed_samples": 461824, "global_step/max_steps": "1804/12700"}
{"lm loss": 2.21337271, "grad_norm": 0.44674811, "learning_rate": 9.777e-05, "elapsed_time_per_iteration": 4.81157637, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 31s", "remaining_time": "14h 50m 29s", "loss_scale": 1.0, "consumed_samples": 462080, "global_step/max_steps": "1805/12700"}
{"lm loss": 2.15957475, "grad_norm": 0.42640504, "learning_rate": 9.776e-05, "elapsed_time_per_iteration": 4.82590961, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 36s", "remaining_time": "14h 50m 24s", "loss_scale": 1.0, "consumed_samples": 462336, "global_step/max_steps": "1806/12700"}
{"lm loss": 2.20455456, "grad_norm": 0.40354499, "learning_rate": 9.776e-05, "elapsed_time_per_iteration": 4.88332701, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 41s", "remaining_time": "14h 50m 19s", "loss_scale": 1.0, "consumed_samples": 462592, "global_step/max_steps": "1807/12700"}
{"lm loss": 2.19974065, "grad_norm": 0.43272391, "learning_rate": 9.776e-05, "elapsed_time_per_iteration": 4.84079123, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 46s", "remaining_time": "14h 50m 14s", "loss_scale": 1.0, "consumed_samples": 462848, "global_step/max_steps": "1808/12700"}
{"lm loss": 2.22762752, "grad_norm": 0.43489659, "learning_rate": 9.775e-05, "elapsed_time_per_iteration": 4.82172751, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 51s", "remaining_time": "14h 50m 8s", "loss_scale": 1.0, "consumed_samples": 463104, "global_step/max_steps": "1809/12700"}
{"lm loss": 2.15486979, "grad_norm": 0.41685247, "learning_rate": 9.775e-05, "elapsed_time_per_iteration": 4.88596702, "memory(GiB)": 28.98, "elapsed_time": "2h 27m 56s", "remaining_time": "14h 50m 3s", "loss_scale": 1.0, "consumed_samples": 463360, "global_step/max_steps": "1810/12700"}
{"lm loss": 2.20312953, "grad_norm": 0.45210803, "learning_rate": 9.774e-05, "elapsed_time_per_iteration": 4.94117737, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 1s", "remaining_time": "14h 49m 59s", "loss_scale": 1.0, "consumed_samples": 463616, "global_step/max_steps": "1811/12700"}
{"lm loss": 2.20385957, "grad_norm": 0.46818015, "learning_rate": 9.774e-05, "elapsed_time_per_iteration": 4.82405305, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 5s", "remaining_time": "14h 49m 53s", "loss_scale": 1.0, "consumed_samples": 463872, "global_step/max_steps": "1812/12700"}
{"lm loss": 2.16174316, "grad_norm": 0.47784004, "learning_rate": 9.774e-05, "elapsed_time_per_iteration": 4.90937972, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 10s", "remaining_time": "14h 49m 48s", "loss_scale": 1.0, "consumed_samples": 464128, "global_step/max_steps": "1813/12700"}
{"lm loss": 2.17789531, "grad_norm": 0.4258931, "learning_rate": 9.773e-05, "elapsed_time_per_iteration": 4.86009645, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 15s", "remaining_time": "14h 49m 43s", "loss_scale": 1.0, "consumed_samples": 464384, "global_step/max_steps": "1814/12700"}
{"lm loss": 2.21466017, "grad_norm": 0.42849931, "learning_rate": 9.773e-05, "elapsed_time_per_iteration": 4.82171988, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 20s", "remaining_time": "14h 49m 38s", "loss_scale": 1.0, "consumed_samples": 464640, "global_step/max_steps": "1815/12700"}
{"lm loss": 2.19801998, "grad_norm": 0.42487949, "learning_rate": 9.772e-05, "elapsed_time_per_iteration": 4.87505937, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 25s", "remaining_time": "14h 49m 33s", "loss_scale": 1.0, "consumed_samples": 464896, "global_step/max_steps": "1816/12700"}
{"lm loss": 2.22019386, "grad_norm": 0.43179908, "learning_rate": 9.772e-05, "elapsed_time_per_iteration": 4.89451861, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 30s", "remaining_time": "14h 49m 28s", "loss_scale": 1.0, "consumed_samples": 465152, "global_step/max_steps": "1817/12700"}
{"lm loss": 2.18449712, "grad_norm": 0.43954855, "learning_rate": 9.772e-05, "elapsed_time_per_iteration": 4.75138068, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 34s", "remaining_time": "14h 49m 22s", "loss_scale": 1.0, "consumed_samples": 465408, "global_step/max_steps": "1818/12700"}
{"lm loss": 2.19264054, "grad_norm": 0.46120495, "learning_rate": 9.771e-05, "elapsed_time_per_iteration": 4.84334278, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 39s", "remaining_time": "14h 49m 17s", "loss_scale": 1.0, "consumed_samples": 465664, "global_step/max_steps": "1819/12700"}
{"lm loss": 2.21932316, "grad_norm": 0.44897267, "learning_rate": 9.771e-05, "elapsed_time_per_iteration": 4.75309753, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 44s", "remaining_time": "14h 49m 11s", "loss_scale": 1.0, "consumed_samples": 465920, "global_step/max_steps": "1820/12700"}
{"lm loss": 2.22381926, "grad_norm": 0.50427872, "learning_rate": 9.771e-05, "elapsed_time_per_iteration": 4.90250587, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 49s", "remaining_time": "14h 49m 6s", "loss_scale": 1.0, "consumed_samples": 466176, "global_step/max_steps": "1821/12700"}
{"lm loss": 2.16613698, "grad_norm": 0.43212765, "learning_rate": 9.77e-05, "elapsed_time_per_iteration": 4.86763811, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 54s", "remaining_time": "14h 49m 1s", "loss_scale": 1.0, "consumed_samples": 466432, "global_step/max_steps": "1822/12700"}
{"lm loss": 2.22576261, "grad_norm": 0.43647632, "learning_rate": 9.77e-05, "elapsed_time_per_iteration": 4.93104768, "memory(GiB)": 28.98, "elapsed_time": "2h 28m 59s", "remaining_time": "14h 48m 56s", "loss_scale": 1.0, "consumed_samples": 466688, "global_step/max_steps": "1823/12700"}
{"lm loss": 2.20228529, "grad_norm": 0.46448305, "learning_rate": 9.769e-05, "elapsed_time_per_iteration": 4.81259656, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 4s", "remaining_time": "14h 48m 51s", "loss_scale": 1.0, "consumed_samples": 466944, "global_step/max_steps": "1824/12700"}
{"lm loss": 2.22350836, "grad_norm": 0.44949025, "learning_rate": 9.769e-05, "elapsed_time_per_iteration": 4.82925129, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 8s", "remaining_time": "14h 48m 45s", "loss_scale": 1.0, "consumed_samples": 467200, "global_step/max_steps": "1825/12700"}
{"lm loss": 2.23732877, "grad_norm": 0.46790704, "learning_rate": 9.769e-05, "elapsed_time_per_iteration": 4.9263773, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 13s", "remaining_time": "14h 48m 40s", "loss_scale": 1.0, "consumed_samples": 467456, "global_step/max_steps": "1826/12700"}
{"lm loss": 2.20242882, "grad_norm": 0.4972443, "learning_rate": 9.768e-05, "elapsed_time_per_iteration": 4.91149879, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 18s", "remaining_time": "14h 48m 36s", "loss_scale": 1.0, "consumed_samples": 467712, "global_step/max_steps": "1827/12700"}
{"lm loss": 2.19497681, "grad_norm": 0.46734288, "learning_rate": 9.768e-05, "elapsed_time_per_iteration": 4.87819409, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 23s", "remaining_time": "14h 48m 31s", "loss_scale": 1.0, "consumed_samples": 467968, "global_step/max_steps": "1828/12700"}
{"lm loss": 2.19901896, "grad_norm": 0.45527816, "learning_rate": 9.767e-05, "elapsed_time_per_iteration": 4.88421726, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 28s", "remaining_time": "14h 48m 26s", "loss_scale": 1.0, "consumed_samples": 468224, "global_step/max_steps": "1829/12700"}
{"lm loss": 2.22055769, "grad_norm": 0.50154448, "learning_rate": 9.767e-05, "elapsed_time_per_iteration": 4.92710018, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 33s", "remaining_time": "14h 48m 21s", "loss_scale": 1.0, "consumed_samples": 468480, "global_step/max_steps": "1830/12700"}
{"lm loss": 2.21066093, "grad_norm": 0.55212998, "learning_rate": 9.767e-05, "elapsed_time_per_iteration": 4.95781088, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 38s", "remaining_time": "14h 48m 16s", "loss_scale": 1.0, "consumed_samples": 468736, "global_step/max_steps": "1831/12700"}
{"lm loss": 2.19045329, "grad_norm": 0.52085799, "learning_rate": 9.766e-05, "elapsed_time_per_iteration": 4.84815574, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 43s", "remaining_time": "14h 48m 11s", "loss_scale": 1.0, "consumed_samples": 468992, "global_step/max_steps": "1832/12700"}
{"lm loss": 2.20067549, "grad_norm": 0.45694715, "learning_rate": 9.766e-05, "elapsed_time_per_iteration": 4.90769601, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 48s", "remaining_time": "14h 48m 6s", "loss_scale": 1.0, "consumed_samples": 469248, "global_step/max_steps": "1833/12700"}
{"lm loss": 2.23870468, "grad_norm": 0.51383257, "learning_rate": 9.766e-05, "elapsed_time_per_iteration": 4.84855723, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 53s", "remaining_time": "14h 48m 1s", "loss_scale": 1.0, "consumed_samples": 469504, "global_step/max_steps": "1834/12700"}
{"lm loss": 2.19872499, "grad_norm": 0.5179261, "learning_rate": 9.765e-05, "elapsed_time_per_iteration": 4.80638313, "memory(GiB)": 28.98, "elapsed_time": "2h 29m 57s", "remaining_time": "14h 47m 55s", "loss_scale": 1.0, "consumed_samples": 469760, "global_step/max_steps": "1835/12700"}
{"lm loss": 2.18287992, "grad_norm": 0.45727691, "learning_rate": 9.765e-05, "elapsed_time_per_iteration": 4.85967565, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 2s", "remaining_time": "14h 47m 50s", "loss_scale": 1.0, "consumed_samples": 470016, "global_step/max_steps": "1836/12700"}
{"lm loss": 2.19881463, "grad_norm": 0.48985443, "learning_rate": 9.764e-05, "elapsed_time_per_iteration": 4.94790292, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 7s", "remaining_time": "14h 47m 46s", "loss_scale": 1.0, "consumed_samples": 470272, "global_step/max_steps": "1837/12700"}
{"lm loss": 2.22083282, "grad_norm": 0.5542466, "learning_rate": 9.764e-05, "elapsed_time_per_iteration": 4.8780427, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 12s", "remaining_time": "14h 47m 41s", "loss_scale": 1.0, "consumed_samples": 470528, "global_step/max_steps": "1838/12700"}
{"lm loss": 2.18860531, "grad_norm": 0.53955829, "learning_rate": 9.764e-05, "elapsed_time_per_iteration": 4.89828992, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 17s", "remaining_time": "14h 47m 36s", "loss_scale": 1.0, "consumed_samples": 470784, "global_step/max_steps": "1839/12700"}
{"lm loss": 2.15905666, "grad_norm": 0.51294076, "learning_rate": 9.763e-05, "elapsed_time_per_iteration": 4.89248347, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 22s", "remaining_time": "14h 47m 31s", "loss_scale": 1.0, "consumed_samples": 471040, "global_step/max_steps": "1840/12700"}
{"lm loss": 2.19323826, "grad_norm": 0.4828282, "learning_rate": 9.763e-05, "elapsed_time_per_iteration": 4.8432982, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 27s", "remaining_time": "14h 47m 25s", "loss_scale": 1.0, "consumed_samples": 471296, "global_step/max_steps": "1841/12700"}
{"lm loss": 2.21849895, "grad_norm": 0.45832172, "learning_rate": 9.762e-05, "elapsed_time_per_iteration": 4.80663872, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 31s", "remaining_time": "14h 47m 20s", "loss_scale": 1.0, "consumed_samples": 471552, "global_step/max_steps": "1842/12700"}
{"lm loss": 2.22969604, "grad_norm": 0.48019314, "learning_rate": 9.762e-05, "elapsed_time_per_iteration": 4.78009701, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 36s", "remaining_time": "14h 47m 14s", "loss_scale": 1.0, "consumed_samples": 471808, "global_step/max_steps": "1843/12700"}
{"lm loss": 2.21161222, "grad_norm": 0.4517833, "learning_rate": 9.762e-05, "elapsed_time_per_iteration": 4.83756495, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 41s", "remaining_time": "14h 47m 9s", "loss_scale": 1.0, "consumed_samples": 472064, "global_step/max_steps": "1844/12700"}
{"lm loss": 2.18355322, "grad_norm": 0.50638229, "learning_rate": 9.761e-05, "elapsed_time_per_iteration": 4.8211534, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 46s", "remaining_time": "14h 47m 4s", "loss_scale": 1.0, "consumed_samples": 472320, "global_step/max_steps": "1845/12700"}
{"lm loss": 2.21368933, "grad_norm": 0.47473523, "learning_rate": 9.761e-05, "elapsed_time_per_iteration": 4.86901927, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 51s", "remaining_time": "14h 46m 58s", "loss_scale": 1.0, "consumed_samples": 472576, "global_step/max_steps": "1846/12700"}
{"lm loss": 2.21399689, "grad_norm": 0.44483829, "learning_rate": 9.76e-05, "elapsed_time_per_iteration": 4.88622642, "memory(GiB)": 28.98, "elapsed_time": "2h 30m 56s", "remaining_time": "14h 46m 53s", "loss_scale": 1.0, "consumed_samples": 472832, "global_step/max_steps": "1847/12700"}
{"lm loss": 2.22050929, "grad_norm": 0.47273132, "learning_rate": 9.76e-05, "elapsed_time_per_iteration": 4.86268711, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 0s", "remaining_time": "14h 46m 48s", "loss_scale": 1.0, "consumed_samples": 473088, "global_step/max_steps": "1848/12700"}
{"lm loss": 2.16288209, "grad_norm": 0.47498676, "learning_rate": 9.76e-05, "elapsed_time_per_iteration": 4.91666603, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 5s", "remaining_time": "14h 46m 44s", "loss_scale": 1.0, "consumed_samples": 473344, "global_step/max_steps": "1849/12700"}
{"lm loss": 2.22467327, "grad_norm": 0.49594063, "learning_rate": 9.759e-05, "elapsed_time_per_iteration": 4.90325427, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 10s", "remaining_time": "14h 46m 39s", "loss_scale": 1.0, "consumed_samples": 473600, "global_step/max_steps": "1850/12700"}
{"lm loss": 2.22159767, "grad_norm": 0.45791072, "learning_rate": 9.759e-05, "elapsed_time_per_iteration": 4.81803727, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 15s", "remaining_time": "14h 46m 33s", "loss_scale": 1.0, "consumed_samples": 473856, "global_step/max_steps": "1851/12700"}
{"lm loss": 2.21150923, "grad_norm": 0.46126091, "learning_rate": 9.759e-05, "elapsed_time_per_iteration": 4.89935446, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 20s", "remaining_time": "14h 46m 28s", "loss_scale": 1.0, "consumed_samples": 474112, "global_step/max_steps": "1852/12700"}
{"lm loss": 2.19315314, "grad_norm": 0.45550311, "learning_rate": 9.758e-05, "elapsed_time_per_iteration": 4.87947106, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 25s", "remaining_time": "14h 46m 23s", "loss_scale": 1.0, "consumed_samples": 474368, "global_step/max_steps": "1853/12700"}
{"lm loss": 2.19927073, "grad_norm": 0.49609676, "learning_rate": 9.758e-05, "elapsed_time_per_iteration": 4.88693023, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 30s", "remaining_time": "14h 46m 18s", "loss_scale": 1.0, "consumed_samples": 474624, "global_step/max_steps": "1854/12700"}
{"lm loss": 2.22538137, "grad_norm": 0.50092393, "learning_rate": 9.757e-05, "elapsed_time_per_iteration": 4.92593288, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 35s", "remaining_time": "14h 46m 13s", "loss_scale": 1.0, "consumed_samples": 474880, "global_step/max_steps": "1855/12700"}
{"lm loss": 2.17993522, "grad_norm": 0.46781498, "learning_rate": 9.757e-05, "elapsed_time_per_iteration": 4.79339075, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 40s", "remaining_time": "14h 46m 8s", "loss_scale": 1.0, "consumed_samples": 475136, "global_step/max_steps": "1856/12700"}
{"lm loss": 2.16950607, "grad_norm": 0.44080585, "learning_rate": 9.757e-05, "elapsed_time_per_iteration": 4.8696425, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 44s", "remaining_time": "14h 46m 3s", "loss_scale": 1.0, "consumed_samples": 475392, "global_step/max_steps": "1857/12700"}
{"lm loss": 2.18970108, "grad_norm": 0.49219197, "learning_rate": 9.756e-05, "elapsed_time_per_iteration": 4.84448719, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 49s", "remaining_time": "14h 45m 58s", "loss_scale": 1.0, "consumed_samples": 475648, "global_step/max_steps": "1858/12700"}
{"lm loss": 2.24696445, "grad_norm": 0.44682887, "learning_rate": 9.756e-05, "elapsed_time_per_iteration": 4.93489313, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 54s", "remaining_time": "14h 45m 53s", "loss_scale": 1.0, "consumed_samples": 475904, "global_step/max_steps": "1859/12700"}
{"lm loss": 2.22845984, "grad_norm": 0.45616123, "learning_rate": 9.755e-05, "elapsed_time_per_iteration": 4.92332864, "memory(GiB)": 28.98, "elapsed_time": "2h 31m 59s", "remaining_time": "14h 45m 48s", "loss_scale": 1.0, "consumed_samples": 476160, "global_step/max_steps": "1860/12700"}
{"lm loss": 2.22039461, "grad_norm": 0.42063513, "learning_rate": 9.755e-05, "elapsed_time_per_iteration": 4.84845448, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 4s", "remaining_time": "14h 45m 43s", "loss_scale": 1.0, "consumed_samples": 476416, "global_step/max_steps": "1861/12700"}
{"lm loss": 2.21707797, "grad_norm": 0.46113527, "learning_rate": 9.755e-05, "elapsed_time_per_iteration": 4.88804269, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 9s", "remaining_time": "14h 45m 38s", "loss_scale": 1.0, "consumed_samples": 476672, "global_step/max_steps": "1862/12700"}
{"lm loss": 2.23711681, "grad_norm": 0.43382725, "learning_rate": 9.754e-05, "elapsed_time_per_iteration": 4.87873149, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 14s", "remaining_time": "14h 45m 33s", "loss_scale": 1.0, "consumed_samples": 476928, "global_step/max_steps": "1863/12700"}
{"lm loss": 2.18606853, "grad_norm": 0.46483487, "learning_rate": 9.754e-05, "elapsed_time_per_iteration": 4.9270587, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 19s", "remaining_time": "14h 45m 28s", "loss_scale": 1.0, "consumed_samples": 477184, "global_step/max_steps": "1864/12700"}
{"lm loss": 2.21522498, "grad_norm": 0.46326137, "learning_rate": 9.753e-05, "elapsed_time_per_iteration": 4.85828853, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 23s", "remaining_time": "14h 45m 23s", "loss_scale": 1.0, "consumed_samples": 477440, "global_step/max_steps": "1865/12700"}
{"lm loss": 2.20543504, "grad_norm": 0.4799788, "learning_rate": 9.753e-05, "elapsed_time_per_iteration": 4.88695192, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 28s", "remaining_time": "14h 45m 18s", "loss_scale": 1.0, "consumed_samples": 477696, "global_step/max_steps": "1866/12700"}
{"lm loss": 2.2211175, "grad_norm": 0.43567467, "learning_rate": 9.753e-05, "elapsed_time_per_iteration": 4.83103824, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 33s", "remaining_time": "14h 45m 13s", "loss_scale": 1.0, "consumed_samples": 477952, "global_step/max_steps": "1867/12700"}
{"lm loss": 2.17871451, "grad_norm": 0.53957546, "learning_rate": 9.752e-05, "elapsed_time_per_iteration": 4.88819528, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 38s", "remaining_time": "14h 45m 8s", "loss_scale": 1.0, "consumed_samples": 478208, "global_step/max_steps": "1868/12700"}
{"lm loss": 2.21559644, "grad_norm": 0.50883836, "learning_rate": 9.752e-05, "elapsed_time_per_iteration": 4.92977834, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 43s", "remaining_time": "14h 45m 3s", "loss_scale": 1.0, "consumed_samples": 478464, "global_step/max_steps": "1869/12700"}
{"lm loss": 2.23621345, "grad_norm": 0.43362081, "learning_rate": 9.751e-05, "elapsed_time_per_iteration": 4.88380003, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 48s", "remaining_time": "14h 44m 58s", "loss_scale": 1.0, "consumed_samples": 478720, "global_step/max_steps": "1870/12700"}
{"lm loss": 2.22070169, "grad_norm": 0.53689641, "learning_rate": 9.751e-05, "elapsed_time_per_iteration": 4.8212049, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 53s", "remaining_time": "14h 44m 52s", "loss_scale": 1.0, "consumed_samples": 478976, "global_step/max_steps": "1871/12700"}
{"lm loss": 2.22648716, "grad_norm": 0.53830212, "learning_rate": 9.751e-05, "elapsed_time_per_iteration": 4.85845828, "memory(GiB)": 28.98, "elapsed_time": "2h 32m 58s", "remaining_time": "14h 44m 47s", "loss_scale": 1.0, "consumed_samples": 479232, "global_step/max_steps": "1872/12700"}
{"lm loss": 2.23276496, "grad_norm": 0.43803373, "learning_rate": 9.75e-05, "elapsed_time_per_iteration": 4.76122451, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 2s", "remaining_time": "14h 44m 42s", "loss_scale": 1.0, "consumed_samples": 479488, "global_step/max_steps": "1873/12700"}
{"lm loss": 2.19704413, "grad_norm": 0.4835777, "learning_rate": 9.75e-05, "elapsed_time_per_iteration": 4.8123374, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 7s", "remaining_time": "14h 44m 36s", "loss_scale": 1.0, "consumed_samples": 479744, "global_step/max_steps": "1874/12700"}
{"lm loss": 2.21430683, "grad_norm": 0.52421248, "learning_rate": 9.749e-05, "elapsed_time_per_iteration": 4.84737182, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 12s", "remaining_time": "14h 44m 31s", "loss_scale": 1.0, "consumed_samples": 480000, "global_step/max_steps": "1875/12700"}
{"lm loss": 2.21295428, "grad_norm": 0.44722357, "learning_rate": 9.749e-05, "elapsed_time_per_iteration": 4.82631564, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 17s", "remaining_time": "14h 44m 26s", "loss_scale": 1.0, "consumed_samples": 480256, "global_step/max_steps": "1876/12700"}
{"lm loss": 2.19928217, "grad_norm": 0.56706971, "learning_rate": 9.749e-05, "elapsed_time_per_iteration": 4.89084554, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 22s", "remaining_time": "14h 44m 21s", "loss_scale": 1.0, "consumed_samples": 480512, "global_step/max_steps": "1877/12700"}
{"lm loss": 2.2192955, "grad_norm": 0.534949, "learning_rate": 9.748e-05, "elapsed_time_per_iteration": 4.81956553, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 27s", "remaining_time": "14h 44m 15s", "loss_scale": 1.0, "consumed_samples": 480768, "global_step/max_steps": "1878/12700"}
{"lm loss": 2.16934752, "grad_norm": 0.43405998, "learning_rate": 9.748e-05, "elapsed_time_per_iteration": 5.04122472, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 32s", "remaining_time": "14h 44m 11s", "loss_scale": 1.0, "consumed_samples": 481024, "global_step/max_steps": "1879/12700"}
{"lm loss": 2.19543743, "grad_norm": 0.54146719, "learning_rate": 9.747e-05, "elapsed_time_per_iteration": 4.8225894, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 36s", "remaining_time": "14h 44m 6s", "loss_scale": 1.0, "consumed_samples": 481280, "global_step/max_steps": "1880/12700"}
{"lm loss": 2.217206, "grad_norm": 0.42788482, "learning_rate": 9.747e-05, "elapsed_time_per_iteration": 4.82054114, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 41s", "remaining_time": "14h 44m 0s", "loss_scale": 1.0, "consumed_samples": 481536, "global_step/max_steps": "1881/12700"}
{"lm loss": 2.15620732, "grad_norm": 0.46171224, "learning_rate": 9.747e-05, "elapsed_time_per_iteration": 4.91605091, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 46s", "remaining_time": "14h 43m 56s", "loss_scale": 1.0, "consumed_samples": 481792, "global_step/max_steps": "1882/12700"}
{"lm loss": 2.17707038, "grad_norm": 0.49942249, "learning_rate": 9.746e-05, "elapsed_time_per_iteration": 4.86560512, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 51s", "remaining_time": "14h 43m 50s", "loss_scale": 1.0, "consumed_samples": 482048, "global_step/max_steps": "1883/12700"}
{"lm loss": 2.19860983, "grad_norm": 0.46917725, "learning_rate": 9.746e-05, "elapsed_time_per_iteration": 4.8282218, "memory(GiB)": 28.98, "elapsed_time": "2h 33m 56s", "remaining_time": "14h 43m 45s", "loss_scale": 1.0, "consumed_samples": 482304, "global_step/max_steps": "1884/12700"}
{"lm loss": 2.21777701, "grad_norm": 0.43489671, "learning_rate": 9.745e-05, "elapsed_time_per_iteration": 4.97028756, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 1s", "remaining_time": "14h 43m 41s", "loss_scale": 1.0, "consumed_samples": 482560, "global_step/max_steps": "1885/12700"}
{"lm loss": 2.22411704, "grad_norm": 0.48730391, "learning_rate": 9.745e-05, "elapsed_time_per_iteration": 4.87220693, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 6s", "remaining_time": "14h 43m 36s", "loss_scale": 1.0, "consumed_samples": 482816, "global_step/max_steps": "1886/12700"}
{"lm loss": 2.18090057, "grad_norm": 0.42199892, "learning_rate": 9.745e-05, "elapsed_time_per_iteration": 4.82242012, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 11s", "remaining_time": "14h 43m 30s", "loss_scale": 1.0, "consumed_samples": 483072, "global_step/max_steps": "1887/12700"}
{"lm loss": 2.21313334, "grad_norm": 0.47075331, "learning_rate": 9.744e-05, "elapsed_time_per_iteration": 4.92231965, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 15s", "remaining_time": "14h 43m 25s", "loss_scale": 1.0, "consumed_samples": 483328, "global_step/max_steps": "1888/12700"}
{"lm loss": 2.18832517, "grad_norm": 0.44227561, "learning_rate": 9.744e-05, "elapsed_time_per_iteration": 4.82327151, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 20s", "remaining_time": "14h 43m 20s", "loss_scale": 1.0, "consumed_samples": 483584, "global_step/max_steps": "1889/12700"}
{"lm loss": 2.21810961, "grad_norm": 0.43608218, "learning_rate": 9.743e-05, "elapsed_time_per_iteration": 4.98388982, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 25s", "remaining_time": "14h 43m 16s", "loss_scale": 1.0, "consumed_samples": 483840, "global_step/max_steps": "1890/12700"}
{"lm loss": 2.18722916, "grad_norm": 0.44615868, "learning_rate": 9.743e-05, "elapsed_time_per_iteration": 4.80551147, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 30s", "remaining_time": "14h 43m 10s", "loss_scale": 1.0, "consumed_samples": 484096, "global_step/max_steps": "1891/12700"}
{"lm loss": 2.20912075, "grad_norm": 0.44013497, "learning_rate": 9.743e-05, "elapsed_time_per_iteration": 4.81265545, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 35s", "remaining_time": "14h 43m 5s", "loss_scale": 1.0, "consumed_samples": 484352, "global_step/max_steps": "1892/12700"}
{"lm loss": 2.19968843, "grad_norm": 0.39083335, "learning_rate": 9.742e-05, "elapsed_time_per_iteration": 4.79491591, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 40s", "remaining_time": "14h 42m 59s", "loss_scale": 1.0, "consumed_samples": 484608, "global_step/max_steps": "1893/12700"}
{"lm loss": 2.17198491, "grad_norm": 0.42491919, "learning_rate": 9.742e-05, "elapsed_time_per_iteration": 4.87577581, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 45s", "remaining_time": "14h 42m 54s", "loss_scale": 1.0, "consumed_samples": 484864, "global_step/max_steps": "1894/12700"}
{"lm loss": 2.22759652, "grad_norm": 0.43882215, "learning_rate": 9.741e-05, "elapsed_time_per_iteration": 4.8874619, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 49s", "remaining_time": "14h 42m 49s", "loss_scale": 1.0, "consumed_samples": 485120, "global_step/max_steps": "1895/12700"}
{"lm loss": 2.19901657, "grad_norm": 0.40487564, "learning_rate": 9.741e-05, "elapsed_time_per_iteration": 4.82284427, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 54s", "remaining_time": "14h 42m 44s", "loss_scale": 1.0, "consumed_samples": 485376, "global_step/max_steps": "1896/12700"}
{"lm loss": 2.20013261, "grad_norm": 0.43801296, "learning_rate": 9.74e-05, "elapsed_time_per_iteration": 4.80241036, "memory(GiB)": 28.98, "elapsed_time": "2h 34m 59s", "remaining_time": "14h 42m 38s", "loss_scale": 1.0, "consumed_samples": 485632, "global_step/max_steps": "1897/12700"}
{"lm loss": 2.18576527, "grad_norm": 0.43163392, "learning_rate": 9.74e-05, "elapsed_time_per_iteration": 4.78575206, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 4s", "remaining_time": "14h 42m 33s", "loss_scale": 1.0, "consumed_samples": 485888, "global_step/max_steps": "1898/12700"}
{"lm loss": 2.15978742, "grad_norm": 0.43546942, "learning_rate": 9.74e-05, "elapsed_time_per_iteration": 4.90056467, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 9s", "remaining_time": "14h 42m 28s", "loss_scale": 1.0, "consumed_samples": 486144, "global_step/max_steps": "1899/12700"}
{"lm loss": 2.21303964, "grad_norm": 0.42441252, "learning_rate": 9.739e-05, "elapsed_time_per_iteration": 4.83096266, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 14s", "remaining_time": "14h 42m 23s", "loss_scale": 1.0, "consumed_samples": 486400, "global_step/max_steps": "1900/12700"}
{"lm loss": 2.22980285, "grad_norm": 0.41561115, "learning_rate": 9.739e-05, "elapsed_time_per_iteration": 4.77436781, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 18s", "remaining_time": "14h 42m 17s", "loss_scale": 1.0, "consumed_samples": 486656, "global_step/max_steps": "1901/12700"}
{"lm loss": 2.22422361, "grad_norm": 0.43699056, "learning_rate": 9.738e-05, "elapsed_time_per_iteration": 4.78131366, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 23s", "remaining_time": "14h 42m 11s", "loss_scale": 1.0, "consumed_samples": 486912, "global_step/max_steps": "1902/12700"}
{"lm loss": 2.21951151, "grad_norm": 0.49722326, "learning_rate": 9.738e-05, "elapsed_time_per_iteration": 4.86013031, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 28s", "remaining_time": "14h 42m 6s", "loss_scale": 1.0, "consumed_samples": 487168, "global_step/max_steps": "1903/12700"}
{"lm loss": 2.19040728, "grad_norm": 0.42685559, "learning_rate": 9.738e-05, "elapsed_time_per_iteration": 4.81053114, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 33s", "remaining_time": "14h 42m 1s", "loss_scale": 1.0, "consumed_samples": 487424, "global_step/max_steps": "1904/12700"}
{"lm loss": 2.1835227, "grad_norm": 0.45455462, "learning_rate": 9.737e-05, "elapsed_time_per_iteration": 4.86123037, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 38s", "remaining_time": "14h 41m 56s", "loss_scale": 1.0, "consumed_samples": 487680, "global_step/max_steps": "1905/12700"}
{"lm loss": 2.19249606, "grad_norm": 0.44646811, "learning_rate": 9.737e-05, "elapsed_time_per_iteration": 4.84088922, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 42s", "remaining_time": "14h 41m 50s", "loss_scale": 1.0, "consumed_samples": 487936, "global_step/max_steps": "1906/12700"}
{"lm loss": 2.17690969, "grad_norm": 0.49377257, "learning_rate": 9.736e-05, "elapsed_time_per_iteration": 4.88304925, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 47s", "remaining_time": "14h 41m 45s", "loss_scale": 1.0, "consumed_samples": 488192, "global_step/max_steps": "1907/12700"}
{"lm loss": 2.19097614, "grad_norm": 0.49439761, "learning_rate": 9.736e-05, "elapsed_time_per_iteration": 4.88509059, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 52s", "remaining_time": "14h 41m 40s", "loss_scale": 1.0, "consumed_samples": 488448, "global_step/max_steps": "1908/12700"}
{"lm loss": 2.19983935, "grad_norm": 0.44869766, "learning_rate": 9.736e-05, "elapsed_time_per_iteration": 4.95404768, "memory(GiB)": 28.98, "elapsed_time": "2h 35m 57s", "remaining_time": "14h 41m 36s", "loss_scale": 1.0, "consumed_samples": 488704, "global_step/max_steps": "1909/12700"}
{"lm loss": 2.22671223, "grad_norm": 0.50633597, "learning_rate": 9.735e-05, "elapsed_time_per_iteration": 4.90611601, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 2s", "remaining_time": "14h 41m 31s", "loss_scale": 1.0, "consumed_samples": 488960, "global_step/max_steps": "1910/12700"}
{"lm loss": 2.1873939, "grad_norm": 0.57177687, "learning_rate": 9.735e-05, "elapsed_time_per_iteration": 4.86458731, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 7s", "remaining_time": "14h 41m 26s", "loss_scale": 1.0, "consumed_samples": 489216, "global_step/max_steps": "1911/12700"}
{"lm loss": 2.22156525, "grad_norm": 0.4738293, "learning_rate": 9.734e-05, "elapsed_time_per_iteration": 4.7891953, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 12s", "remaining_time": "14h 41m 20s", "loss_scale": 1.0, "consumed_samples": 489472, "global_step/max_steps": "1912/12700"}
{"lm loss": 2.21654797, "grad_norm": 0.50643873, "learning_rate": 9.734e-05, "elapsed_time_per_iteration": 4.85637689, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 17s", "remaining_time": "14h 41m 15s", "loss_scale": 1.0, "consumed_samples": 489728, "global_step/max_steps": "1913/12700"}
{"lm loss": 2.22105956, "grad_norm": 0.5299896, "learning_rate": 9.734e-05, "elapsed_time_per_iteration": 4.79739165, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 21s", "remaining_time": "14h 41m 10s", "loss_scale": 1.0, "consumed_samples": 489984, "global_step/max_steps": "1914/12700"}
{"lm loss": 2.18797851, "grad_norm": 0.49339065, "learning_rate": 9.733e-05, "elapsed_time_per_iteration": 4.89814258, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 26s", "remaining_time": "14h 41m 5s", "loss_scale": 1.0, "consumed_samples": 490240, "global_step/max_steps": "1915/12700"}
{"lm loss": 2.19696474, "grad_norm": 0.47455961, "learning_rate": 9.733e-05, "elapsed_time_per_iteration": 4.84068608, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 31s", "remaining_time": "14h 40m 59s", "loss_scale": 1.0, "consumed_samples": 490496, "global_step/max_steps": "1916/12700"}
{"lm loss": 2.18722773, "grad_norm": 0.52968246, "learning_rate": 9.732e-05, "elapsed_time_per_iteration": 4.88424826, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 36s", "remaining_time": "14h 40m 54s", "loss_scale": 1.0, "consumed_samples": 490752, "global_step/max_steps": "1917/12700"}
{"lm loss": 2.20510268, "grad_norm": 0.47183952, "learning_rate": 9.732e-05, "elapsed_time_per_iteration": 4.8441236, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 41s", "remaining_time": "14h 40m 49s", "loss_scale": 1.0, "consumed_samples": 491008, "global_step/max_steps": "1918/12700"}
{"lm loss": 2.19936848, "grad_norm": 0.50540793, "learning_rate": 9.731e-05, "elapsed_time_per_iteration": 4.88570118, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 46s", "remaining_time": "14h 40m 44s", "loss_scale": 1.0, "consumed_samples": 491264, "global_step/max_steps": "1919/12700"}
{"lm loss": 2.19488931, "grad_norm": 0.48573253, "learning_rate": 9.731e-05, "elapsed_time_per_iteration": 4.86853743, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 51s", "remaining_time": "14h 40m 39s", "loss_scale": 1.0, "consumed_samples": 491520, "global_step/max_steps": "1920/12700"}
{"lm loss": 2.21232367, "grad_norm": 0.44498345, "learning_rate": 9.731e-05, "elapsed_time_per_iteration": 5.00584245, "memory(GiB)": 28.98, "elapsed_time": "2h 36m 56s", "remaining_time": "14h 40m 35s", "loss_scale": 1.0, "consumed_samples": 491776, "global_step/max_steps": "1921/12700"}
{"lm loss": 2.22516084, "grad_norm": 0.49989223, "learning_rate": 9.73e-05, "elapsed_time_per_iteration": 4.81695414, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 0s", "remaining_time": "14h 40m 29s", "loss_scale": 1.0, "consumed_samples": 492032, "global_step/max_steps": "1922/12700"}
{"lm loss": 2.2191081, "grad_norm": 0.49550635, "learning_rate": 9.73e-05, "elapsed_time_per_iteration": 4.7996068, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 5s", "remaining_time": "14h 40m 24s", "loss_scale": 1.0, "consumed_samples": 492288, "global_step/max_steps": "1923/12700"}
{"lm loss": 2.22905588, "grad_norm": 0.50303662, "learning_rate": 9.729e-05, "elapsed_time_per_iteration": 4.80018902, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 10s", "remaining_time": "14h 40m 19s", "loss_scale": 1.0, "consumed_samples": 492544, "global_step/max_steps": "1924/12700"}
{"lm loss": 2.22567606, "grad_norm": 0.48561528, "learning_rate": 9.729e-05, "elapsed_time_per_iteration": 5.01579881, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 15s", "remaining_time": "14h 40m 14s", "loss_scale": 1.0, "consumed_samples": 492800, "global_step/max_steps": "1925/12700"}
{"lm loss": 2.20794654, "grad_norm": 0.51100874, "learning_rate": 9.729e-05, "elapsed_time_per_iteration": 4.88947797, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 20s", "remaining_time": "14h 40m 9s", "loss_scale": 1.0, "consumed_samples": 493056, "global_step/max_steps": "1926/12700"}
{"lm loss": 2.20774508, "grad_norm": 0.56394893, "learning_rate": 9.728e-05, "elapsed_time_per_iteration": 4.90879607, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 25s", "remaining_time": "14h 40m 4s", "loss_scale": 1.0, "consumed_samples": 493312, "global_step/max_steps": "1927/12700"}
{"lm loss": 2.19971275, "grad_norm": 0.52806044, "learning_rate": 9.728e-05, "elapsed_time_per_iteration": 4.91980648, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 30s", "remaining_time": "14h 40m 0s", "loss_scale": 1.0, "consumed_samples": 493568, "global_step/max_steps": "1928/12700"}
{"lm loss": 2.21306324, "grad_norm": 0.45217812, "learning_rate": 9.727e-05, "elapsed_time_per_iteration": 4.90831852, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 35s", "remaining_time": "14h 39m 55s", "loss_scale": 1.0, "consumed_samples": 493824, "global_step/max_steps": "1929/12700"}
{"lm loss": 2.20656753, "grad_norm": 0.50835794, "learning_rate": 9.727e-05, "elapsed_time_per_iteration": 4.87927222, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 40s", "remaining_time": "14h 39m 50s", "loss_scale": 1.0, "consumed_samples": 494080, "global_step/max_steps": "1930/12700"}
{"lm loss": 2.20855427, "grad_norm": 0.44387391, "learning_rate": 9.726e-05, "elapsed_time_per_iteration": 4.84497666, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 44s", "remaining_time": "14h 39m 45s", "loss_scale": 1.0, "consumed_samples": 494336, "global_step/max_steps": "1931/12700"}
{"lm loss": 2.19620299, "grad_norm": 0.46962181, "learning_rate": 9.726e-05, "elapsed_time_per_iteration": 4.81421471, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 49s", "remaining_time": "14h 39m 39s", "loss_scale": 1.0, "consumed_samples": 494592, "global_step/max_steps": "1932/12700"}
{"lm loss": 2.21344614, "grad_norm": 0.45757875, "learning_rate": 9.726e-05, "elapsed_time_per_iteration": 4.84351397, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 54s", "remaining_time": "14h 39m 34s", "loss_scale": 1.0, "consumed_samples": 494848, "global_step/max_steps": "1933/12700"}
{"lm loss": 2.17414522, "grad_norm": 0.45375571, "learning_rate": 9.725e-05, "elapsed_time_per_iteration": 4.87749314, "memory(GiB)": 28.98, "elapsed_time": "2h 37m 59s", "remaining_time": "14h 39m 29s", "loss_scale": 1.0, "consumed_samples": 495104, "global_step/max_steps": "1934/12700"}
{"lm loss": 2.18043828, "grad_norm": 0.45459035, "learning_rate": 9.725e-05, "elapsed_time_per_iteration": 4.9352529, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 4s", "remaining_time": "14h 39m 24s", "loss_scale": 1.0, "consumed_samples": 495360, "global_step/max_steps": "1935/12700"}
{"lm loss": 2.2338407, "grad_norm": 0.46724096, "learning_rate": 9.724e-05, "elapsed_time_per_iteration": 4.89609265, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 9s", "remaining_time": "14h 39m 19s", "loss_scale": 1.0, "consumed_samples": 495616, "global_step/max_steps": "1936/12700"}
{"lm loss": 2.20214415, "grad_norm": 0.49110165, "learning_rate": 9.724e-05, "elapsed_time_per_iteration": 4.84421253, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 14s", "remaining_time": "14h 39m 14s", "loss_scale": 1.0, "consumed_samples": 495872, "global_step/max_steps": "1937/12700"}
{"lm loss": 2.18916297, "grad_norm": 0.47268298, "learning_rate": 9.724e-05, "elapsed_time_per_iteration": 4.88726354, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 19s", "remaining_time": "14h 39m 9s", "loss_scale": 1.0, "consumed_samples": 496128, "global_step/max_steps": "1938/12700"}
{"lm loss": 2.19214129, "grad_norm": 0.45849279, "learning_rate": 9.723e-05, "elapsed_time_per_iteration": 4.93368363, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 23s", "remaining_time": "14h 39m 4s", "loss_scale": 1.0, "consumed_samples": 496384, "global_step/max_steps": "1939/12700"}
{"lm loss": 2.18680811, "grad_norm": 0.47109941, "learning_rate": 9.723e-05, "elapsed_time_per_iteration": 4.7963891, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 28s", "remaining_time": "14h 38m 59s", "loss_scale": 1.0, "consumed_samples": 496640, "global_step/max_steps": "1940/12700"}
{"lm loss": 2.20780158, "grad_norm": 0.4493494, "learning_rate": 9.722e-05, "elapsed_time_per_iteration": 4.87429738, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 33s", "remaining_time": "14h 38m 54s", "loss_scale": 1.0, "consumed_samples": 496896, "global_step/max_steps": "1941/12700"}
{"lm loss": 2.18292499, "grad_norm": 0.51574415, "learning_rate": 9.722e-05, "elapsed_time_per_iteration": 4.93528748, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 38s", "remaining_time": "14h 38m 49s", "loss_scale": 1.0, "consumed_samples": 497152, "global_step/max_steps": "1942/12700"}
{"lm loss": 2.17225814, "grad_norm": 0.44429144, "learning_rate": 9.721e-05, "elapsed_time_per_iteration": 4.79868007, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 43s", "remaining_time": "14h 38m 44s", "loss_scale": 1.0, "consumed_samples": 497408, "global_step/max_steps": "1943/12700"}
{"lm loss": 2.19907165, "grad_norm": 0.46229282, "learning_rate": 9.721e-05, "elapsed_time_per_iteration": 4.95999551, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 48s", "remaining_time": "14h 38m 39s", "loss_scale": 1.0, "consumed_samples": 497664, "global_step/max_steps": "1944/12700"}
{"lm loss": 2.21406627, "grad_norm": 0.49209437, "learning_rate": 9.721e-05, "elapsed_time_per_iteration": 4.72493505, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 53s", "remaining_time": "14h 38m 33s", "loss_scale": 1.0, "consumed_samples": 497920, "global_step/max_steps": "1945/12700"}
{"lm loss": 2.21860886, "grad_norm": 0.41940385, "learning_rate": 9.72e-05, "elapsed_time_per_iteration": 4.89122558, "memory(GiB)": 28.98, "elapsed_time": "2h 38m 57s", "remaining_time": "14h 38m 28s", "loss_scale": 1.0, "consumed_samples": 498176, "global_step/max_steps": "1946/12700"}
{"lm loss": 2.17249441, "grad_norm": 0.41506746, "learning_rate": 9.72e-05, "elapsed_time_per_iteration": 4.88976145, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 2s", "remaining_time": "14h 38m 23s", "loss_scale": 1.0, "consumed_samples": 498432, "global_step/max_steps": "1947/12700"}
{"lm loss": 2.23231006, "grad_norm": 0.44139785, "learning_rate": 9.719e-05, "elapsed_time_per_iteration": 4.76577067, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 7s", "remaining_time": "14h 38m 18s", "loss_scale": 1.0, "consumed_samples": 498688, "global_step/max_steps": "1948/12700"}
{"lm loss": 2.21439004, "grad_norm": 0.44836867, "learning_rate": 9.719e-05, "elapsed_time_per_iteration": 4.91035461, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 12s", "remaining_time": "14h 38m 13s", "loss_scale": 1.0, "consumed_samples": 498944, "global_step/max_steps": "1949/12700"}
{"lm loss": 2.20986843, "grad_norm": 0.42835042, "learning_rate": 9.718e-05, "elapsed_time_per_iteration": 4.93592405, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 17s", "remaining_time": "14h 38m 8s", "loss_scale": 1.0, "consumed_samples": 499200, "global_step/max_steps": "1950/12700"}
{"lm loss": 2.2003684, "grad_norm": 0.44492102, "learning_rate": 9.718e-05, "elapsed_time_per_iteration": 4.75968552, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 22s", "remaining_time": "14h 38m 2s", "loss_scale": 1.0, "consumed_samples": 499456, "global_step/max_steps": "1951/12700"}
{"lm loss": 2.20196319, "grad_norm": 0.43654659, "learning_rate": 9.718e-05, "elapsed_time_per_iteration": 4.77901196, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 26s", "remaining_time": "14h 37m 57s", "loss_scale": 1.0, "consumed_samples": 499712, "global_step/max_steps": "1952/12700"}
{"lm loss": 2.1749897, "grad_norm": 0.39257401, "learning_rate": 9.717e-05, "elapsed_time_per_iteration": 4.79935074, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 31s", "remaining_time": "14h 37m 51s", "loss_scale": 1.0, "consumed_samples": 499968, "global_step/max_steps": "1953/12700"}
{"lm loss": 2.22058439, "grad_norm": 0.44717032, "learning_rate": 9.717e-05, "elapsed_time_per_iteration": 4.88770175, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 36s", "remaining_time": "14h 37m 46s", "loss_scale": 1.0, "consumed_samples": 500224, "global_step/max_steps": "1954/12700"}
{"lm loss": 2.21840858, "grad_norm": 0.42186511, "learning_rate": 9.716e-05, "elapsed_time_per_iteration": 4.83061934, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 41s", "remaining_time": "14h 37m 41s", "loss_scale": 1.0, "consumed_samples": 500480, "global_step/max_steps": "1955/12700"}
{"lm loss": 2.1826427, "grad_norm": 0.41024292, "learning_rate": 9.716e-05, "elapsed_time_per_iteration": 4.77449059, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 46s", "remaining_time": "14h 37m 35s", "loss_scale": 1.0, "consumed_samples": 500736, "global_step/max_steps": "1956/12700"}
{"lm loss": 2.23216105, "grad_norm": 0.43824682, "learning_rate": 9.715e-05, "elapsed_time_per_iteration": 4.85905123, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 51s", "remaining_time": "14h 37m 30s", "loss_scale": 1.0, "consumed_samples": 500992, "global_step/max_steps": "1957/12700"}
{"lm loss": 2.19633198, "grad_norm": 0.47824609, "learning_rate": 9.715e-05, "elapsed_time_per_iteration": 4.89700007, "memory(GiB)": 28.98, "elapsed_time": "2h 39m 56s", "remaining_time": "14h 37m 25s", "loss_scale": 1.0, "consumed_samples": 501248, "global_step/max_steps": "1958/12700"}
{"lm loss": 2.16442561, "grad_norm": 0.46331927, "learning_rate": 9.715e-05, "elapsed_time_per_iteration": 4.8565743, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 0s", "remaining_time": "14h 37m 20s", "loss_scale": 1.0, "consumed_samples": 501504, "global_step/max_steps": "1959/12700"}
{"lm loss": 2.22140312, "grad_norm": 0.47001657, "learning_rate": 9.714e-05, "elapsed_time_per_iteration": 4.90385842, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 5s", "remaining_time": "14h 37m 15s", "loss_scale": 1.0, "consumed_samples": 501760, "global_step/max_steps": "1960/12700"}
{"lm loss": 2.2122767, "grad_norm": 0.45190209, "learning_rate": 9.714e-05, "elapsed_time_per_iteration": 4.84017777, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 10s", "remaining_time": "14h 37m 10s", "loss_scale": 1.0, "consumed_samples": 502016, "global_step/max_steps": "1961/12700"}
{"lm loss": 2.19017982, "grad_norm": 0.44490021, "learning_rate": 9.713e-05, "elapsed_time_per_iteration": 4.88890243, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 15s", "remaining_time": "14h 37m 5s", "loss_scale": 1.0, "consumed_samples": 502272, "global_step/max_steps": "1962/12700"}
{"lm loss": 2.22310901, "grad_norm": 0.43214214, "learning_rate": 9.713e-05, "elapsed_time_per_iteration": 4.84030461, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 20s", "remaining_time": "14h 37m 0s", "loss_scale": 1.0, "consumed_samples": 502528, "global_step/max_steps": "1963/12700"}
{"lm loss": 2.21917987, "grad_norm": 0.45201719, "learning_rate": 9.712e-05, "elapsed_time_per_iteration": 4.85432744, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 25s", "remaining_time": "14h 36m 55s", "loss_scale": 1.0, "consumed_samples": 502784, "global_step/max_steps": "1964/12700"}
{"lm loss": 2.2165761, "grad_norm": 0.45622206, "learning_rate": 9.712e-05, "elapsed_time_per_iteration": 4.83447909, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 30s", "remaining_time": "14h 36m 49s", "loss_scale": 1.0, "consumed_samples": 503040, "global_step/max_steps": "1965/12700"}
{"lm loss": 2.21992135, "grad_norm": 0.44220707, "learning_rate": 9.712e-05, "elapsed_time_per_iteration": 4.92185092, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 34s", "remaining_time": "14h 36m 45s", "loss_scale": 1.0, "consumed_samples": 503296, "global_step/max_steps": "1966/12700"}
{"lm loss": 2.18838263, "grad_norm": 0.48108631, "learning_rate": 9.711e-05, "elapsed_time_per_iteration": 4.9610424, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 39s", "remaining_time": "14h 36m 40s", "loss_scale": 1.0, "consumed_samples": 503552, "global_step/max_steps": "1967/12700"}
{"lm loss": 2.22583222, "grad_norm": 0.46307033, "learning_rate": 9.711e-05, "elapsed_time_per_iteration": 4.8269279, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 44s", "remaining_time": "14h 36m 35s", "loss_scale": 1.0, "consumed_samples": 503808, "global_step/max_steps": "1968/12700"}
{"lm loss": 2.19614315, "grad_norm": 0.51200551, "learning_rate": 9.71e-05, "elapsed_time_per_iteration": 4.83775067, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 49s", "remaining_time": "14h 36m 30s", "loss_scale": 1.0, "consumed_samples": 504064, "global_step/max_steps": "1969/12700"}
{"lm loss": 2.21966934, "grad_norm": 0.49001119, "learning_rate": 9.71e-05, "elapsed_time_per_iteration": 4.79859972, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 54s", "remaining_time": "14h 36m 24s", "loss_scale": 1.0, "consumed_samples": 504320, "global_step/max_steps": "1970/12700"}
{"lm loss": 2.21542716, "grad_norm": 0.41093162, "learning_rate": 9.709e-05, "elapsed_time_per_iteration": 4.84429622, "memory(GiB)": 28.98, "elapsed_time": "2h 40m 59s", "remaining_time": "14h 36m 19s", "loss_scale": 1.0, "consumed_samples": 504576, "global_step/max_steps": "1971/12700"}
{"lm loss": 2.17164612, "grad_norm": 0.4970926, "learning_rate": 9.709e-05, "elapsed_time_per_iteration": 4.82232141, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 4s", "remaining_time": "14h 36m 14s", "loss_scale": 1.0, "consumed_samples": 504832, "global_step/max_steps": "1972/12700"}
{"lm loss": 2.20002985, "grad_norm": 0.46241584, "learning_rate": 9.709e-05, "elapsed_time_per_iteration": 4.86817622, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 8s", "remaining_time": "14h 36m 9s", "loss_scale": 1.0, "consumed_samples": 505088, "global_step/max_steps": "1973/12700"}
{"lm loss": 2.17229414, "grad_norm": 0.43997511, "learning_rate": 9.708e-05, "elapsed_time_per_iteration": 4.79975128, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 13s", "remaining_time": "14h 36m 3s", "loss_scale": 1.0, "consumed_samples": 505344, "global_step/max_steps": "1974/12700"}
{"lm loss": 2.22555709, "grad_norm": 0.42987308, "learning_rate": 9.708e-05, "elapsed_time_per_iteration": 4.84530711, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 18s", "remaining_time": "14h 35m 58s", "loss_scale": 1.0, "consumed_samples": 505600, "global_step/max_steps": "1975/12700"}
{"lm loss": 2.20747185, "grad_norm": 0.47394845, "learning_rate": 9.707e-05, "elapsed_time_per_iteration": 4.76064372, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 23s", "remaining_time": "14h 35m 52s", "loss_scale": 1.0, "consumed_samples": 505856, "global_step/max_steps": "1976/12700"}
{"lm loss": 2.1649971, "grad_norm": 0.45768276, "learning_rate": 9.707e-05, "elapsed_time_per_iteration": 4.73895168, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 28s", "remaining_time": "14h 35m 46s", "loss_scale": 1.0, "consumed_samples": 506112, "global_step/max_steps": "1977/12700"}
{"lm loss": 2.18896198, "grad_norm": 0.50803602, "learning_rate": 9.706e-05, "elapsed_time_per_iteration": 4.83042121, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 32s", "remaining_time": "14h 35m 41s", "loss_scale": 1.0, "consumed_samples": 506368, "global_step/max_steps": "1978/12700"}
{"lm loss": 2.17049289, "grad_norm": 0.43086743, "learning_rate": 9.706e-05, "elapsed_time_per_iteration": 4.93277526, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 37s", "remaining_time": "14h 35m 36s", "loss_scale": 1.0, "consumed_samples": 506624, "global_step/max_steps": "1979/12700"}
{"lm loss": 2.18164682, "grad_norm": 0.45079428, "learning_rate": 9.706e-05, "elapsed_time_per_iteration": 4.91857076, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 42s", "remaining_time": "14h 35m 32s", "loss_scale": 1.0, "consumed_samples": 506880, "global_step/max_steps": "1980/12700"}
{"lm loss": 2.17304301, "grad_norm": 0.53796339, "learning_rate": 9.705e-05, "elapsed_time_per_iteration": 4.88995671, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 47s", "remaining_time": "14h 35m 27s", "loss_scale": 1.0, "consumed_samples": 507136, "global_step/max_steps": "1981/12700"}
{"lm loss": 2.18890071, "grad_norm": 0.43390274, "learning_rate": 9.705e-05, "elapsed_time_per_iteration": 4.85469747, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 52s", "remaining_time": "14h 35m 22s", "loss_scale": 1.0, "consumed_samples": 507392, "global_step/max_steps": "1982/12700"}
{"lm loss": 2.16710591, "grad_norm": 0.45510122, "learning_rate": 9.704e-05, "elapsed_time_per_iteration": 4.84530735, "memory(GiB)": 28.98, "elapsed_time": "2h 41m 57s", "remaining_time": "14h 35m 16s", "loss_scale": 1.0, "consumed_samples": 507648, "global_step/max_steps": "1983/12700"}
{"lm loss": 2.21328568, "grad_norm": 0.44581932, "learning_rate": 9.704e-05, "elapsed_time_per_iteration": 4.83477211, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 2s", "remaining_time": "14h 35m 11s", "loss_scale": 1.0, "consumed_samples": 507904, "global_step/max_steps": "1984/12700"}
{"lm loss": 2.19196534, "grad_norm": 0.46040794, "learning_rate": 9.703e-05, "elapsed_time_per_iteration": 4.87958002, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 7s", "remaining_time": "14h 35m 6s", "loss_scale": 1.0, "consumed_samples": 508160, "global_step/max_steps": "1985/12700"}
{"lm loss": 2.19864416, "grad_norm": 0.42989641, "learning_rate": 9.703e-05, "elapsed_time_per_iteration": 4.89979696, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 11s", "remaining_time": "14h 35m 1s", "loss_scale": 1.0, "consumed_samples": 508416, "global_step/max_steps": "1986/12700"}
{"lm loss": 2.18599105, "grad_norm": 0.46221974, "learning_rate": 9.703e-05, "elapsed_time_per_iteration": 4.80896258, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 16s", "remaining_time": "14h 34m 56s", "loss_scale": 1.0, "consumed_samples": 508672, "global_step/max_steps": "1987/12700"}
{"lm loss": 2.20693493, "grad_norm": 0.4122313, "learning_rate": 9.702e-05, "elapsed_time_per_iteration": 5.0210886, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 21s", "remaining_time": "14h 34m 52s", "loss_scale": 1.0, "consumed_samples": 508928, "global_step/max_steps": "1988/12700"}
{"lm loss": 2.1926899, "grad_norm": 0.40817395, "learning_rate": 9.702e-05, "elapsed_time_per_iteration": 4.82206726, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 26s", "remaining_time": "14h 34m 46s", "loss_scale": 1.0, "consumed_samples": 509184, "global_step/max_steps": "1989/12700"}
{"lm loss": 2.24602365, "grad_norm": 0.39640716, "learning_rate": 9.701e-05, "elapsed_time_per_iteration": 4.81521201, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 31s", "remaining_time": "14h 34m 41s", "loss_scale": 1.0, "consumed_samples": 509440, "global_step/max_steps": "1990/12700"}
{"lm loss": 2.16046715, "grad_norm": 0.44558084, "learning_rate": 9.701e-05, "elapsed_time_per_iteration": 4.89834833, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 36s", "remaining_time": "14h 34m 36s", "loss_scale": 1.0, "consumed_samples": 509696, "global_step/max_steps": "1991/12700"}
{"lm loss": 2.18480444, "grad_norm": 0.45379326, "learning_rate": 9.7e-05, "elapsed_time_per_iteration": 4.84222412, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 41s", "remaining_time": "14h 34m 31s", "loss_scale": 1.0, "consumed_samples": 509952, "global_step/max_steps": "1992/12700"}
{"lm loss": 2.18955874, "grad_norm": 0.55038375, "learning_rate": 9.7e-05, "elapsed_time_per_iteration": 4.8910985, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 46s", "remaining_time": "14h 34m 26s", "loss_scale": 1.0, "consumed_samples": 510208, "global_step/max_steps": "1993/12700"}
{"lm loss": 2.21330094, "grad_norm": 0.505, "learning_rate": 9.699e-05, "elapsed_time_per_iteration": 4.81310177, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 50s", "remaining_time": "14h 34m 20s", "loss_scale": 1.0, "consumed_samples": 510464, "global_step/max_steps": "1994/12700"}
{"lm loss": 2.20304847, "grad_norm": 0.44975215, "learning_rate": 9.699e-05, "elapsed_time_per_iteration": 4.85954881, "memory(GiB)": 28.98, "elapsed_time": "2h 42m 55s", "remaining_time": "14h 34m 15s", "loss_scale": 1.0, "consumed_samples": 510720, "global_step/max_steps": "1995/12700"}
{"lm loss": 2.207165, "grad_norm": 0.5099324, "learning_rate": 9.699e-05, "elapsed_time_per_iteration": 4.84566641, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 0s", "remaining_time": "14h 34m 10s", "loss_scale": 1.0, "consumed_samples": 510976, "global_step/max_steps": "1996/12700"}
{"lm loss": 2.22727752, "grad_norm": 0.52771133, "learning_rate": 9.698e-05, "elapsed_time_per_iteration": 4.86102009, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 5s", "remaining_time": "14h 34m 5s", "loss_scale": 1.0, "consumed_samples": 511232, "global_step/max_steps": "1997/12700"}
{"lm loss": 2.20700073, "grad_norm": 0.5298478, "learning_rate": 9.698e-05, "elapsed_time_per_iteration": 4.79260182, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 10s", "remaining_time": "14h 33m 59s", "loss_scale": 1.0, "consumed_samples": 511488, "global_step/max_steps": "1998/12700"}
{"lm loss": 2.14037633, "grad_norm": 0.45234776, "learning_rate": 9.697e-05, "elapsed_time_per_iteration": 4.83373189, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 15s", "remaining_time": "14h 33m 54s", "loss_scale": 1.0, "consumed_samples": 511744, "global_step/max_steps": "1999/12700"}
{"lm loss": 2.20409513, "grad_norm": 0.50932693, "learning_rate": 9.697e-05, "elapsed_time_per_iteration": 4.87038207, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 19s", "remaining_time": "14h 33m 49s", "loss_scale": 1.0, "consumed_samples": 512000, "global_step/max_steps": "2000/12700"}
{"lm loss": 2.21699595, "grad_norm": 0.50257975, "learning_rate": 9.696e-05, "elapsed_time_per_iteration": 4.81835032, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 24s", "remaining_time": "14h 33m 44s", "loss_scale": 1.0, "consumed_samples": 512256, "global_step/max_steps": "2001/12700"}
{"lm loss": 2.17421651, "grad_norm": 0.4731636, "learning_rate": 9.696e-05, "elapsed_time_per_iteration": 4.88269854, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 29s", "remaining_time": "14h 33m 39s", "loss_scale": 1.0, "consumed_samples": 512512, "global_step/max_steps": "2002/12700"}
{"lm loss": 2.19071603, "grad_norm": 0.48663434, "learning_rate": 9.696e-05, "elapsed_time_per_iteration": 4.80473018, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 34s", "remaining_time": "14h 33m 33s", "loss_scale": 1.0, "consumed_samples": 512768, "global_step/max_steps": "2003/12700"}
{"lm loss": 2.1794343, "grad_norm": 0.49135774, "learning_rate": 9.695e-05, "elapsed_time_per_iteration": 4.96502113, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 39s", "remaining_time": "14h 33m 29s", "loss_scale": 1.0, "consumed_samples": 513024, "global_step/max_steps": "2004/12700"}
{"lm loss": 2.19418216, "grad_norm": 0.42312843, "learning_rate": 9.695e-05, "elapsed_time_per_iteration": 4.85897303, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 44s", "remaining_time": "14h 33m 24s", "loss_scale": 1.0, "consumed_samples": 513280, "global_step/max_steps": "2005/12700"}
{"lm loss": 2.18934751, "grad_norm": 0.42372379, "learning_rate": 9.694e-05, "elapsed_time_per_iteration": 4.83178639, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 49s", "remaining_time": "14h 33m 19s", "loss_scale": 1.0, "consumed_samples": 513536, "global_step/max_steps": "2006/12700"}
{"lm loss": 2.19742107, "grad_norm": 0.43432245, "learning_rate": 9.694e-05, "elapsed_time_per_iteration": 5.08319187, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 54s", "remaining_time": "14h 33m 15s", "loss_scale": 1.0, "consumed_samples": 513792, "global_step/max_steps": "2007/12700"}
{"lm loss": 2.16599751, "grad_norm": 0.45158073, "learning_rate": 9.693e-05, "elapsed_time_per_iteration": 4.81174088, "memory(GiB)": 28.98, "elapsed_time": "2h 43m 58s", "remaining_time": "14h 33m 9s", "loss_scale": 1.0, "consumed_samples": 514048, "global_step/max_steps": "2008/12700"}
{"lm loss": 2.19598126, "grad_norm": 0.43888846, "learning_rate": 9.693e-05, "elapsed_time_per_iteration": 4.87854433, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 3s", "remaining_time": "14h 33m 4s", "loss_scale": 1.0, "consumed_samples": 514304, "global_step/max_steps": "2009/12700"}
{"lm loss": 2.19249105, "grad_norm": 0.43707702, "learning_rate": 9.692e-05, "elapsed_time_per_iteration": 4.98259044, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 8s", "remaining_time": "14h 33m 0s", "loss_scale": 1.0, "consumed_samples": 514560, "global_step/max_steps": "2010/12700"}
{"lm loss": 2.18146777, "grad_norm": 0.45616168, "learning_rate": 9.692e-05, "elapsed_time_per_iteration": 4.88700604, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 13s", "remaining_time": "14h 32m 55s", "loss_scale": 1.0, "consumed_samples": 514816, "global_step/max_steps": "2011/12700"}
{"lm loss": 2.20974517, "grad_norm": 0.43554398, "learning_rate": 9.692e-05, "elapsed_time_per_iteration": 4.92019939, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 18s", "remaining_time": "14h 32m 50s", "loss_scale": 1.0, "consumed_samples": 515072, "global_step/max_steps": "2012/12700"}
{"lm loss": 2.21176934, "grad_norm": 0.46423164, "learning_rate": 9.691e-05, "elapsed_time_per_iteration": 4.86510968, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 23s", "remaining_time": "14h 32m 45s", "loss_scale": 1.0, "consumed_samples": 515328, "global_step/max_steps": "2013/12700"}
{"lm loss": 2.214715, "grad_norm": 0.45492467, "learning_rate": 9.691e-05, "elapsed_time_per_iteration": 4.8331399, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 28s", "remaining_time": "14h 32m 40s", "loss_scale": 1.0, "consumed_samples": 515584, "global_step/max_steps": "2014/12700"}
{"lm loss": 2.1824162, "grad_norm": 0.50531709, "learning_rate": 9.69e-05, "elapsed_time_per_iteration": 4.83619046, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 33s", "remaining_time": "14h 32m 34s", "loss_scale": 1.0, "consumed_samples": 515840, "global_step/max_steps": "2015/12700"}
{"lm loss": 2.18130636, "grad_norm": 0.44031706, "learning_rate": 9.69e-05, "elapsed_time_per_iteration": 4.9109087, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 38s", "remaining_time": "14h 32m 30s", "loss_scale": 1.0, "consumed_samples": 516096, "global_step/max_steps": "2016/12700"}
{"lm loss": 2.17656207, "grad_norm": 0.48181248, "learning_rate": 9.689e-05, "elapsed_time_per_iteration": 4.87896538, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 42s", "remaining_time": "14h 32m 25s", "loss_scale": 1.0, "consumed_samples": 516352, "global_step/max_steps": "2017/12700"}
{"lm loss": 2.20624471, "grad_norm": 0.48072729, "learning_rate": 9.689e-05, "elapsed_time_per_iteration": 4.86058617, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 47s", "remaining_time": "14h 32m 19s", "loss_scale": 1.0, "consumed_samples": 516608, "global_step/max_steps": "2018/12700"}
{"lm loss": 2.17520499, "grad_norm": 0.47537711, "learning_rate": 9.688e-05, "elapsed_time_per_iteration": 4.84743309, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 52s", "remaining_time": "14h 32m 14s", "loss_scale": 1.0, "consumed_samples": 516864, "global_step/max_steps": "2019/12700"}
{"lm loss": 2.18516874, "grad_norm": 0.46449301, "learning_rate": 9.688e-05, "elapsed_time_per_iteration": 4.97340512, "memory(GiB)": 28.98, "elapsed_time": "2h 44m 57s", "remaining_time": "14h 32m 10s", "loss_scale": 1.0, "consumed_samples": 517120, "global_step/max_steps": "2020/12700"}
{"lm loss": 2.180902, "grad_norm": 0.55564153, "learning_rate": 9.688e-05, "elapsed_time_per_iteration": 5.0236702, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 2s", "remaining_time": "14h 32m 6s", "loss_scale": 1.0, "consumed_samples": 517376, "global_step/max_steps": "2021/12700"}
{"lm loss": 2.15745449, "grad_norm": 0.51271993, "learning_rate": 9.687e-05, "elapsed_time_per_iteration": 4.872684, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 7s", "remaining_time": "14h 32m 0s", "loss_scale": 1.0, "consumed_samples": 517632, "global_step/max_steps": "2022/12700"}
{"lm loss": 2.16978168, "grad_norm": 0.47119001, "learning_rate": 9.687e-05, "elapsed_time_per_iteration": 4.91946101, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 12s", "remaining_time": "14h 31m 56s", "loss_scale": 1.0, "consumed_samples": 517888, "global_step/max_steps": "2023/12700"}
{"lm loss": 2.1956079, "grad_norm": 0.53094351, "learning_rate": 9.686e-05, "elapsed_time_per_iteration": 4.88430452, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 17s", "remaining_time": "14h 31m 51s", "loss_scale": 1.0, "consumed_samples": 518144, "global_step/max_steps": "2024/12700"}
{"lm loss": 2.1898818, "grad_norm": 0.58875221, "learning_rate": 9.686e-05, "elapsed_time_per_iteration": 4.96511936, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 22s", "remaining_time": "14h 31m 46s", "loss_scale": 1.0, "consumed_samples": 518400, "global_step/max_steps": "2025/12700"}
{"lm loss": 2.19421768, "grad_norm": 0.43516967, "learning_rate": 9.685e-05, "elapsed_time_per_iteration": 4.8186481, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 27s", "remaining_time": "14h 31m 41s", "loss_scale": 1.0, "consumed_samples": 518656, "global_step/max_steps": "2026/12700"}
{"lm loss": 2.18947244, "grad_norm": 0.51574898, "learning_rate": 9.685e-05, "elapsed_time_per_iteration": 4.86395812, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 32s", "remaining_time": "14h 31m 36s", "loss_scale": 1.0, "consumed_samples": 518912, "global_step/max_steps": "2027/12700"}
{"lm loss": 2.20603967, "grad_norm": 0.50554216, "learning_rate": 9.684e-05, "elapsed_time_per_iteration": 4.85777235, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 36s", "remaining_time": "14h 31m 31s", "loss_scale": 1.0, "consumed_samples": 519168, "global_step/max_steps": "2028/12700"}
{"lm loss": 2.15971208, "grad_norm": 0.44376588, "learning_rate": 9.684e-05, "elapsed_time_per_iteration": 4.76136184, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 41s", "remaining_time": "14h 31m 25s", "loss_scale": 1.0, "consumed_samples": 519424, "global_step/max_steps": "2029/12700"}
{"lm loss": 2.173352, "grad_norm": 0.53790152, "learning_rate": 9.684e-05, "elapsed_time_per_iteration": 4.77261233, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 46s", "remaining_time": "14h 31m 19s", "loss_scale": 1.0, "consumed_samples": 519680, "global_step/max_steps": "2030/12700"}
{"lm loss": 2.20586109, "grad_norm": 0.50426316, "learning_rate": 9.683e-05, "elapsed_time_per_iteration": 4.96296954, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 51s", "remaining_time": "14h 31m 15s", "loss_scale": 1.0, "consumed_samples": 519936, "global_step/max_steps": "2031/12700"}
{"lm loss": 2.19088483, "grad_norm": 0.49909303, "learning_rate": 9.683e-05, "elapsed_time_per_iteration": 4.88671207, "memory(GiB)": 28.98, "elapsed_time": "2h 45m 56s", "remaining_time": "14h 31m 10s", "loss_scale": 1.0, "consumed_samples": 520192, "global_step/max_steps": "2032/12700"}
{"lm loss": 2.16427016, "grad_norm": 0.51853365, "learning_rate": 9.682e-05, "elapsed_time_per_iteration": 4.97236967, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 1s", "remaining_time": "14h 31m 5s", "loss_scale": 1.0, "consumed_samples": 520448, "global_step/max_steps": "2033/12700"}
{"lm loss": 2.17889524, "grad_norm": 0.44700229, "learning_rate": 9.682e-05, "elapsed_time_per_iteration": 4.84387422, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 6s", "remaining_time": "14h 31m 0s", "loss_scale": 1.0, "consumed_samples": 520704, "global_step/max_steps": "2034/12700"}
{"lm loss": 2.20436835, "grad_norm": 0.44970694, "learning_rate": 9.681e-05, "elapsed_time_per_iteration": 4.83934045, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 10s", "remaining_time": "14h 30m 55s", "loss_scale": 1.0, "consumed_samples": 520960, "global_step/max_steps": "2035/12700"}
{"lm loss": 2.19587588, "grad_norm": 0.44607911, "learning_rate": 9.681e-05, "elapsed_time_per_iteration": 4.92697215, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 15s", "remaining_time": "14h 30m 50s", "loss_scale": 1.0, "consumed_samples": 521216, "global_step/max_steps": "2036/12700"}
{"lm loss": 2.18624258, "grad_norm": 0.41343659, "learning_rate": 9.68e-05, "elapsed_time_per_iteration": 4.95005226, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 20s", "remaining_time": "14h 30m 46s", "loss_scale": 1.0, "consumed_samples": 521472, "global_step/max_steps": "2037/12700"}
{"lm loss": 2.18609762, "grad_norm": 0.4565866, "learning_rate": 9.68e-05, "elapsed_time_per_iteration": 4.81136847, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 25s", "remaining_time": "14h 30m 40s", "loss_scale": 1.0, "consumed_samples": 521728, "global_step/max_steps": "2038/12700"}
{"lm loss": 2.21605563, "grad_norm": 0.44574714, "learning_rate": 9.679e-05, "elapsed_time_per_iteration": 4.85659456, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 30s", "remaining_time": "14h 30m 35s", "loss_scale": 1.0, "consumed_samples": 521984, "global_step/max_steps": "2039/12700"}
{"lm loss": 2.1935761, "grad_norm": 0.42345026, "learning_rate": 9.679e-05, "elapsed_time_per_iteration": 4.86527252, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 35s", "remaining_time": "14h 30m 30s", "loss_scale": 1.0, "consumed_samples": 522240, "global_step/max_steps": "2040/12700"}
{"lm loss": 2.22428083, "grad_norm": 0.46762896, "learning_rate": 9.679e-05, "elapsed_time_per_iteration": 4.8435638, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 40s", "remaining_time": "14h 30m 25s", "loss_scale": 1.0, "consumed_samples": 522496, "global_step/max_steps": "2041/12700"}
{"lm loss": 2.16522455, "grad_norm": 0.43360004, "learning_rate": 9.678e-05, "elapsed_time_per_iteration": 4.84456229, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 45s", "remaining_time": "14h 30m 20s", "loss_scale": 1.0, "consumed_samples": 522752, "global_step/max_steps": "2042/12700"}
{"lm loss": 2.16761017, "grad_norm": 0.43487436, "learning_rate": 9.678e-05, "elapsed_time_per_iteration": 4.89638186, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 49s", "remaining_time": "14h 30m 15s", "loss_scale": 1.0, "consumed_samples": 523008, "global_step/max_steps": "2043/12700"}
{"lm loss": 2.17670822, "grad_norm": 0.43083131, "learning_rate": 9.677e-05, "elapsed_time_per_iteration": 4.78333545, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 54s", "remaining_time": "14h 30m 9s", "loss_scale": 1.0, "consumed_samples": 523264, "global_step/max_steps": "2044/12700"}
{"lm loss": 2.20245934, "grad_norm": 0.41906372, "learning_rate": 9.677e-05, "elapsed_time_per_iteration": 4.86747599, "memory(GiB)": 28.98, "elapsed_time": "2h 46m 59s", "remaining_time": "14h 30m 4s", "loss_scale": 1.0, "consumed_samples": 523520, "global_step/max_steps": "2045/12700"}
{"lm loss": 2.18659115, "grad_norm": 0.43327302, "learning_rate": 9.676e-05, "elapsed_time_per_iteration": 4.86270785, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 4s", "remaining_time": "14h 29m 59s", "loss_scale": 1.0, "consumed_samples": 523776, "global_step/max_steps": "2046/12700"}
{"lm loss": 2.16549611, "grad_norm": 0.43884608, "learning_rate": 9.676e-05, "elapsed_time_per_iteration": 4.87601662, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 9s", "remaining_time": "14h 29m 54s", "loss_scale": 1.0, "consumed_samples": 524032, "global_step/max_steps": "2047/12700"}
{"lm loss": 2.17535877, "grad_norm": 0.4786039, "learning_rate": 9.675e-05, "elapsed_time_per_iteration": 4.87844753, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 14s", "remaining_time": "14h 29m 49s", "loss_scale": 1.0, "consumed_samples": 524288, "global_step/max_steps": "2048/12700"}
{"lm loss": 2.19637775, "grad_norm": 0.43666342, "learning_rate": 9.675e-05, "elapsed_time_per_iteration": 4.90908957, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 19s", "remaining_time": "14h 29m 44s", "loss_scale": 1.0, "consumed_samples": 524544, "global_step/max_steps": "2049/12700"}
{"lm loss": 2.21878076, "grad_norm": 0.42322615, "learning_rate": 9.675e-05, "elapsed_time_per_iteration": 4.83456492, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 23s", "remaining_time": "14h 29m 39s", "loss_scale": 1.0, "consumed_samples": 524800, "global_step/max_steps": "2050/12700"}
{"lm loss": 2.20874429, "grad_norm": 0.48025841, "learning_rate": 9.674e-05, "elapsed_time_per_iteration": 4.90170813, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 28s", "remaining_time": "14h 29m 34s", "loss_scale": 1.0, "consumed_samples": 525056, "global_step/max_steps": "2051/12700"}
{"lm loss": 2.19706416, "grad_norm": 0.42276543, "learning_rate": 9.674e-05, "elapsed_time_per_iteration": 4.89190483, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 33s", "remaining_time": "14h 29m 29s", "loss_scale": 1.0, "consumed_samples": 525312, "global_step/max_steps": "2052/12700"}
{"lm loss": 2.19607663, "grad_norm": 0.4509981, "learning_rate": 9.673e-05, "elapsed_time_per_iteration": 4.8391788, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 38s", "remaining_time": "14h 29m 24s", "loss_scale": 1.0, "consumed_samples": 525568, "global_step/max_steps": "2053/12700"}
{"lm loss": 2.17579556, "grad_norm": 0.42684186, "learning_rate": 9.673e-05, "elapsed_time_per_iteration": 4.7760725, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 43s", "remaining_time": "14h 29m 18s", "loss_scale": 1.0, "consumed_samples": 525824, "global_step/max_steps": "2054/12700"}
{"lm loss": 2.2244029, "grad_norm": 0.41209376, "learning_rate": 9.672e-05, "elapsed_time_per_iteration": 4.89172053, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 48s", "remaining_time": "14h 29m 13s", "loss_scale": 1.0, "consumed_samples": 526080, "global_step/max_steps": "2055/12700"}
{"lm loss": 2.19398499, "grad_norm": 0.42294368, "learning_rate": 9.672e-05, "elapsed_time_per_iteration": 4.92451119, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 53s", "remaining_time": "14h 29m 9s", "loss_scale": 1.0, "consumed_samples": 526336, "global_step/max_steps": "2056/12700"}
{"lm loss": 2.21074653, "grad_norm": 0.47182584, "learning_rate": 9.671e-05, "elapsed_time_per_iteration": 4.96452999, "memory(GiB)": 28.98, "elapsed_time": "2h 47m 58s", "remaining_time": "14h 29m 4s", "loss_scale": 1.0, "consumed_samples": 526592, "global_step/max_steps": "2057/12700"}
{"lm loss": 2.18908739, "grad_norm": 0.45077699, "learning_rate": 9.671e-05, "elapsed_time_per_iteration": 4.92481208, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 3s", "remaining_time": "14h 28m 59s", "loss_scale": 1.0, "consumed_samples": 526848, "global_step/max_steps": "2058/12700"}
{"lm loss": 2.2184186, "grad_norm": 0.44351763, "learning_rate": 9.67e-05, "elapsed_time_per_iteration": 4.94036818, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 7s", "remaining_time": "14h 28m 55s", "loss_scale": 1.0, "consumed_samples": 527104, "global_step/max_steps": "2059/12700"}
{"lm loss": 2.18558717, "grad_norm": 0.41196883, "learning_rate": 9.67e-05, "elapsed_time_per_iteration": 4.96545267, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 12s", "remaining_time": "14h 28m 50s", "loss_scale": 1.0, "consumed_samples": 527360, "global_step/max_steps": "2060/12700"}
{"lm loss": 2.16700053, "grad_norm": 0.43440828, "learning_rate": 9.669e-05, "elapsed_time_per_iteration": 4.75473428, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 17s", "remaining_time": "14h 28m 44s", "loss_scale": 1.0, "consumed_samples": 527616, "global_step/max_steps": "2061/12700"}
{"lm loss": 2.19272494, "grad_norm": 0.40042761, "learning_rate": 9.669e-05, "elapsed_time_per_iteration": 4.824857, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 22s", "remaining_time": "14h 28m 39s", "loss_scale": 1.0, "consumed_samples": 527872, "global_step/max_steps": "2062/12700"}
{"lm loss": 2.15536499, "grad_norm": 0.39255652, "learning_rate": 9.669e-05, "elapsed_time_per_iteration": 4.85909986, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 27s", "remaining_time": "14h 28m 34s", "loss_scale": 1.0, "consumed_samples": 528128, "global_step/max_steps": "2063/12700"}
{"lm loss": 2.18003917, "grad_norm": 0.42861661, "learning_rate": 9.668e-05, "elapsed_time_per_iteration": 4.86423707, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 32s", "remaining_time": "14h 28m 29s", "loss_scale": 1.0, "consumed_samples": 528384, "global_step/max_steps": "2064/12700"}
{"lm loss": 2.18324661, "grad_norm": 0.43013138, "learning_rate": 9.668e-05, "elapsed_time_per_iteration": 4.8258481, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 37s", "remaining_time": "14h 28m 24s", "loss_scale": 1.0, "consumed_samples": 528640, "global_step/max_steps": "2065/12700"}
{"lm loss": 2.23179436, "grad_norm": 0.42182952, "learning_rate": 9.667e-05, "elapsed_time_per_iteration": 5.01863718, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 42s", "remaining_time": "14h 28m 19s", "loss_scale": 1.0, "consumed_samples": 528896, "global_step/max_steps": "2066/12700"}
{"lm loss": 2.17126608, "grad_norm": 0.45662102, "learning_rate": 9.667e-05, "elapsed_time_per_iteration": 4.98932076, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 47s", "remaining_time": "14h 28m 15s", "loss_scale": 1.0, "consumed_samples": 529152, "global_step/max_steps": "2067/12700"}
{"lm loss": 2.16614342, "grad_norm": 0.43279704, "learning_rate": 9.666e-05, "elapsed_time_per_iteration": 4.93974066, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 52s", "remaining_time": "14h 28m 10s", "loss_scale": 1.0, "consumed_samples": 529408, "global_step/max_steps": "2068/12700"}
{"lm loss": 2.23558736, "grad_norm": 0.46970284, "learning_rate": 9.666e-05, "elapsed_time_per_iteration": 4.88875723, "memory(GiB)": 28.98, "elapsed_time": "2h 48m 56s", "remaining_time": "14h 28m 5s", "loss_scale": 1.0, "consumed_samples": 529664, "global_step/max_steps": "2069/12700"}
{"lm loss": 2.18942761, "grad_norm": 0.41844136, "learning_rate": 9.665e-05, "elapsed_time_per_iteration": 4.82362556, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 1s", "remaining_time": "14h 28m 0s", "loss_scale": 1.0, "consumed_samples": 529920, "global_step/max_steps": "2070/12700"}
{"lm loss": 2.18682194, "grad_norm": 0.46835238, "learning_rate": 9.665e-05, "elapsed_time_per_iteration": 4.91967249, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 6s", "remaining_time": "14h 27m 55s", "loss_scale": 1.0, "consumed_samples": 530176, "global_step/max_steps": "2071/12700"}
{"lm loss": 2.14137197, "grad_norm": 0.4495225, "learning_rate": 9.664e-05, "elapsed_time_per_iteration": 4.84724784, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 11s", "remaining_time": "14h 27m 50s", "loss_scale": 1.0, "consumed_samples": 530432, "global_step/max_steps": "2072/12700"}
{"lm loss": 2.202595, "grad_norm": 0.43626204, "learning_rate": 9.664e-05, "elapsed_time_per_iteration": 4.86273122, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 16s", "remaining_time": "14h 27m 45s", "loss_scale": 1.0, "consumed_samples": 530688, "global_step/max_steps": "2073/12700"}
{"lm loss": 2.20019627, "grad_norm": 0.42108423, "learning_rate": 9.663e-05, "elapsed_time_per_iteration": 4.85728765, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 21s", "remaining_time": "14h 27m 40s", "loss_scale": 1.0, "consumed_samples": 530944, "global_step/max_steps": "2074/12700"}
{"lm loss": 2.18979907, "grad_norm": 0.43389577, "learning_rate": 9.663e-05, "elapsed_time_per_iteration": 4.86693668, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 26s", "remaining_time": "14h 27m 35s", "loss_scale": 1.0, "consumed_samples": 531200, "global_step/max_steps": "2075/12700"}
{"lm loss": 2.14434671, "grad_norm": 0.46457756, "learning_rate": 9.663e-05, "elapsed_time_per_iteration": 4.93536115, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 31s", "remaining_time": "14h 27m 30s", "loss_scale": 1.0, "consumed_samples": 531456, "global_step/max_steps": "2076/12700"}
{"lm loss": 2.20329738, "grad_norm": 0.50540924, "learning_rate": 9.662e-05, "elapsed_time_per_iteration": 4.89314389, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 35s", "remaining_time": "14h 27m 25s", "loss_scale": 1.0, "consumed_samples": 531712, "global_step/max_steps": "2077/12700"}
{"lm loss": 2.21735644, "grad_norm": 0.43966928, "learning_rate": 9.662e-05, "elapsed_time_per_iteration": 4.89645791, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 40s", "remaining_time": "14h 27m 20s", "loss_scale": 1.0, "consumed_samples": 531968, "global_step/max_steps": "2078/12700"}
{"lm loss": 2.18262649, "grad_norm": 0.48782963, "learning_rate": 9.661e-05, "elapsed_time_per_iteration": 4.93927097, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 45s", "remaining_time": "14h 27m 15s", "loss_scale": 1.0, "consumed_samples": 532224, "global_step/max_steps": "2079/12700"}
{"lm loss": 2.19610643, "grad_norm": 0.45621338, "learning_rate": 9.661e-05, "elapsed_time_per_iteration": 4.90611362, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 50s", "remaining_time": "14h 27m 11s", "loss_scale": 1.0, "consumed_samples": 532480, "global_step/max_steps": "2080/12700"}
{"lm loss": 2.18613005, "grad_norm": 0.45114231, "learning_rate": 9.66e-05, "elapsed_time_per_iteration": 4.83916593, "memory(GiB)": 28.98, "elapsed_time": "2h 49m 55s", "remaining_time": "14h 27m 5s", "loss_scale": 1.0, "consumed_samples": 532736, "global_step/max_steps": "2081/12700"}
{"lm loss": 2.2131989, "grad_norm": 0.44519052, "learning_rate": 9.66e-05, "elapsed_time_per_iteration": 4.91288257, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 0s", "remaining_time": "14h 27m 1s", "loss_scale": 1.0, "consumed_samples": 532992, "global_step/max_steps": "2082/12700"}
{"lm loss": 2.20857072, "grad_norm": 0.45583433, "learning_rate": 9.659e-05, "elapsed_time_per_iteration": 4.82083225, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 5s", "remaining_time": "14h 26m 55s", "loss_scale": 1.0, "consumed_samples": 533248, "global_step/max_steps": "2083/12700"}
{"lm loss": 2.20389295, "grad_norm": 0.4393937, "learning_rate": 9.659e-05, "elapsed_time_per_iteration": 4.80640364, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 10s", "remaining_time": "14h 26m 50s", "loss_scale": 1.0, "consumed_samples": 533504, "global_step/max_steps": "2084/12700"}
{"lm loss": 2.20816326, "grad_norm": 0.46017024, "learning_rate": 9.658e-05, "elapsed_time_per_iteration": 4.80868983, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 14s", "remaining_time": "14h 26m 45s", "loss_scale": 1.0, "consumed_samples": 533760, "global_step/max_steps": "2085/12700"}
{"lm loss": 2.18947315, "grad_norm": 0.40482083, "learning_rate": 9.658e-05, "elapsed_time_per_iteration": 4.77266216, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 19s", "remaining_time": "14h 26m 39s", "loss_scale": 1.0, "consumed_samples": 534016, "global_step/max_steps": "2086/12700"}
{"lm loss": 2.19111133, "grad_norm": 0.43218535, "learning_rate": 9.657e-05, "elapsed_time_per_iteration": 4.98419428, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 24s", "remaining_time": "14h 26m 35s", "loss_scale": 1.0, "consumed_samples": 534272, "global_step/max_steps": "2087/12700"}
{"lm loss": 2.18204498, "grad_norm": 0.43159521, "learning_rate": 9.657e-05, "elapsed_time_per_iteration": 4.83411384, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 29s", "remaining_time": "14h 26m 29s", "loss_scale": 1.0, "consumed_samples": 534528, "global_step/max_steps": "2088/12700"}
{"lm loss": 2.1963284, "grad_norm": 0.45527214, "learning_rate": 9.657e-05, "elapsed_time_per_iteration": 4.85911632, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 34s", "remaining_time": "14h 26m 24s", "loss_scale": 1.0, "consumed_samples": 534784, "global_step/max_steps": "2089/12700"}
{"lm loss": 2.17900419, "grad_norm": 0.40360677, "learning_rate": 9.656e-05, "elapsed_time_per_iteration": 4.98716331, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 39s", "remaining_time": "14h 26m 20s", "loss_scale": 1.0, "consumed_samples": 535040, "global_step/max_steps": "2090/12700"}
{"lm loss": 2.17388868, "grad_norm": 0.41603503, "learning_rate": 9.656e-05, "elapsed_time_per_iteration": 4.83974671, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 44s", "remaining_time": "14h 26m 15s", "loss_scale": 1.0, "consumed_samples": 535296, "global_step/max_steps": "2091/12700"}
{"lm loss": 2.20810127, "grad_norm": 0.44068462, "learning_rate": 9.655e-05, "elapsed_time_per_iteration": 5.00518537, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 49s", "remaining_time": "14h 26m 10s", "loss_scale": 1.0, "consumed_samples": 535552, "global_step/max_steps": "2092/12700"}
{"lm loss": 2.17258477, "grad_norm": 0.42257562, "learning_rate": 9.655e-05, "elapsed_time_per_iteration": 4.85869026, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 53s", "remaining_time": "14h 26m 5s", "loss_scale": 1.0, "consumed_samples": 535808, "global_step/max_steps": "2093/12700"}
{"lm loss": 2.20943403, "grad_norm": 0.4380205, "learning_rate": 9.654e-05, "elapsed_time_per_iteration": 4.89455867, "memory(GiB)": 28.98, "elapsed_time": "2h 50m 58s", "remaining_time": "14h 26m 0s", "loss_scale": 1.0, "consumed_samples": 536064, "global_step/max_steps": "2094/12700"}
{"lm loss": 2.19044662, "grad_norm": 0.42376119, "learning_rate": 9.654e-05, "elapsed_time_per_iteration": 4.818295, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 3s", "remaining_time": "14h 25m 55s", "loss_scale": 1.0, "consumed_samples": 536320, "global_step/max_steps": "2095/12700"}
{"lm loss": 2.17495012, "grad_norm": 0.44318256, "learning_rate": 9.653e-05, "elapsed_time_per_iteration": 4.889714, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 8s", "remaining_time": "14h 25m 50s", "loss_scale": 1.0, "consumed_samples": 536576, "global_step/max_steps": "2096/12700"}
{"lm loss": 2.16328168, "grad_norm": 0.4234347, "learning_rate": 9.653e-05, "elapsed_time_per_iteration": 4.91473198, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 13s", "remaining_time": "14h 25m 45s", "loss_scale": 1.0, "consumed_samples": 536832, "global_step/max_steps": "2097/12700"}
{"lm loss": 2.2028439, "grad_norm": 0.40902439, "learning_rate": 9.652e-05, "elapsed_time_per_iteration": 4.88352251, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 18s", "remaining_time": "14h 25m 40s", "loss_scale": 1.0, "consumed_samples": 537088, "global_step/max_steps": "2098/12700"}
{"lm loss": 2.21496487, "grad_norm": 0.43632805, "learning_rate": 9.652e-05, "elapsed_time_per_iteration": 4.88757539, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 23s", "remaining_time": "14h 25m 35s", "loss_scale": 1.0, "consumed_samples": 537344, "global_step/max_steps": "2099/12700"}
{"lm loss": 2.2075417, "grad_norm": 0.43428791, "learning_rate": 9.651e-05, "elapsed_time_per_iteration": 4.9291873, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 28s", "remaining_time": "14h 25m 30s", "loss_scale": 1.0, "consumed_samples": 537600, "global_step/max_steps": "2100/12700"}
{"lm loss": 2.19381142, "grad_norm": 0.38729349, "learning_rate": 9.651e-05, "elapsed_time_per_iteration": 4.86717057, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 33s", "remaining_time": "14h 25m 25s", "loss_scale": 1.0, "consumed_samples": 537856, "global_step/max_steps": "2101/12700"}
{"lm loss": 2.14618754, "grad_norm": 0.43541232, "learning_rate": 9.65e-05, "elapsed_time_per_iteration": 4.81493831, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 37s", "remaining_time": "14h 25m 20s", "loss_scale": 1.0, "consumed_samples": 538112, "global_step/max_steps": "2102/12700"}
{"lm loss": 2.19353008, "grad_norm": 0.40687507, "learning_rate": 9.65e-05, "elapsed_time_per_iteration": 4.93754196, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 42s", "remaining_time": "14h 25m 15s", "loss_scale": 1.0, "consumed_samples": 538368, "global_step/max_steps": "2103/12700"}
{"lm loss": 2.20928216, "grad_norm": 0.44060326, "learning_rate": 9.649e-05, "elapsed_time_per_iteration": 4.96716022, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 47s", "remaining_time": "14h 25m 11s", "loss_scale": 1.0, "consumed_samples": 538624, "global_step/max_steps": "2104/12700"}
{"lm loss": 2.19660974, "grad_norm": 0.44728118, "learning_rate": 9.649e-05, "elapsed_time_per_iteration": 4.77813196, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 52s", "remaining_time": "14h 25m 5s", "loss_scale": 1.0, "consumed_samples": 538880, "global_step/max_steps": "2105/12700"}
{"lm loss": 2.17144322, "grad_norm": 0.43887025, "learning_rate": 9.649e-05, "elapsed_time_per_iteration": 4.88598561, "memory(GiB)": 28.98, "elapsed_time": "2h 51m 57s", "remaining_time": "14h 25m 0s", "loss_scale": 1.0, "consumed_samples": 539136, "global_step/max_steps": "2106/12700"}
{"lm loss": 2.2092433, "grad_norm": 0.42899585, "learning_rate": 9.648e-05, "elapsed_time_per_iteration": 4.94244385, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 2s", "remaining_time": "14h 24m 56s", "loss_scale": 1.0, "consumed_samples": 539392, "global_step/max_steps": "2107/12700"}
{"lm loss": 2.16801572, "grad_norm": 0.46131599, "learning_rate": 9.648e-05, "elapsed_time_per_iteration": 4.90946555, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 7s", "remaining_time": "14h 24m 51s", "loss_scale": 1.0, "consumed_samples": 539648, "global_step/max_steps": "2108/12700"}
{"lm loss": 2.21447492, "grad_norm": 0.42767158, "learning_rate": 9.647e-05, "elapsed_time_per_iteration": 4.87112784, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 12s", "remaining_time": "14h 24m 46s", "loss_scale": 1.0, "consumed_samples": 539904, "global_step/max_steps": "2109/12700"}
{"lm loss": 2.23039126, "grad_norm": 0.42381069, "learning_rate": 9.647e-05, "elapsed_time_per_iteration": 4.79718208, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 16s", "remaining_time": "14h 24m 40s", "loss_scale": 1.0, "consumed_samples": 540160, "global_step/max_steps": "2110/12700"}
{"lm loss": 2.17534995, "grad_norm": 0.43430594, "learning_rate": 9.646e-05, "elapsed_time_per_iteration": 4.9306891, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 21s", "remaining_time": "14h 24m 36s", "loss_scale": 1.0, "consumed_samples": 540416, "global_step/max_steps": "2111/12700"}
{"lm loss": 2.20420837, "grad_norm": 0.42542008, "learning_rate": 9.646e-05, "elapsed_time_per_iteration": 4.90404963, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 26s", "remaining_time": "14h 24m 31s", "loss_scale": 1.0, "consumed_samples": 540672, "global_step/max_steps": "2112/12700"}
{"lm loss": 2.14712858, "grad_norm": 0.42787895, "learning_rate": 9.645e-05, "elapsed_time_per_iteration": 4.91040754, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 31s", "remaining_time": "14h 24m 26s", "loss_scale": 1.0, "consumed_samples": 540928, "global_step/max_steps": "2113/12700"}
{"lm loss": 2.17484856, "grad_norm": 0.45977303, "learning_rate": 9.645e-05, "elapsed_time_per_iteration": 4.79750514, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 36s", "remaining_time": "14h 24m 20s", "loss_scale": 1.0, "consumed_samples": 541184, "global_step/max_steps": "2114/12700"}
{"lm loss": 2.21602654, "grad_norm": 0.44385436, "learning_rate": 9.644e-05, "elapsed_time_per_iteration": 4.86774278, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 41s", "remaining_time": "14h 24m 15s", "loss_scale": 1.0, "consumed_samples": 541440, "global_step/max_steps": "2115/12700"}
{"lm loss": 2.17131162, "grad_norm": 0.44309083, "learning_rate": 9.644e-05, "elapsed_time_per_iteration": 5.01095414, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 46s", "remaining_time": "14h 24m 11s", "loss_scale": 1.0, "consumed_samples": 541696, "global_step/max_steps": "2116/12700"}
{"lm loss": 2.22815371, "grad_norm": 0.41234353, "learning_rate": 9.643e-05, "elapsed_time_per_iteration": 4.87693787, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 51s", "remaining_time": "14h 24m 6s", "loss_scale": 1.0, "consumed_samples": 541952, "global_step/max_steps": "2117/12700"}
{"lm loss": 2.20878601, "grad_norm": 0.4383688, "learning_rate": 9.643e-05, "elapsed_time_per_iteration": 4.96264362, "memory(GiB)": 28.98, "elapsed_time": "2h 52m 56s", "remaining_time": "14h 24m 1s", "loss_scale": 1.0, "consumed_samples": 542208, "global_step/max_steps": "2118/12700"}
{"lm loss": 2.23175144, "grad_norm": 0.46397015, "learning_rate": 9.642e-05, "elapsed_time_per_iteration": 4.80228519, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 1s", "remaining_time": "14h 23m 56s", "loss_scale": 1.0, "consumed_samples": 542464, "global_step/max_steps": "2119/12700"}
{"lm loss": 2.19447374, "grad_norm": 0.43928155, "learning_rate": 9.642e-05, "elapsed_time_per_iteration": 4.83380914, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 5s", "remaining_time": "14h 23m 51s", "loss_scale": 1.0, "consumed_samples": 542720, "global_step/max_steps": "2120/12700"}
{"lm loss": 2.15886807, "grad_norm": 0.42137632, "learning_rate": 9.641e-05, "elapsed_time_per_iteration": 4.77581501, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 10s", "remaining_time": "14h 23m 45s", "loss_scale": 1.0, "consumed_samples": 542976, "global_step/max_steps": "2121/12700"}
{"lm loss": 2.1849196, "grad_norm": 0.4675445, "learning_rate": 9.641e-05, "elapsed_time_per_iteration": 4.84681916, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 15s", "remaining_time": "14h 23m 40s", "loss_scale": 1.0, "consumed_samples": 543232, "global_step/max_steps": "2122/12700"}
{"lm loss": 2.17473221, "grad_norm": 0.46082804, "learning_rate": 9.64e-05, "elapsed_time_per_iteration": 4.89282012, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 20s", "remaining_time": "14h 23m 35s", "loss_scale": 1.0, "consumed_samples": 543488, "global_step/max_steps": "2123/12700"}
{"lm loss": 2.18256259, "grad_norm": 0.4919557, "learning_rate": 9.64e-05, "elapsed_time_per_iteration": 4.9031918, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 25s", "remaining_time": "14h 23m 30s", "loss_scale": 1.0, "consumed_samples": 543744, "global_step/max_steps": "2124/12700"}
{"lm loss": 2.17425466, "grad_norm": 0.45380309, "learning_rate": 9.64e-05, "elapsed_time_per_iteration": 4.95422888, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 30s", "remaining_time": "14h 23m 26s", "loss_scale": 1.0, "consumed_samples": 544000, "global_step/max_steps": "2125/12700"}
{"lm loss": 2.18753028, "grad_norm": 0.45298406, "learning_rate": 9.639e-05, "elapsed_time_per_iteration": 4.83372211, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 35s", "remaining_time": "14h 23m 21s", "loss_scale": 1.0, "consumed_samples": 544256, "global_step/max_steps": "2126/12700"}
{"lm loss": 2.17803359, "grad_norm": 0.43451452, "learning_rate": 9.639e-05, "elapsed_time_per_iteration": 4.79944038, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 39s", "remaining_time": "14h 23m 15s", "loss_scale": 1.0, "consumed_samples": 544512, "global_step/max_steps": "2127/12700"}
{"lm loss": 2.21208334, "grad_norm": 0.45624113, "learning_rate": 9.638e-05, "elapsed_time_per_iteration": 4.7711339, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 44s", "remaining_time": "14h 23m 10s", "loss_scale": 1.0, "consumed_samples": 544768, "global_step/max_steps": "2128/12700"}
{"lm loss": 2.14799309, "grad_norm": 0.40685686, "learning_rate": 9.638e-05, "elapsed_time_per_iteration": 4.86193848, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 49s", "remaining_time": "14h 23m 5s", "loss_scale": 1.0, "consumed_samples": 545024, "global_step/max_steps": "2129/12700"}
{"lm loss": 2.20643163, "grad_norm": 0.41870543, "learning_rate": 9.637e-05, "elapsed_time_per_iteration": 4.86821866, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 54s", "remaining_time": "14h 22m 59s", "loss_scale": 1.0, "consumed_samples": 545280, "global_step/max_steps": "2130/12700"}
{"lm loss": 2.20308113, "grad_norm": 0.4203144, "learning_rate": 9.637e-05, "elapsed_time_per_iteration": 4.82731891, "memory(GiB)": 28.98, "elapsed_time": "2h 53m 59s", "remaining_time": "14h 22m 54s", "loss_scale": 1.0, "consumed_samples": 545536, "global_step/max_steps": "2131/12700"}
{"lm loss": 2.178231, "grad_norm": 0.43493727, "learning_rate": 9.636e-05, "elapsed_time_per_iteration": 4.8309381, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 4s", "remaining_time": "14h 22m 49s", "loss_scale": 1.0, "consumed_samples": 545792, "global_step/max_steps": "2132/12700"}
{"lm loss": 2.1978333, "grad_norm": 0.47597387, "learning_rate": 9.636e-05, "elapsed_time_per_iteration": 4.89218044, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 8s", "remaining_time": "14h 22m 44s", "loss_scale": 1.0, "consumed_samples": 546048, "global_step/max_steps": "2133/12700"}
{"lm loss": 2.20975876, "grad_norm": 0.50624573, "learning_rate": 9.635e-05, "elapsed_time_per_iteration": 4.80583858, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 13s", "remaining_time": "14h 22m 39s", "loss_scale": 1.0, "consumed_samples": 546304, "global_step/max_steps": "2134/12700"}
{"lm loss": 2.23171163, "grad_norm": 0.43620363, "learning_rate": 9.635e-05, "elapsed_time_per_iteration": 4.89250326, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 18s", "remaining_time": "14h 22m 34s", "loss_scale": 1.0, "consumed_samples": 546560, "global_step/max_steps": "2135/12700"}
{"lm loss": 2.21396041, "grad_norm": 0.40966183, "learning_rate": 9.634e-05, "elapsed_time_per_iteration": 4.88394165, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 23s", "remaining_time": "14h 22m 29s", "loss_scale": 1.0, "consumed_samples": 546816, "global_step/max_steps": "2136/12700"}
{"lm loss": 2.16599226, "grad_norm": 0.44654387, "learning_rate": 9.634e-05, "elapsed_time_per_iteration": 4.88858581, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 28s", "remaining_time": "14h 22m 24s", "loss_scale": 1.0, "consumed_samples": 547072, "global_step/max_steps": "2137/12700"}
{"lm loss": 2.16777897, "grad_norm": 0.40820372, "learning_rate": 9.633e-05, "elapsed_time_per_iteration": 4.8621695, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 33s", "remaining_time": "14h 22m 19s", "loss_scale": 1.0, "consumed_samples": 547328, "global_step/max_steps": "2138/12700"}
{"lm loss": 2.16374135, "grad_norm": 0.47452483, "learning_rate": 9.633e-05, "elapsed_time_per_iteration": 4.78398013, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 38s", "remaining_time": "14h 22m 13s", "loss_scale": 1.0, "consumed_samples": 547584, "global_step/max_steps": "2139/12700"}
{"lm loss": 2.2209518, "grad_norm": 0.42324853, "learning_rate": 9.632e-05, "elapsed_time_per_iteration": 4.90143204, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 42s", "remaining_time": "14h 22m 8s", "loss_scale": 1.0, "consumed_samples": 547840, "global_step/max_steps": "2140/12700"}
{"lm loss": 2.20244336, "grad_norm": 0.47421163, "learning_rate": 9.632e-05, "elapsed_time_per_iteration": 4.94487143, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 47s", "remaining_time": "14h 22m 4s", "loss_scale": 1.0, "consumed_samples": 548096, "global_step/max_steps": "2141/12700"}
{"lm loss": 2.1748724, "grad_norm": 0.47447941, "learning_rate": 9.631e-05, "elapsed_time_per_iteration": 4.8439827, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 52s", "remaining_time": "14h 21m 59s", "loss_scale": 1.0, "consumed_samples": 548352, "global_step/max_steps": "2142/12700"}
{"lm loss": 2.21000552, "grad_norm": 0.39895928, "learning_rate": 9.631e-05, "elapsed_time_per_iteration": 4.82794762, "memory(GiB)": 28.98, "elapsed_time": "2h 54m 57s", "remaining_time": "14h 21m 53s", "loss_scale": 1.0, "consumed_samples": 548608, "global_step/max_steps": "2143/12700"}
{"lm loss": 2.17613578, "grad_norm": 0.46062928, "learning_rate": 9.63e-05, "elapsed_time_per_iteration": 4.93680191, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 2s", "remaining_time": "14h 21m 49s", "loss_scale": 1.0, "consumed_samples": 548864, "global_step/max_steps": "2144/12700"}
{"lm loss": 2.19321799, "grad_norm": 0.44961831, "learning_rate": 9.63e-05, "elapsed_time_per_iteration": 4.9431076, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 7s", "remaining_time": "14h 21m 44s", "loss_scale": 1.0, "consumed_samples": 549120, "global_step/max_steps": "2145/12700"}
{"lm loss": 2.21022868, "grad_norm": 0.4530651, "learning_rate": 9.629e-05, "elapsed_time_per_iteration": 4.83388138, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 12s", "remaining_time": "14h 21m 39s", "loss_scale": 1.0, "consumed_samples": 549376, "global_step/max_steps": "2146/12700"}
{"lm loss": 2.19997621, "grad_norm": 0.42645103, "learning_rate": 9.629e-05, "elapsed_time_per_iteration": 4.7946589, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 17s", "remaining_time": "14h 21m 33s", "loss_scale": 1.0, "consumed_samples": 549632, "global_step/max_steps": "2147/12700"}
{"lm loss": 2.17136741, "grad_norm": 0.41601166, "learning_rate": 9.628e-05, "elapsed_time_per_iteration": 4.86056376, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 21s", "remaining_time": "14h 21m 28s", "loss_scale": 1.0, "consumed_samples": 549888, "global_step/max_steps": "2148/12700"}
{"lm loss": 2.23483682, "grad_norm": 0.45650455, "learning_rate": 9.628e-05, "elapsed_time_per_iteration": 4.88216686, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 26s", "remaining_time": "14h 21m 23s", "loss_scale": 1.0, "consumed_samples": 550144, "global_step/max_steps": "2149/12700"}
{"lm loss": 2.18247223, "grad_norm": 0.48662657, "learning_rate": 9.627e-05, "elapsed_time_per_iteration": 4.78911471, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 31s", "remaining_time": "14h 21m 18s", "loss_scale": 1.0, "consumed_samples": 550400, "global_step/max_steps": "2150/12700"}
{"lm loss": 2.19154978, "grad_norm": 0.41638863, "learning_rate": 9.627e-05, "elapsed_time_per_iteration": 4.84237051, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 36s", "remaining_time": "14h 21m 13s", "loss_scale": 1.0, "consumed_samples": 550656, "global_step/max_steps": "2151/12700"}
{"lm loss": 2.2157414, "grad_norm": 0.50370938, "learning_rate": 9.627e-05, "elapsed_time_per_iteration": 4.92485905, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 41s", "remaining_time": "14h 21m 8s", "loss_scale": 1.0, "consumed_samples": 550912, "global_step/max_steps": "2152/12700"}
{"lm loss": 2.17011595, "grad_norm": 0.426651, "learning_rate": 9.626e-05, "elapsed_time_per_iteration": 4.9648838, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 46s", "remaining_time": "14h 21m 3s", "loss_scale": 1.0, "consumed_samples": 551168, "global_step/max_steps": "2153/12700"}
{"lm loss": 2.20056987, "grad_norm": 0.45956388, "learning_rate": 9.626e-05, "elapsed_time_per_iteration": 4.87546849, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 51s", "remaining_time": "14h 20m 58s", "loss_scale": 1.0, "consumed_samples": 551424, "global_step/max_steps": "2154/12700"}
{"lm loss": 2.16831374, "grad_norm": 0.47603425, "learning_rate": 9.625e-05, "elapsed_time_per_iteration": 4.82239413, "memory(GiB)": 28.98, "elapsed_time": "2h 55m 56s", "remaining_time": "14h 20m 53s", "loss_scale": 1.0, "consumed_samples": 551680, "global_step/max_steps": "2155/12700"}
{"lm loss": 2.22207069, "grad_norm": 0.44342035, "learning_rate": 9.625e-05, "elapsed_time_per_iteration": 4.89238954, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 0s", "remaining_time": "14h 20m 48s", "loss_scale": 1.0, "consumed_samples": 551936, "global_step/max_steps": "2156/12700"}
{"lm loss": 2.22092652, "grad_norm": 0.40801796, "learning_rate": 9.624e-05, "elapsed_time_per_iteration": 4.98365855, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 5s", "remaining_time": "14h 20m 44s", "loss_scale": 1.0, "consumed_samples": 552192, "global_step/max_steps": "2157/12700"}
{"lm loss": 2.17399693, "grad_norm": 0.50190282, "learning_rate": 9.624e-05, "elapsed_time_per_iteration": 4.85296345, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 10s", "remaining_time": "14h 20m 39s", "loss_scale": 1.0, "consumed_samples": 552448, "global_step/max_steps": "2158/12700"}
{"lm loss": 2.18057179, "grad_norm": 0.49157256, "learning_rate": 9.623e-05, "elapsed_time_per_iteration": 4.87427354, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 15s", "remaining_time": "14h 20m 33s", "loss_scale": 1.0, "consumed_samples": 552704, "global_step/max_steps": "2159/12700"}
{"lm loss": 2.21086502, "grad_norm": 0.39514023, "learning_rate": 9.623e-05, "elapsed_time_per_iteration": 4.89789271, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 20s", "remaining_time": "14h 20m 29s", "loss_scale": 1.0, "consumed_samples": 552960, "global_step/max_steps": "2160/12700"}
{"lm loss": 2.23019218, "grad_norm": 0.47983012, "learning_rate": 9.622e-05, "elapsed_time_per_iteration": 4.89028597, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 25s", "remaining_time": "14h 20m 24s", "loss_scale": 1.0, "consumed_samples": 553216, "global_step/max_steps": "2161/12700"}
{"lm loss": 2.20262051, "grad_norm": 0.4540115, "learning_rate": 9.622e-05, "elapsed_time_per_iteration": 4.97744274, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 30s", "remaining_time": "14h 20m 19s", "loss_scale": 1.0, "consumed_samples": 553472, "global_step/max_steps": "2162/12700"}
{"lm loss": 2.20205951, "grad_norm": 0.48691946, "learning_rate": 9.621e-05, "elapsed_time_per_iteration": 4.83512092, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 35s", "remaining_time": "14h 20m 14s", "loss_scale": 1.0, "consumed_samples": 553728, "global_step/max_steps": "2163/12700"}
{"lm loss": 2.2021606, "grad_norm": 0.44164941, "learning_rate": 9.621e-05, "elapsed_time_per_iteration": 4.83228111, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 40s", "remaining_time": "14h 20m 9s", "loss_scale": 1.0, "consumed_samples": 553984, "global_step/max_steps": "2164/12700"}
{"lm loss": 2.20231915, "grad_norm": 0.48717856, "learning_rate": 9.62e-05, "elapsed_time_per_iteration": 4.87195921, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 44s", "remaining_time": "14h 20m 4s", "loss_scale": 1.0, "consumed_samples": 554240, "global_step/max_steps": "2165/12700"}
{"lm loss": 2.19343567, "grad_norm": 0.52749962, "learning_rate": 9.62e-05, "elapsed_time_per_iteration": 4.84863257, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 49s", "remaining_time": "14h 19m 59s", "loss_scale": 1.0, "consumed_samples": 554496, "global_step/max_steps": "2166/12700"}
{"lm loss": 2.2044549, "grad_norm": 0.4150914, "learning_rate": 9.619e-05, "elapsed_time_per_iteration": 4.82920861, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 54s", "remaining_time": "14h 19m 53s", "loss_scale": 1.0, "consumed_samples": 554752, "global_step/max_steps": "2167/12700"}
{"lm loss": 2.17970538, "grad_norm": 0.50710255, "learning_rate": 9.619e-05, "elapsed_time_per_iteration": 4.86118412, "memory(GiB)": 28.98, "elapsed_time": "2h 56m 59s", "remaining_time": "14h 19m 48s", "loss_scale": 1.0, "consumed_samples": 555008, "global_step/max_steps": "2168/12700"}
{"lm loss": 2.20699835, "grad_norm": 0.52581978, "learning_rate": 9.618e-05, "elapsed_time_per_iteration": 4.87146497, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 4s", "remaining_time": "14h 19m 43s", "loss_scale": 1.0, "consumed_samples": 555264, "global_step/max_steps": "2169/12700"}
{"lm loss": 2.21676373, "grad_norm": 0.42239347, "learning_rate": 9.618e-05, "elapsed_time_per_iteration": 4.78442025, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 9s", "remaining_time": "14h 19m 38s", "loss_scale": 1.0, "consumed_samples": 555520, "global_step/max_steps": "2170/12700"}
{"lm loss": 2.1764307, "grad_norm": 0.54980332, "learning_rate": 9.617e-05, "elapsed_time_per_iteration": 4.82571149, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 13s", "remaining_time": "14h 19m 33s", "loss_scale": 1.0, "consumed_samples": 555776, "global_step/max_steps": "2171/12700"}
{"lm loss": 2.17604518, "grad_norm": 0.45109034, "learning_rate": 9.617e-05, "elapsed_time_per_iteration": 4.88008356, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 18s", "remaining_time": "14h 19m 28s", "loss_scale": 1.0, "consumed_samples": 556032, "global_step/max_steps": "2172/12700"}
{"lm loss": 2.16962361, "grad_norm": 0.47617519, "learning_rate": 9.616e-05, "elapsed_time_per_iteration": 4.88506937, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 23s", "remaining_time": "14h 19m 23s", "loss_scale": 1.0, "consumed_samples": 556288, "global_step/max_steps": "2173/12700"}
{"lm loss": 2.21268535, "grad_norm": 0.46304321, "learning_rate": 9.616e-05, "elapsed_time_per_iteration": 4.81278586, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 28s", "remaining_time": "14h 19m 17s", "loss_scale": 1.0, "consumed_samples": 556544, "global_step/max_steps": "2174/12700"}
{"lm loss": 2.17392993, "grad_norm": 0.46160212, "learning_rate": 9.615e-05, "elapsed_time_per_iteration": 4.83599544, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 33s", "remaining_time": "14h 19m 12s", "loss_scale": 1.0, "consumed_samples": 556800, "global_step/max_steps": "2175/12700"}
{"lm loss": 2.13982058, "grad_norm": 0.43334556, "learning_rate": 9.615e-05, "elapsed_time_per_iteration": 4.8495152, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 38s", "remaining_time": "14h 19m 7s", "loss_scale": 1.0, "consumed_samples": 557056, "global_step/max_steps": "2176/12700"}
{"lm loss": 2.14645481, "grad_norm": 0.41243213, "learning_rate": 9.614e-05, "elapsed_time_per_iteration": 5.00180984, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 43s", "remaining_time": "14h 19m 3s", "loss_scale": 1.0, "consumed_samples": 557312, "global_step/max_steps": "2177/12700"}
{"lm loss": 2.17663956, "grad_norm": 0.39449415, "learning_rate": 9.614e-05, "elapsed_time_per_iteration": 4.81220198, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 48s", "remaining_time": "14h 18m 57s", "loss_scale": 1.0, "consumed_samples": 557568, "global_step/max_steps": "2178/12700"}
{"lm loss": 2.18513823, "grad_norm": 0.47654894, "learning_rate": 9.613e-05, "elapsed_time_per_iteration": 4.92827511, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 52s", "remaining_time": "14h 18m 52s", "loss_scale": 1.0, "consumed_samples": 557824, "global_step/max_steps": "2179/12700"}
{"lm loss": 2.18389511, "grad_norm": 0.47107321, "learning_rate": 9.613e-05, "elapsed_time_per_iteration": 4.8166554, "memory(GiB)": 28.98, "elapsed_time": "2h 57m 57s", "remaining_time": "14h 18m 47s", "loss_scale": 1.0, "consumed_samples": 558080, "global_step/max_steps": "2180/12700"}
{"lm loss": 2.22275186, "grad_norm": 0.40748361, "learning_rate": 9.612e-05, "elapsed_time_per_iteration": 4.80836797, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 2s", "remaining_time": "14h 18m 42s", "loss_scale": 1.0, "consumed_samples": 558336, "global_step/max_steps": "2181/12700"}
{"lm loss": 2.16150188, "grad_norm": 0.43623042, "learning_rate": 9.612e-05, "elapsed_time_per_iteration": 4.83530831, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 7s", "remaining_time": "14h 18m 37s", "loss_scale": 1.0, "consumed_samples": 558592, "global_step/max_steps": "2182/12700"}
{"lm loss": 2.21015596, "grad_norm": 0.460244, "learning_rate": 9.611e-05, "elapsed_time_per_iteration": 4.92183876, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 12s", "remaining_time": "14h 18m 32s", "loss_scale": 1.0, "consumed_samples": 558848, "global_step/max_steps": "2183/12700"}
{"lm loss": 2.13800049, "grad_norm": 0.45019054, "learning_rate": 9.611e-05, "elapsed_time_per_iteration": 4.84780097, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 17s", "remaining_time": "14h 18m 27s", "loss_scale": 1.0, "consumed_samples": 559104, "global_step/max_steps": "2184/12700"}
{"lm loss": 2.22511101, "grad_norm": 0.3959333, "learning_rate": 9.61e-05, "elapsed_time_per_iteration": 4.87545824, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 22s", "remaining_time": "14h 18m 22s", "loss_scale": 1.0, "consumed_samples": 559360, "global_step/max_steps": "2185/12700"}
{"lm loss": 2.17088509, "grad_norm": 0.47029549, "learning_rate": 9.61e-05, "elapsed_time_per_iteration": 4.92635727, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 26s", "remaining_time": "14h 18m 17s", "loss_scale": 1.0, "consumed_samples": 559616, "global_step/max_steps": "2186/12700"}
{"lm loss": 2.17500043, "grad_norm": 0.54717922, "learning_rate": 9.609e-05, "elapsed_time_per_iteration": 4.83736777, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 31s", "remaining_time": "14h 18m 12s", "loss_scale": 1.0, "consumed_samples": 559872, "global_step/max_steps": "2187/12700"}
{"lm loss": 2.15410852, "grad_norm": 0.43619174, "learning_rate": 9.609e-05, "elapsed_time_per_iteration": 4.83061504, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 36s", "remaining_time": "14h 18m 7s", "loss_scale": 1.0, "consumed_samples": 560128, "global_step/max_steps": "2188/12700"}
{"lm loss": 2.21340322, "grad_norm": 0.41770872, "learning_rate": 9.608e-05, "elapsed_time_per_iteration": 4.88090777, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 41s", "remaining_time": "14h 18m 2s", "loss_scale": 1.0, "consumed_samples": 560384, "global_step/max_steps": "2189/12700"}
{"lm loss": 2.19636869, "grad_norm": 0.45602429, "learning_rate": 9.608e-05, "elapsed_time_per_iteration": 4.86766863, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 46s", "remaining_time": "14h 17m 57s", "loss_scale": 1.0, "consumed_samples": 560640, "global_step/max_steps": "2190/12700"}
{"lm loss": 2.19323111, "grad_norm": 0.41614914, "learning_rate": 9.607e-05, "elapsed_time_per_iteration": 4.95793176, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 51s", "remaining_time": "14h 17m 52s", "loss_scale": 1.0, "consumed_samples": 560896, "global_step/max_steps": "2191/12700"}
{"lm loss": 2.15915632, "grad_norm": 0.439219, "learning_rate": 9.607e-05, "elapsed_time_per_iteration": 4.7707231, "memory(GiB)": 28.98, "elapsed_time": "2h 58m 56s", "remaining_time": "14h 17m 46s", "loss_scale": 1.0, "consumed_samples": 561152, "global_step/max_steps": "2192/12700"}
{"lm loss": 2.18617272, "grad_norm": 0.4618313, "learning_rate": 9.606e-05, "elapsed_time_per_iteration": 4.95807004, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 1s", "remaining_time": "14h 17m 42s", "loss_scale": 1.0, "consumed_samples": 561408, "global_step/max_steps": "2193/12700"}
{"lm loss": 2.17865753, "grad_norm": 0.44656456, "learning_rate": 9.606e-05, "elapsed_time_per_iteration": 4.79838681, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 5s", "remaining_time": "14h 17m 36s", "loss_scale": 1.0, "consumed_samples": 561664, "global_step/max_steps": "2194/12700"}
{"lm loss": 2.2037251, "grad_norm": 0.46180227, "learning_rate": 9.605e-05, "elapsed_time_per_iteration": 4.92996335, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 10s", "remaining_time": "14h 17m 32s", "loss_scale": 1.0, "consumed_samples": 561920, "global_step/max_steps": "2195/12700"}
{"lm loss": 2.16135764, "grad_norm": 0.47793102, "learning_rate": 9.605e-05, "elapsed_time_per_iteration": 5.00031829, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 15s", "remaining_time": "14h 17m 27s", "loss_scale": 1.0, "consumed_samples": 562176, "global_step/max_steps": "2196/12700"}
{"lm loss": 2.19542575, "grad_norm": 0.41469663, "learning_rate": 9.604e-05, "elapsed_time_per_iteration": 4.79540753, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 20s", "remaining_time": "14h 17m 22s", "loss_scale": 1.0, "consumed_samples": 562432, "global_step/max_steps": "2197/12700"}
{"lm loss": 2.18679667, "grad_norm": 0.44920522, "learning_rate": 9.604e-05, "elapsed_time_per_iteration": 4.82905507, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 25s", "remaining_time": "14h 17m 17s", "loss_scale": 1.0, "consumed_samples": 562688, "global_step/max_steps": "2198/12700"}
{"lm loss": 2.17534876, "grad_norm": 0.48646501, "learning_rate": 9.603e-05, "elapsed_time_per_iteration": 4.84800887, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 30s", "remaining_time": "14h 17m 11s", "loss_scale": 1.0, "consumed_samples": 562944, "global_step/max_steps": "2199/12700"}
{"lm loss": 2.22988081, "grad_norm": 0.42186993, "learning_rate": 9.603e-05, "elapsed_time_per_iteration": 4.85881329, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 35s", "remaining_time": "14h 17m 6s", "loss_scale": 1.0, "consumed_samples": 563200, "global_step/max_steps": "2200/12700"}
{"lm loss": 2.17627525, "grad_norm": 0.45637184, "learning_rate": 9.602e-05, "elapsed_time_per_iteration": 4.94082785, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 40s", "remaining_time": "14h 17m 2s", "loss_scale": 1.0, "consumed_samples": 563456, "global_step/max_steps": "2201/12700"}
{"lm loss": 2.16606045, "grad_norm": 0.49470136, "learning_rate": 9.602e-05, "elapsed_time_per_iteration": 4.9324975, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 45s", "remaining_time": "14h 16m 57s", "loss_scale": 1.0, "consumed_samples": 563712, "global_step/max_steps": "2202/12700"}
{"lm loss": 2.19386292, "grad_norm": 0.42300263, "learning_rate": 9.601e-05, "elapsed_time_per_iteration": 4.84791851, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 49s", "remaining_time": "14h 16m 52s", "loss_scale": 1.0, "consumed_samples": 563968, "global_step/max_steps": "2203/12700"}
{"lm loss": 2.17235303, "grad_norm": 0.46502617, "learning_rate": 9.601e-05, "elapsed_time_per_iteration": 4.98473883, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 54s", "remaining_time": "14h 16m 47s", "loss_scale": 1.0, "consumed_samples": 564224, "global_step/max_steps": "2204/12700"}
{"lm loss": 2.16370368, "grad_norm": 0.39498338, "learning_rate": 9.6e-05, "elapsed_time_per_iteration": 4.97342587, "memory(GiB)": 28.98, "elapsed_time": "2h 59m 59s", "remaining_time": "14h 16m 43s", "loss_scale": 1.0, "consumed_samples": 564480, "global_step/max_steps": "2205/12700"}
{"lm loss": 2.20726132, "grad_norm": 0.43942773, "learning_rate": 9.6e-05, "elapsed_time_per_iteration": 4.82479811, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 4s", "remaining_time": "14h 16m 38s", "loss_scale": 1.0, "consumed_samples": 564736, "global_step/max_steps": "2206/12700"}
{"lm loss": 2.21536112, "grad_norm": 0.4005765, "learning_rate": 9.599e-05, "elapsed_time_per_iteration": 4.92022729, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 9s", "remaining_time": "14h 16m 33s", "loss_scale": 1.0, "consumed_samples": 564992, "global_step/max_steps": "2207/12700"}
{"lm loss": 2.17129445, "grad_norm": 0.4305996, "learning_rate": 9.599e-05, "elapsed_time_per_iteration": 4.80397749, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 14s", "remaining_time": "14h 16m 27s", "loss_scale": 1.0, "consumed_samples": 565248, "global_step/max_steps": "2208/12700"}
{"lm loss": 2.21998215, "grad_norm": 0.44147924, "learning_rate": 9.598e-05, "elapsed_time_per_iteration": 4.78203368, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 19s", "remaining_time": "14h 16m 22s", "loss_scale": 1.0, "consumed_samples": 565504, "global_step/max_steps": "2209/12700"}
{"lm loss": 2.20157862, "grad_norm": 0.42134991, "learning_rate": 9.598e-05, "elapsed_time_per_iteration": 4.94697571, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 24s", "remaining_time": "14h 16m 17s", "loss_scale": 1.0, "consumed_samples": 565760, "global_step/max_steps": "2210/12700"}
{"lm loss": 2.1956737, "grad_norm": 0.4473865, "learning_rate": 9.597e-05, "elapsed_time_per_iteration": 4.84734869, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 28s", "remaining_time": "14h 16m 12s", "loss_scale": 1.0, "consumed_samples": 566016, "global_step/max_steps": "2211/12700"}
{"lm loss": 2.19562006, "grad_norm": 0.45471227, "learning_rate": 9.597e-05, "elapsed_time_per_iteration": 4.90394497, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 33s", "remaining_time": "14h 16m 7s", "loss_scale": 1.0, "consumed_samples": 566272, "global_step/max_steps": "2212/12700"}
{"lm loss": 2.19673204, "grad_norm": 0.4564417, "learning_rate": 9.596e-05, "elapsed_time_per_iteration": 4.85897088, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 38s", "remaining_time": "14h 16m 2s", "loss_scale": 1.0, "consumed_samples": 566528, "global_step/max_steps": "2213/12700"}
{"lm loss": 2.18330431, "grad_norm": 0.47454852, "learning_rate": 9.596e-05, "elapsed_time_per_iteration": 4.88218832, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 43s", "remaining_time": "14h 15m 57s", "loss_scale": 1.0, "consumed_samples": 566784, "global_step/max_steps": "2214/12700"}
{"lm loss": 2.18886423, "grad_norm": 0.402262, "learning_rate": 9.595e-05, "elapsed_time_per_iteration": 4.91505504, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 48s", "remaining_time": "14h 15m 52s", "loss_scale": 1.0, "consumed_samples": 567040, "global_step/max_steps": "2215/12700"}
{"lm loss": 2.17693114, "grad_norm": 0.45247415, "learning_rate": 9.595e-05, "elapsed_time_per_iteration": 4.85457611, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 53s", "remaining_time": "14h 15m 47s", "loss_scale": 1.0, "consumed_samples": 567296, "global_step/max_steps": "2216/12700"}
{"lm loss": 2.19745684, "grad_norm": 0.41743377, "learning_rate": 9.594e-05, "elapsed_time_per_iteration": 4.79059935, "memory(GiB)": 28.98, "elapsed_time": "3h 0m 58s", "remaining_time": "14h 15m 42s", "loss_scale": 1.0, "consumed_samples": 567552, "global_step/max_steps": "2217/12700"}
{"lm loss": 2.20377088, "grad_norm": 0.42562366, "learning_rate": 9.594e-05, "elapsed_time_per_iteration": 5.00218987, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 3s", "remaining_time": "14h 15m 38s", "loss_scale": 1.0, "consumed_samples": 567808, "global_step/max_steps": "2218/12700"}
{"lm loss": 2.18531632, "grad_norm": 0.44197673, "learning_rate": 9.593e-05, "elapsed_time_per_iteration": 4.86124659, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 8s", "remaining_time": "14h 15m 32s", "loss_scale": 1.0, "consumed_samples": 568064, "global_step/max_steps": "2219/12700"}
{"lm loss": 2.19876766, "grad_norm": 0.45174417, "learning_rate": 9.593e-05, "elapsed_time_per_iteration": 4.92380881, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 12s", "remaining_time": "14h 15m 28s", "loss_scale": 1.0, "consumed_samples": 568320, "global_step/max_steps": "2220/12700"}
{"lm loss": 2.19047356, "grad_norm": 0.45539451, "learning_rate": 9.592e-05, "elapsed_time_per_iteration": 4.83457875, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 17s", "remaining_time": "14h 15m 23s", "loss_scale": 1.0, "consumed_samples": 568576, "global_step/max_steps": "2221/12700"}
{"lm loss": 2.18831158, "grad_norm": 0.41933188, "learning_rate": 9.592e-05, "elapsed_time_per_iteration": 4.84070253, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 22s", "remaining_time": "14h 15m 17s", "loss_scale": 1.0, "consumed_samples": 568832, "global_step/max_steps": "2222/12700"}
{"lm loss": 2.1974194, "grad_norm": 0.49100855, "learning_rate": 9.591e-05, "elapsed_time_per_iteration": 4.96366787, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 27s", "remaining_time": "14h 15m 13s", "loss_scale": 1.0, "consumed_samples": 569088, "global_step/max_steps": "2223/12700"}
{"lm loss": 2.17123795, "grad_norm": 0.45082977, "learning_rate": 9.591e-05, "elapsed_time_per_iteration": 4.83771825, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 32s", "remaining_time": "14h 15m 8s", "loss_scale": 1.0, "consumed_samples": 569344, "global_step/max_steps": "2224/12700"}
{"lm loss": 2.17669415, "grad_norm": 0.48319384, "learning_rate": 9.59e-05, "elapsed_time_per_iteration": 4.82366037, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 37s", "remaining_time": "14h 15m 2s", "loss_scale": 1.0, "consumed_samples": 569600, "global_step/max_steps": "2225/12700"}
{"lm loss": 2.18215632, "grad_norm": 0.48329455, "learning_rate": 9.59e-05, "elapsed_time_per_iteration": 4.9613626, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 42s", "remaining_time": "14h 14m 58s", "loss_scale": 1.0, "consumed_samples": 569856, "global_step/max_steps": "2226/12700"}
{"lm loss": 2.16174531, "grad_norm": 0.48552212, "learning_rate": 9.589e-05, "elapsed_time_per_iteration": 4.89659357, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 47s", "remaining_time": "14h 14m 53s", "loss_scale": 1.0, "consumed_samples": 570112, "global_step/max_steps": "2227/12700"}
{"lm loss": 2.18853879, "grad_norm": 0.50034124, "learning_rate": 9.589e-05, "elapsed_time_per_iteration": 4.89826727, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 52s", "remaining_time": "14h 14m 48s", "loss_scale": 1.0, "consumed_samples": 570368, "global_step/max_steps": "2228/12700"}
{"lm loss": 2.17931151, "grad_norm": 0.42721418, "learning_rate": 9.588e-05, "elapsed_time_per_iteration": 4.90796041, "memory(GiB)": 28.98, "elapsed_time": "3h 1m 56s", "remaining_time": "14h 14m 43s", "loss_scale": 1.0, "consumed_samples": 570624, "global_step/max_steps": "2229/12700"}
{"lm loss": 2.15130877, "grad_norm": 0.42131689, "learning_rate": 9.588e-05, "elapsed_time_per_iteration": 4.78182077, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 1s", "remaining_time": "14h 14m 38s", "loss_scale": 1.0, "consumed_samples": 570880, "global_step/max_steps": "2230/12700"}
{"lm loss": 2.16993165, "grad_norm": 0.42022717, "learning_rate": 9.587e-05, "elapsed_time_per_iteration": 4.9109416, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 6s", "remaining_time": "14h 14m 33s", "loss_scale": 1.0, "consumed_samples": 571136, "global_step/max_steps": "2231/12700"}
{"lm loss": 2.19992137, "grad_norm": 0.42742476, "learning_rate": 9.587e-05, "elapsed_time_per_iteration": 4.94899797, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 11s", "remaining_time": "14h 14m 28s", "loss_scale": 1.0, "consumed_samples": 571392, "global_step/max_steps": "2232/12700"}
{"lm loss": 2.18881083, "grad_norm": 0.40390182, "learning_rate": 9.586e-05, "elapsed_time_per_iteration": 4.83572698, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 16s", "remaining_time": "14h 14m 23s", "loss_scale": 1.0, "consumed_samples": 571648, "global_step/max_steps": "2233/12700"}
{"lm loss": 2.1519208, "grad_norm": 0.40520185, "learning_rate": 9.586e-05, "elapsed_time_per_iteration": 4.97767806, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 21s", "remaining_time": "14h 14m 18s", "loss_scale": 1.0, "consumed_samples": 571904, "global_step/max_steps": "2234/12700"}
{"lm loss": 2.21754694, "grad_norm": 0.41828513, "learning_rate": 9.585e-05, "elapsed_time_per_iteration": 4.79998469, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 26s", "remaining_time": "14h 14m 13s", "loss_scale": 1.0, "consumed_samples": 572160, "global_step/max_steps": "2235/12700"}
{"lm loss": 2.21694112, "grad_norm": 0.43778586, "learning_rate": 9.585e-05, "elapsed_time_per_iteration": 4.8747406, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 31s", "remaining_time": "14h 14m 8s", "loss_scale": 1.0, "consumed_samples": 572416, "global_step/max_steps": "2236/12700"}
{"lm loss": 2.19827199, "grad_norm": 0.43319538, "learning_rate": 9.584e-05, "elapsed_time_per_iteration": 4.86772633, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 35s", "remaining_time": "14h 14m 3s", "loss_scale": 1.0, "consumed_samples": 572672, "global_step/max_steps": "2237/12700"}
{"lm loss": 2.21367383, "grad_norm": 0.45632774, "learning_rate": 9.584e-05, "elapsed_time_per_iteration": 4.85545182, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 40s", "remaining_time": "14h 13m 58s", "loss_scale": 1.0, "consumed_samples": 572928, "global_step/max_steps": "2238/12700"}
{"lm loss": 2.19481897, "grad_norm": 0.43283558, "learning_rate": 9.583e-05, "elapsed_time_per_iteration": 4.89882588, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 45s", "remaining_time": "14h 13m 53s", "loss_scale": 1.0, "consumed_samples": 573184, "global_step/max_steps": "2239/12700"}
{"lm loss": 2.19777179, "grad_norm": 0.40534255, "learning_rate": 9.583e-05, "elapsed_time_per_iteration": 4.85767317, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 50s", "remaining_time": "14h 13m 48s", "loss_scale": 1.0, "consumed_samples": 573440, "global_step/max_steps": "2240/12700"}
{"lm loss": 2.20379782, "grad_norm": 0.42157686, "learning_rate": 9.582e-05, "elapsed_time_per_iteration": 4.76759434, "memory(GiB)": 28.98, "elapsed_time": "3h 2m 55s", "remaining_time": "14h 13m 42s", "loss_scale": 1.0, "consumed_samples": 573696, "global_step/max_steps": "2241/12700"}
{"lm loss": 2.21392155, "grad_norm": 0.42031708, "learning_rate": 9.582e-05, "elapsed_time_per_iteration": 4.8844943, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 0s", "remaining_time": "14h 13m 38s", "loss_scale": 1.0, "consumed_samples": 573952, "global_step/max_steps": "2242/12700"}
{"lm loss": 2.1999557, "grad_norm": 0.40154755, "learning_rate": 9.581e-05, "elapsed_time_per_iteration": 4.85687542, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 5s", "remaining_time": "14h 13m 32s", "loss_scale": 1.0, "consumed_samples": 574208, "global_step/max_steps": "2243/12700"}
{"lm loss": 2.2081809, "grad_norm": 0.42947775, "learning_rate": 9.581e-05, "elapsed_time_per_iteration": 4.99902225, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 10s", "remaining_time": "14h 13m 28s", "loss_scale": 1.0, "consumed_samples": 574464, "global_step/max_steps": "2244/12700"}
{"lm loss": 2.19485068, "grad_norm": 0.43371314, "learning_rate": 9.58e-05, "elapsed_time_per_iteration": 4.8426435, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 14s", "remaining_time": "14h 13m 23s", "loss_scale": 1.0, "consumed_samples": 574720, "global_step/max_steps": "2245/12700"}
{"lm loss": 2.18017077, "grad_norm": 0.40257311, "learning_rate": 9.579e-05, "elapsed_time_per_iteration": 4.80633593, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 19s", "remaining_time": "14h 13m 18s", "loss_scale": 1.0, "consumed_samples": 574976, "global_step/max_steps": "2246/12700"}
{"lm loss": 2.17154193, "grad_norm": 0.42236304, "learning_rate": 9.579e-05, "elapsed_time_per_iteration": 4.78455853, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 24s", "remaining_time": "14h 13m 12s", "loss_scale": 1.0, "consumed_samples": 575232, "global_step/max_steps": "2247/12700"}
{"lm loss": 2.16460013, "grad_norm": 0.45200551, "learning_rate": 9.578e-05, "elapsed_time_per_iteration": 4.94280457, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 29s", "remaining_time": "14h 13m 7s", "loss_scale": 1.0, "consumed_samples": 575488, "global_step/max_steps": "2248/12700"}
{"lm loss": 2.18198895, "grad_norm": 0.45811853, "learning_rate": 9.578e-05, "elapsed_time_per_iteration": 4.87748647, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 34s", "remaining_time": "14h 13m 2s", "loss_scale": 1.0, "consumed_samples": 575744, "global_step/max_steps": "2249/12700"}
{"lm loss": 2.15735102, "grad_norm": 0.43392149, "learning_rate": 9.577e-05, "elapsed_time_per_iteration": 4.82591915, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 39s", "remaining_time": "14h 12m 57s", "loss_scale": 1.0, "consumed_samples": 576000, "global_step/max_steps": "2250/12700"}
{"lm loss": 2.17439198, "grad_norm": 0.42586792, "learning_rate": 9.577e-05, "elapsed_time_per_iteration": 4.92694497, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 44s", "remaining_time": "14h 12m 52s", "loss_scale": 1.0, "consumed_samples": 576256, "global_step/max_steps": "2251/12700"}
{"lm loss": 2.17539263, "grad_norm": 0.4304702, "learning_rate": 9.576e-05, "elapsed_time_per_iteration": 5.01756954, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 49s", "remaining_time": "14h 12m 48s", "loss_scale": 1.0, "consumed_samples": 576512, "global_step/max_steps": "2252/12700"}
{"lm loss": 2.19733667, "grad_norm": 0.46961558, "learning_rate": 9.576e-05, "elapsed_time_per_iteration": 4.83442211, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 53s", "remaining_time": "14h 12m 43s", "loss_scale": 1.0, "consumed_samples": 576768, "global_step/max_steps": "2253/12700"}
{"lm loss": 2.19305921, "grad_norm": 0.45017776, "learning_rate": 9.575e-05, "elapsed_time_per_iteration": 4.84052491, "memory(GiB)": 28.98, "elapsed_time": "3h 3m 58s", "remaining_time": "14h 12m 38s", "loss_scale": 1.0, "consumed_samples": 577024, "global_step/max_steps": "2254/12700"}
{"lm loss": 2.19892812, "grad_norm": 0.44437245, "learning_rate": 9.575e-05, "elapsed_time_per_iteration": 4.85303116, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 3s", "remaining_time": "14h 12m 33s", "loss_scale": 1.0, "consumed_samples": 577280, "global_step/max_steps": "2255/12700"}
{"lm loss": 2.15210342, "grad_norm": 0.47316781, "learning_rate": 9.574e-05, "elapsed_time_per_iteration": 4.81656218, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 8s", "remaining_time": "14h 12m 27s", "loss_scale": 1.0, "consumed_samples": 577536, "global_step/max_steps": "2256/12700"}
{"lm loss": 2.14699197, "grad_norm": 0.43855214, "learning_rate": 9.574e-05, "elapsed_time_per_iteration": 4.80399632, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 13s", "remaining_time": "14h 12m 22s", "loss_scale": 1.0, "consumed_samples": 577792, "global_step/max_steps": "2257/12700"}
{"lm loss": 2.19827175, "grad_norm": 0.42031083, "learning_rate": 9.573e-05, "elapsed_time_per_iteration": 4.92621374, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 18s", "remaining_time": "14h 12m 17s", "loss_scale": 1.0, "consumed_samples": 578048, "global_step/max_steps": "2258/12700"}
{"lm loss": 2.20183086, "grad_norm": 0.5073756, "learning_rate": 9.573e-05, "elapsed_time_per_iteration": 5.03576756, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 23s", "remaining_time": "14h 12m 13s", "loss_scale": 1.0, "consumed_samples": 578304, "global_step/max_steps": "2259/12700"}
{"lm loss": 2.1968236, "grad_norm": 0.47045124, "learning_rate": 9.572e-05, "elapsed_time_per_iteration": 4.73418283, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 27s", "remaining_time": "14h 12m 7s", "loss_scale": 1.0, "consumed_samples": 578560, "global_step/max_steps": "2260/12700"}
{"lm loss": 2.19971633, "grad_norm": 0.44765541, "learning_rate": 9.572e-05, "elapsed_time_per_iteration": 4.85492802, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 32s", "remaining_time": "14h 12m 2s", "loss_scale": 1.0, "consumed_samples": 578816, "global_step/max_steps": "2261/12700"}
{"lm loss": 2.13761163, "grad_norm": 0.49499035, "learning_rate": 9.571e-05, "elapsed_time_per_iteration": 4.83968425, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 37s", "remaining_time": "14h 11m 57s", "loss_scale": 1.0, "consumed_samples": 579072, "global_step/max_steps": "2262/12700"}
{"lm loss": 2.18779778, "grad_norm": 0.52100122, "learning_rate": 9.571e-05, "elapsed_time_per_iteration": 4.83510947, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 42s", "remaining_time": "14h 11m 52s", "loss_scale": 1.0, "consumed_samples": 579328, "global_step/max_steps": "2263/12700"}
{"lm loss": 2.18538809, "grad_norm": 0.49570015, "learning_rate": 9.57e-05, "elapsed_time_per_iteration": 4.79165673, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 47s", "remaining_time": "14h 11m 47s", "loss_scale": 1.0, "consumed_samples": 579584, "global_step/max_steps": "2264/12700"}
{"lm loss": 2.17461562, "grad_norm": 0.50364107, "learning_rate": 9.57e-05, "elapsed_time_per_iteration": 4.83143425, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 52s", "remaining_time": "14h 11m 41s", "loss_scale": 1.0, "consumed_samples": 579840, "global_step/max_steps": "2265/12700"}
{"lm loss": 2.20171142, "grad_norm": 0.56046844, "learning_rate": 9.569e-05, "elapsed_time_per_iteration": 4.83802986, "memory(GiB)": 28.98, "elapsed_time": "3h 4m 56s", "remaining_time": "14h 11m 36s", "loss_scale": 1.0, "consumed_samples": 580096, "global_step/max_steps": "2266/12700"}
{"lm loss": 2.1707809, "grad_norm": 0.51518404, "learning_rate": 9.569e-05, "elapsed_time_per_iteration": 4.88224578, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 1s", "remaining_time": "14h 11m 31s", "loss_scale": 1.0, "consumed_samples": 580352, "global_step/max_steps": "2267/12700"}
{"lm loss": 2.16853786, "grad_norm": 0.51792145, "learning_rate": 9.568e-05, "elapsed_time_per_iteration": 4.86750412, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 6s", "remaining_time": "14h 11m 26s", "loss_scale": 1.0, "consumed_samples": 580608, "global_step/max_steps": "2268/12700"}
{"lm loss": 2.21370316, "grad_norm": 0.45917466, "learning_rate": 9.568e-05, "elapsed_time_per_iteration": 4.78694439, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 11s", "remaining_time": "14h 11m 21s", "loss_scale": 1.0, "consumed_samples": 580864, "global_step/max_steps": "2269/12700"}
{"lm loss": 2.17870116, "grad_norm": 0.46643656, "learning_rate": 9.567e-05, "elapsed_time_per_iteration": 4.82087207, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 16s", "remaining_time": "14h 11m 16s", "loss_scale": 1.0, "consumed_samples": 581120, "global_step/max_steps": "2270/12700"}
{"lm loss": 2.16902161, "grad_norm": 0.45866448, "learning_rate": 9.567e-05, "elapsed_time_per_iteration": 4.87219119, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 21s", "remaining_time": "14h 11m 11s", "loss_scale": 1.0, "consumed_samples": 581376, "global_step/max_steps": "2271/12700"}
{"lm loss": 2.17643309, "grad_norm": 0.48831239, "learning_rate": 9.566e-05, "elapsed_time_per_iteration": 4.8090806, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 25s", "remaining_time": "14h 11m 5s", "loss_scale": 1.0, "consumed_samples": 581632, "global_step/max_steps": "2272/12700"}
{"lm loss": 2.19458556, "grad_norm": 0.45672092, "learning_rate": 9.565e-05, "elapsed_time_per_iteration": 4.79895711, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 30s", "remaining_time": "14h 11m 0s", "loss_scale": 1.0, "consumed_samples": 581888, "global_step/max_steps": "2273/12700"}
{"lm loss": 2.19043827, "grad_norm": 0.46454254, "learning_rate": 9.565e-05, "elapsed_time_per_iteration": 4.83264899, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 35s", "remaining_time": "14h 10m 55s", "loss_scale": 1.0, "consumed_samples": 582144, "global_step/max_steps": "2274/12700"}
{"lm loss": 2.1662991, "grad_norm": 0.52751559, "learning_rate": 9.564e-05, "elapsed_time_per_iteration": 4.84547782, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 40s", "remaining_time": "14h 10m 50s", "loss_scale": 1.0, "consumed_samples": 582400, "global_step/max_steps": "2275/12700"}
{"lm loss": 2.18567586, "grad_norm": 0.49357936, "learning_rate": 9.564e-05, "elapsed_time_per_iteration": 4.73976016, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 45s", "remaining_time": "14h 10m 44s", "loss_scale": 1.0, "consumed_samples": 582656, "global_step/max_steps": "2276/12700"}
{"lm loss": 2.14565611, "grad_norm": 0.44654635, "learning_rate": 9.563e-05, "elapsed_time_per_iteration": 4.77069306, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 49s", "remaining_time": "14h 10m 38s", "loss_scale": 1.0, "consumed_samples": 582912, "global_step/max_steps": "2277/12700"}
{"lm loss": 2.16652012, "grad_norm": 0.47795129, "learning_rate": 9.563e-05, "elapsed_time_per_iteration": 4.92434216, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 54s", "remaining_time": "14h 10m 34s", "loss_scale": 1.0, "consumed_samples": 583168, "global_step/max_steps": "2278/12700"}
{"lm loss": 2.1862514, "grad_norm": 0.49833566, "learning_rate": 9.562e-05, "elapsed_time_per_iteration": 4.87262869, "memory(GiB)": 28.98, "elapsed_time": "3h 5m 59s", "remaining_time": "14h 10m 29s", "loss_scale": 1.0, "consumed_samples": 583424, "global_step/max_steps": "2279/12700"}
{"lm loss": 2.20422721, "grad_norm": 0.4596726, "learning_rate": 9.562e-05, "elapsed_time_per_iteration": 4.94278479, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 4s", "remaining_time": "14h 10m 24s", "loss_scale": 1.0, "consumed_samples": 583680, "global_step/max_steps": "2280/12700"}
{"lm loss": 2.24870706, "grad_norm": 0.45883474, "learning_rate": 9.561e-05, "elapsed_time_per_iteration": 4.87685657, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 9s", "remaining_time": "14h 10m 19s", "loss_scale": 1.0, "consumed_samples": 583936, "global_step/max_steps": "2281/12700"}
{"lm loss": 2.21931911, "grad_norm": 0.45315793, "learning_rate": 9.561e-05, "elapsed_time_per_iteration": 4.85655999, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 14s", "remaining_time": "14h 10m 14s", "loss_scale": 1.0, "consumed_samples": 584192, "global_step/max_steps": "2282/12700"}
{"lm loss": 2.17438745, "grad_norm": 0.47350368, "learning_rate": 9.56e-05, "elapsed_time_per_iteration": 4.83029485, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 19s", "remaining_time": "14h 10m 9s", "loss_scale": 1.0, "consumed_samples": 584448, "global_step/max_steps": "2283/12700"}
{"lm loss": 2.16469169, "grad_norm": 0.44237715, "learning_rate": 9.56e-05, "elapsed_time_per_iteration": 4.83994937, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 24s", "remaining_time": "14h 10m 4s", "loss_scale": 1.0, "consumed_samples": 584704, "global_step/max_steps": "2284/12700"}
{"lm loss": 2.17693496, "grad_norm": 0.47774523, "learning_rate": 9.559e-05, "elapsed_time_per_iteration": 4.84631562, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 28s", "remaining_time": "14h 9m 58s", "loss_scale": 1.0, "consumed_samples": 584960, "global_step/max_steps": "2285/12700"}
{"lm loss": 2.1874845, "grad_norm": 0.49488571, "learning_rate": 9.559e-05, "elapsed_time_per_iteration": 4.89942098, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 33s", "remaining_time": "14h 9m 54s", "loss_scale": 1.0, "consumed_samples": 585216, "global_step/max_steps": "2286/12700"}
{"lm loss": 2.18384099, "grad_norm": 0.5102154, "learning_rate": 9.558e-05, "elapsed_time_per_iteration": 4.83967614, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 38s", "remaining_time": "14h 9m 48s", "loss_scale": 1.0, "consumed_samples": 585472, "global_step/max_steps": "2287/12700"}
{"lm loss": 2.2053647, "grad_norm": 0.48325783, "learning_rate": 9.558e-05, "elapsed_time_per_iteration": 4.90172076, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 43s", "remaining_time": "14h 9m 44s", "loss_scale": 1.0, "consumed_samples": 585728, "global_step/max_steps": "2288/12700"}
{"lm loss": 2.1702199, "grad_norm": 0.43011203, "learning_rate": 9.557e-05, "elapsed_time_per_iteration": 4.86068392, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 48s", "remaining_time": "14h 9m 38s", "loss_scale": 1.0, "consumed_samples": 585984, "global_step/max_steps": "2289/12700"}
{"lm loss": 2.1636169, "grad_norm": 0.47538391, "learning_rate": 9.557e-05, "elapsed_time_per_iteration": 4.89600468, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 53s", "remaining_time": "14h 9m 34s", "loss_scale": 1.0, "consumed_samples": 586240, "global_step/max_steps": "2290/12700"}
{"lm loss": 2.17302418, "grad_norm": 0.43338883, "learning_rate": 9.556e-05, "elapsed_time_per_iteration": 4.91556621, "memory(GiB)": 28.98, "elapsed_time": "3h 6m 58s", "remaining_time": "14h 9m 29s", "loss_scale": 1.0, "consumed_samples": 586496, "global_step/max_steps": "2291/12700"}
{"lm loss": 2.19037938, "grad_norm": 0.46333852, "learning_rate": 9.556e-05, "elapsed_time_per_iteration": 4.89532185, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 3s", "remaining_time": "14h 9m 24s", "loss_scale": 1.0, "consumed_samples": 586752, "global_step/max_steps": "2292/12700"}
{"lm loss": 2.17910123, "grad_norm": 0.44409198, "learning_rate": 9.555e-05, "elapsed_time_per_iteration": 4.85706639, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 7s", "remaining_time": "14h 9m 19s", "loss_scale": 1.0, "consumed_samples": 587008, "global_step/max_steps": "2293/12700"}
{"lm loss": 2.18592763, "grad_norm": 0.44094479, "learning_rate": 9.554e-05, "elapsed_time_per_iteration": 4.9513824, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 12s", "remaining_time": "14h 9m 14s", "loss_scale": 1.0, "consumed_samples": 587264, "global_step/max_steps": "2294/12700"}
{"lm loss": 2.17414474, "grad_norm": 0.52268338, "learning_rate": 9.554e-05, "elapsed_time_per_iteration": 4.89772129, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 17s", "remaining_time": "14h 9m 9s", "loss_scale": 1.0, "consumed_samples": 587520, "global_step/max_steps": "2295/12700"}
{"lm loss": 2.19610023, "grad_norm": 0.48721862, "learning_rate": 9.553e-05, "elapsed_time_per_iteration": 4.87049174, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 22s", "remaining_time": "14h 9m 4s", "loss_scale": 1.0, "consumed_samples": 587776, "global_step/max_steps": "2296/12700"}
{"lm loss": 2.17976475, "grad_norm": 0.4545632, "learning_rate": 9.553e-05, "elapsed_time_per_iteration": 4.90937424, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 27s", "remaining_time": "14h 8m 59s", "loss_scale": 1.0, "consumed_samples": 588032, "global_step/max_steps": "2297/12700"}
{"lm loss": 2.18928313, "grad_norm": 0.53763306, "learning_rate": 9.552e-05, "elapsed_time_per_iteration": 4.87111044, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 32s", "remaining_time": "14h 8m 54s", "loss_scale": 1.0, "consumed_samples": 588288, "global_step/max_steps": "2298/12700"}
{"lm loss": 2.18186808, "grad_norm": 0.49768025, "learning_rate": 9.552e-05, "elapsed_time_per_iteration": 4.83497119, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 37s", "remaining_time": "14h 8m 49s", "loss_scale": 1.0, "consumed_samples": 588544, "global_step/max_steps": "2299/12700"}
{"lm loss": 2.18088126, "grad_norm": 0.4840174, "learning_rate": 9.551e-05, "elapsed_time_per_iteration": 4.93157458, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 42s", "remaining_time": "14h 8m 44s", "loss_scale": 1.0, "consumed_samples": 588800, "global_step/max_steps": "2300/12700"}
{"lm loss": 2.21285129, "grad_norm": 0.47235727, "learning_rate": 9.551e-05, "elapsed_time_per_iteration": 4.81709743, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 47s", "remaining_time": "14h 8m 39s", "loss_scale": 1.0, "consumed_samples": 589056, "global_step/max_steps": "2301/12700"}
{"lm loss": 2.20341611, "grad_norm": 0.42591724, "learning_rate": 9.55e-05, "elapsed_time_per_iteration": 4.86425424, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 51s", "remaining_time": "14h 8m 34s", "loss_scale": 1.0, "consumed_samples": 589312, "global_step/max_steps": "2302/12700"}
{"lm loss": 2.17884135, "grad_norm": 0.44903746, "learning_rate": 9.55e-05, "elapsed_time_per_iteration": 4.8205688, "memory(GiB)": 28.98, "elapsed_time": "3h 7m 56s", "remaining_time": "14h 8m 29s", "loss_scale": 1.0, "consumed_samples": 589568, "global_step/max_steps": "2303/12700"}
{"lm loss": 2.20293307, "grad_norm": 0.4564476, "learning_rate": 9.549e-05, "elapsed_time_per_iteration": 4.95301747, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 1s", "remaining_time": "14h 8m 24s", "loss_scale": 1.0, "consumed_samples": 589824, "global_step/max_steps": "2304/12700"}
{"lm loss": 2.19057441, "grad_norm": 0.39314282, "learning_rate": 9.549e-05, "elapsed_time_per_iteration": 4.78507733, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 6s", "remaining_time": "14h 8m 19s", "loss_scale": 1.0, "consumed_samples": 590080, "global_step/max_steps": "2305/12700"}
{"lm loss": 2.20118213, "grad_norm": 0.44554853, "learning_rate": 9.548e-05, "elapsed_time_per_iteration": 4.88152361, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 11s", "remaining_time": "14h 8m 14s", "loss_scale": 1.0, "consumed_samples": 590336, "global_step/max_steps": "2306/12700"}
{"lm loss": 2.20237017, "grad_norm": 0.471964, "learning_rate": 9.548e-05, "elapsed_time_per_iteration": 4.82827854, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 16s", "remaining_time": "14h 8m 9s", "loss_scale": 1.0, "consumed_samples": 590592, "global_step/max_steps": "2307/12700"}
{"lm loss": 2.12093139, "grad_norm": 0.45009801, "learning_rate": 9.547e-05, "elapsed_time_per_iteration": 4.8976922, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 21s", "remaining_time": "14h 8m 4s", "loss_scale": 1.0, "consumed_samples": 590848, "global_step/max_steps": "2308/12700"}
{"lm loss": 2.15833092, "grad_norm": 0.41936323, "learning_rate": 9.546e-05, "elapsed_time_per_iteration": 4.86957145, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 25s", "remaining_time": "14h 7m 59s", "loss_scale": 1.0, "consumed_samples": 591104, "global_step/max_steps": "2309/12700"}
{"lm loss": 2.19702482, "grad_norm": 0.52335137, "learning_rate": 9.546e-05, "elapsed_time_per_iteration": 4.92460012, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 30s", "remaining_time": "14h 7m 54s", "loss_scale": 1.0, "consumed_samples": 591360, "global_step/max_steps": "2310/12700"}
{"lm loss": 2.16497707, "grad_norm": 0.44601858, "learning_rate": 9.545e-05, "elapsed_time_per_iteration": 4.82217693, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 35s", "remaining_time": "14h 7m 49s", "loss_scale": 1.0, "consumed_samples": 591616, "global_step/max_steps": "2311/12700"}
{"lm loss": 2.18034935, "grad_norm": 0.44042999, "learning_rate": 9.545e-05, "elapsed_time_per_iteration": 4.8243432, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 40s", "remaining_time": "14h 7m 44s", "loss_scale": 1.0, "consumed_samples": 591872, "global_step/max_steps": "2312/12700"}
{"lm loss": 2.17063451, "grad_norm": 0.50209242, "learning_rate": 9.544e-05, "elapsed_time_per_iteration": 4.90840578, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 45s", "remaining_time": "14h 7m 39s", "loss_scale": 1.0, "consumed_samples": 592128, "global_step/max_steps": "2313/12700"}
{"lm loss": 2.1936636, "grad_norm": 0.42776608, "learning_rate": 9.544e-05, "elapsed_time_per_iteration": 4.95358396, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 50s", "remaining_time": "14h 7m 34s", "loss_scale": 1.0, "consumed_samples": 592384, "global_step/max_steps": "2314/12700"}
{"lm loss": 2.16658759, "grad_norm": 0.42581964, "learning_rate": 9.543e-05, "elapsed_time_per_iteration": 4.91414165, "memory(GiB)": 28.98, "elapsed_time": "3h 8m 55s", "remaining_time": "14h 7m 29s", "loss_scale": 1.0, "consumed_samples": 592640, "global_step/max_steps": "2315/12700"}
{"lm loss": 2.16074848, "grad_norm": 0.44193009, "learning_rate": 9.543e-05, "elapsed_time_per_iteration": 4.90631843, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 0s", "remaining_time": "14h 7m 24s", "loss_scale": 1.0, "consumed_samples": 592896, "global_step/max_steps": "2316/12700"}
{"lm loss": 2.19060135, "grad_norm": 0.42774209, "learning_rate": 9.542e-05, "elapsed_time_per_iteration": 4.79337811, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 5s", "remaining_time": "14h 7m 19s", "loss_scale": 1.0, "consumed_samples": 593152, "global_step/max_steps": "2317/12700"}
{"lm loss": 2.217026, "grad_norm": 0.44392255, "learning_rate": 9.542e-05, "elapsed_time_per_iteration": 4.81730556, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 9s", "remaining_time": "14h 7m 14s", "loss_scale": 1.0, "consumed_samples": 593408, "global_step/max_steps": "2318/12700"}
{"lm loss": 2.21472263, "grad_norm": 0.4993701, "learning_rate": 9.541e-05, "elapsed_time_per_iteration": 4.95547056, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 14s", "remaining_time": "14h 7m 9s", "loss_scale": 1.0, "consumed_samples": 593664, "global_step/max_steps": "2319/12700"}
{"lm loss": 2.19292903, "grad_norm": 0.44628689, "learning_rate": 9.541e-05, "elapsed_time_per_iteration": 4.8219943, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 19s", "remaining_time": "14h 7m 4s", "loss_scale": 1.0, "consumed_samples": 593920, "global_step/max_steps": "2320/12700"}
{"lm loss": 2.18051362, "grad_norm": 0.40775487, "learning_rate": 9.54e-05, "elapsed_time_per_iteration": 4.82537103, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 24s", "remaining_time": "14h 6m 59s", "loss_scale": 1.0, "consumed_samples": 594176, "global_step/max_steps": "2321/12700"}
{"lm loss": 2.19166875, "grad_norm": 0.49101362, "learning_rate": 9.54e-05, "elapsed_time_per_iteration": 4.85318494, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 29s", "remaining_time": "14h 6m 54s", "loss_scale": 1.0, "consumed_samples": 594432, "global_step/max_steps": "2322/12700"}
{"lm loss": 2.16869164, "grad_norm": 0.47599876, "learning_rate": 9.539e-05, "elapsed_time_per_iteration": 4.88582993, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 34s", "remaining_time": "14h 6m 49s", "loss_scale": 1.0, "consumed_samples": 594688, "global_step/max_steps": "2323/12700"}
{"lm loss": 2.19638276, "grad_norm": 0.40736556, "learning_rate": 9.538e-05, "elapsed_time_per_iteration": 4.79203248, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 38s", "remaining_time": "14h 6m 43s", "loss_scale": 1.0, "consumed_samples": 594944, "global_step/max_steps": "2324/12700"}
{"lm loss": 2.17041421, "grad_norm": 0.43156075, "learning_rate": 9.538e-05, "elapsed_time_per_iteration": 4.8632381, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 43s", "remaining_time": "14h 6m 38s", "loss_scale": 1.0, "consumed_samples": 595200, "global_step/max_steps": "2325/12700"}
{"lm loss": 2.12514424, "grad_norm": 0.4169533, "learning_rate": 9.537e-05, "elapsed_time_per_iteration": 4.89530349, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 48s", "remaining_time": "14h 6m 33s", "loss_scale": 1.0, "consumed_samples": 595456, "global_step/max_steps": "2326/12700"}
{"lm loss": 2.16935086, "grad_norm": 0.43865919, "learning_rate": 9.537e-05, "elapsed_time_per_iteration": 4.86185575, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 53s", "remaining_time": "14h 6m 28s", "loss_scale": 1.0, "consumed_samples": 595712, "global_step/max_steps": "2327/12700"}
{"lm loss": 2.15784359, "grad_norm": 0.39923081, "learning_rate": 9.536e-05, "elapsed_time_per_iteration": 5.02194715, "memory(GiB)": 28.98, "elapsed_time": "3h 9m 58s", "remaining_time": "14h 6m 24s", "loss_scale": 1.0, "consumed_samples": 595968, "global_step/max_steps": "2328/12700"}
{"lm loss": 2.19144297, "grad_norm": 0.42013991, "learning_rate": 9.536e-05, "elapsed_time_per_iteration": 4.81976914, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 3s", "remaining_time": "14h 6m 19s", "loss_scale": 1.0, "consumed_samples": 596224, "global_step/max_steps": "2329/12700"}
{"lm loss": 2.16926885, "grad_norm": 0.42262238, "learning_rate": 9.535e-05, "elapsed_time_per_iteration": 4.86180139, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 8s", "remaining_time": "14h 6m 14s", "loss_scale": 1.0, "consumed_samples": 596480, "global_step/max_steps": "2330/12700"}
{"lm loss": 2.15564275, "grad_norm": 0.3816092, "learning_rate": 9.535e-05, "elapsed_time_per_iteration": 4.79429317, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 13s", "remaining_time": "14h 6m 8s", "loss_scale": 1.0, "consumed_samples": 596736, "global_step/max_steps": "2331/12700"}
{"lm loss": 2.19409752, "grad_norm": 0.38334715, "learning_rate": 9.534e-05, "elapsed_time_per_iteration": 4.93312049, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 18s", "remaining_time": "14h 6m 4s", "loss_scale": 1.0, "consumed_samples": 596992, "global_step/max_steps": "2332/12700"}
{"lm loss": 2.185781, "grad_norm": 0.40159819, "learning_rate": 9.534e-05, "elapsed_time_per_iteration": 4.8117671, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 22s", "remaining_time": "14h 5m 58s", "loss_scale": 1.0, "consumed_samples": 597248, "global_step/max_steps": "2333/12700"}
{"lm loss": 2.18796778, "grad_norm": 0.39761224, "learning_rate": 9.533e-05, "elapsed_time_per_iteration": 4.85043526, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 27s", "remaining_time": "14h 5m 53s", "loss_scale": 1.0, "consumed_samples": 597504, "global_step/max_steps": "2334/12700"}
{"lm loss": 2.16531992, "grad_norm": 0.44279882, "learning_rate": 9.533e-05, "elapsed_time_per_iteration": 4.82998776, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 32s", "remaining_time": "14h 5m 48s", "loss_scale": 1.0, "consumed_samples": 597760, "global_step/max_steps": "2335/12700"}
{"lm loss": 2.21473789, "grad_norm": 0.40483937, "learning_rate": 9.532e-05, "elapsed_time_per_iteration": 5.01145649, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 37s", "remaining_time": "14h 5m 44s", "loss_scale": 1.0, "consumed_samples": 598016, "global_step/max_steps": "2336/12700"}
{"lm loss": 2.17555141, "grad_norm": 0.4179678, "learning_rate": 9.531e-05, "elapsed_time_per_iteration": 4.96710825, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 42s", "remaining_time": "14h 5m 39s", "loss_scale": 1.0, "consumed_samples": 598272, "global_step/max_steps": "2337/12700"}
{"lm loss": 2.18773007, "grad_norm": 0.42872006, "learning_rate": 9.531e-05, "elapsed_time_per_iteration": 4.83716249, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 47s", "remaining_time": "14h 5m 34s", "loss_scale": 1.0, "consumed_samples": 598528, "global_step/max_steps": "2338/12700"}
{"lm loss": 2.22207069, "grad_norm": 0.42442968, "learning_rate": 9.53e-05, "elapsed_time_per_iteration": 4.74611974, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 52s", "remaining_time": "14h 5m 28s", "loss_scale": 1.0, "consumed_samples": 598784, "global_step/max_steps": "2339/12700"}
{"lm loss": 2.17920685, "grad_norm": 0.4237271, "learning_rate": 9.53e-05, "elapsed_time_per_iteration": 5.01394606, "memory(GiB)": 28.98, "elapsed_time": "3h 10m 57s", "remaining_time": "14h 5m 24s", "loss_scale": 1.0, "consumed_samples": 599040, "global_step/max_steps": "2340/12700"}
{"lm loss": 2.17055774, "grad_norm": 0.4103916, "learning_rate": 9.529e-05, "elapsed_time_per_iteration": 4.88541794, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 1s", "remaining_time": "14h 5m 19s", "loss_scale": 1.0, "consumed_samples": 599296, "global_step/max_steps": "2341/12700"}
{"lm loss": 2.18277335, "grad_norm": 0.42584026, "learning_rate": 9.529e-05, "elapsed_time_per_iteration": 4.90010023, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 6s", "remaining_time": "14h 5m 14s", "loss_scale": 1.0, "consumed_samples": 599552, "global_step/max_steps": "2342/12700"}
{"lm loss": 2.2177639, "grad_norm": 0.42307502, "learning_rate": 9.528e-05, "elapsed_time_per_iteration": 4.83390141, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 11s", "remaining_time": "14h 5m 9s", "loss_scale": 1.0, "consumed_samples": 599808, "global_step/max_steps": "2343/12700"}
{"lm loss": 2.17737794, "grad_norm": 0.43590829, "learning_rate": 9.528e-05, "elapsed_time_per_iteration": 4.8325429, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 16s", "remaining_time": "14h 5m 4s", "loss_scale": 1.0, "consumed_samples": 600064, "global_step/max_steps": "2344/12700"}
{"lm loss": 2.21007323, "grad_norm": 0.4251065, "learning_rate": 9.527e-05, "elapsed_time_per_iteration": 4.88815403, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 21s", "remaining_time": "14h 4m 59s", "loss_scale": 1.0, "consumed_samples": 600320, "global_step/max_steps": "2345/12700"}
{"lm loss": 2.15112257, "grad_norm": 0.47209153, "learning_rate": 9.527e-05, "elapsed_time_per_iteration": 4.86423254, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 26s", "remaining_time": "14h 4m 54s", "loss_scale": 1.0, "consumed_samples": 600576, "global_step/max_steps": "2346/12700"}
{"lm loss": 2.17974639, "grad_norm": 0.41620323, "learning_rate": 9.526e-05, "elapsed_time_per_iteration": 4.96047473, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 31s", "remaining_time": "14h 4m 49s", "loss_scale": 1.0, "consumed_samples": 600832, "global_step/max_steps": "2347/12700"}
{"lm loss": 2.16431522, "grad_norm": 0.41666818, "learning_rate": 9.525e-05, "elapsed_time_per_iteration": 4.87575507, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 36s", "remaining_time": "14h 4m 44s", "loss_scale": 1.0, "consumed_samples": 601088, "global_step/max_steps": "2348/12700"}
{"lm loss": 2.15494633, "grad_norm": 0.45452282, "learning_rate": 9.525e-05, "elapsed_time_per_iteration": 4.98867607, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 41s", "remaining_time": "14h 4m 40s", "loss_scale": 1.0, "consumed_samples": 601344, "global_step/max_steps": "2349/12700"}
{"lm loss": 2.15671945, "grad_norm": 0.42226982, "learning_rate": 9.524e-05, "elapsed_time_per_iteration": 4.92851257, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 46s", "remaining_time": "14h 4m 35s", "loss_scale": 1.0, "consumed_samples": 601600, "global_step/max_steps": "2350/12700"}
{"lm loss": 2.19425988, "grad_norm": 0.41904196, "learning_rate": 9.524e-05, "elapsed_time_per_iteration": 4.76712918, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 50s", "remaining_time": "14h 4m 30s", "loss_scale": 1.0, "consumed_samples": 601856, "global_step/max_steps": "2351/12700"}
{"lm loss": 2.17100668, "grad_norm": 0.49597564, "learning_rate": 9.523e-05, "elapsed_time_per_iteration": 4.8677485, "memory(GiB)": 28.98, "elapsed_time": "3h 11m 55s", "remaining_time": "14h 4m 25s", "loss_scale": 1.0, "consumed_samples": 602112, "global_step/max_steps": "2352/12700"}
{"lm loss": 2.20258975, "grad_norm": 0.45312843, "learning_rate": 9.523e-05, "elapsed_time_per_iteration": 4.82874107, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 0s", "remaining_time": "14h 4m 19s", "loss_scale": 1.0, "consumed_samples": 602368, "global_step/max_steps": "2353/12700"}
{"lm loss": 2.20768118, "grad_norm": 0.43481863, "learning_rate": 9.522e-05, "elapsed_time_per_iteration": 4.92198205, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 5s", "remaining_time": "14h 4m 15s", "loss_scale": 1.0, "consumed_samples": 602624, "global_step/max_steps": "2354/12700"}
{"lm loss": 2.1920588, "grad_norm": 0.45396832, "learning_rate": 9.522e-05, "elapsed_time_per_iteration": 4.86535692, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 10s", "remaining_time": "14h 4m 10s", "loss_scale": 1.0, "consumed_samples": 602880, "global_step/max_steps": "2355/12700"}
{"lm loss": 2.17071891, "grad_norm": 0.4402141, "learning_rate": 9.521e-05, "elapsed_time_per_iteration": 4.92526746, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 15s", "remaining_time": "14h 4m 5s", "loss_scale": 1.0, "consumed_samples": 603136, "global_step/max_steps": "2356/12700"}
{"lm loss": 2.16529989, "grad_norm": 0.40453765, "learning_rate": 9.521e-05, "elapsed_time_per_iteration": 4.83603835, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 20s", "remaining_time": "14h 4m 0s", "loss_scale": 1.0, "consumed_samples": 603392, "global_step/max_steps": "2357/12700"}
{"lm loss": 2.17249846, "grad_norm": 0.43865335, "learning_rate": 9.52e-05, "elapsed_time_per_iteration": 4.86559629, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 24s", "remaining_time": "14h 3m 55s", "loss_scale": 1.0, "consumed_samples": 603648, "global_step/max_steps": "2358/12700"}
{"lm loss": 2.22264433, "grad_norm": 0.40105048, "learning_rate": 9.519e-05, "elapsed_time_per_iteration": 4.87958884, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 29s", "remaining_time": "14h 3m 50s", "loss_scale": 1.0, "consumed_samples": 603904, "global_step/max_steps": "2359/12700"}
{"lm loss": 2.18262291, "grad_norm": 0.42606306, "learning_rate": 9.519e-05, "elapsed_time_per_iteration": 4.90995479, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 34s", "remaining_time": "14h 3m 45s", "loss_scale": 1.0, "consumed_samples": 604160, "global_step/max_steps": "2360/12700"}
{"lm loss": 2.16041398, "grad_norm": 0.44925493, "learning_rate": 9.518e-05, "elapsed_time_per_iteration": 4.97017813, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 39s", "remaining_time": "14h 3m 40s", "loss_scale": 1.0, "consumed_samples": 604416, "global_step/max_steps": "2361/12700"}
{"lm loss": 2.18829298, "grad_norm": 0.39230731, "learning_rate": 9.518e-05, "elapsed_time_per_iteration": 4.87685108, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 44s", "remaining_time": "14h 3m 35s", "loss_scale": 1.0, "consumed_samples": 604672, "global_step/max_steps": "2362/12700"}
{"lm loss": 2.19445491, "grad_norm": 0.40448341, "learning_rate": 9.517e-05, "elapsed_time_per_iteration": 4.92643809, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 49s", "remaining_time": "14h 3m 30s", "loss_scale": 1.0, "consumed_samples": 604928, "global_step/max_steps": "2363/12700"}
{"lm loss": 2.19919205, "grad_norm": 0.43904015, "learning_rate": 9.517e-05, "elapsed_time_per_iteration": 4.92818332, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 54s", "remaining_time": "14h 3m 26s", "loss_scale": 1.0, "consumed_samples": 605184, "global_step/max_steps": "2364/12700"}
{"lm loss": 2.17219138, "grad_norm": 0.42663926, "learning_rate": 9.516e-05, "elapsed_time_per_iteration": 4.82152486, "memory(GiB)": 28.98, "elapsed_time": "3h 12m 59s", "remaining_time": "14h 3m 21s", "loss_scale": 1.0, "consumed_samples": 605440, "global_step/max_steps": "2365/12700"}
{"lm loss": 2.19034815, "grad_norm": 0.39883888, "learning_rate": 9.516e-05, "elapsed_time_per_iteration": 4.8554492, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 4s", "remaining_time": "14h 3m 15s", "loss_scale": 1.0, "consumed_samples": 605696, "global_step/max_steps": "2366/12700"}
{"lm loss": 2.14308143, "grad_norm": 0.44006863, "learning_rate": 9.515e-05, "elapsed_time_per_iteration": 4.86067057, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 8s", "remaining_time": "14h 3m 10s", "loss_scale": 1.0, "consumed_samples": 605952, "global_step/max_steps": "2367/12700"}
{"lm loss": 2.16030645, "grad_norm": 0.42757115, "learning_rate": 9.515e-05, "elapsed_time_per_iteration": 4.94025517, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 13s", "remaining_time": "14h 3m 6s", "loss_scale": 1.0, "consumed_samples": 606208, "global_step/max_steps": "2368/12700"}
{"lm loss": 2.21101236, "grad_norm": 0.40932527, "learning_rate": 9.514e-05, "elapsed_time_per_iteration": 4.79875302, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 18s", "remaining_time": "14h 3m 0s", "loss_scale": 1.0, "consumed_samples": 606464, "global_step/max_steps": "2369/12700"}
{"lm loss": 2.19026375, "grad_norm": 0.44115829, "learning_rate": 9.513e-05, "elapsed_time_per_iteration": 4.84465933, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 23s", "remaining_time": "14h 2m 55s", "loss_scale": 1.0, "consumed_samples": 606720, "global_step/max_steps": "2370/12700"}
{"lm loss": 2.18650413, "grad_norm": 0.45035264, "learning_rate": 9.513e-05, "elapsed_time_per_iteration": 4.937639, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 28s", "remaining_time": "14h 2m 51s", "loss_scale": 1.0, "consumed_samples": 606976, "global_step/max_steps": "2371/12700"}
{"lm loss": 2.18248582, "grad_norm": 0.43073139, "learning_rate": 9.512e-05, "elapsed_time_per_iteration": 4.86044383, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 33s", "remaining_time": "14h 2m 45s", "loss_scale": 1.0, "consumed_samples": 607232, "global_step/max_steps": "2372/12700"}
{"lm loss": 2.14389539, "grad_norm": 0.44878507, "learning_rate": 9.512e-05, "elapsed_time_per_iteration": 4.90017223, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 38s", "remaining_time": "14h 2m 41s", "loss_scale": 1.0, "consumed_samples": 607488, "global_step/max_steps": "2373/12700"}
{"lm loss": 2.1906054, "grad_norm": 0.43039671, "learning_rate": 9.511e-05, "elapsed_time_per_iteration": 4.8839314, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 43s", "remaining_time": "14h 2m 36s", "loss_scale": 1.0, "consumed_samples": 607744, "global_step/max_steps": "2374/12700"}
{"lm loss": 2.17252851, "grad_norm": 0.43366206, "learning_rate": 9.511e-05, "elapsed_time_per_iteration": 4.87421012, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 47s", "remaining_time": "14h 2m 31s", "loss_scale": 1.0, "consumed_samples": 608000, "global_step/max_steps": "2375/12700"}
{"lm loss": 2.1716938, "grad_norm": 0.42265704, "learning_rate": 9.51e-05, "elapsed_time_per_iteration": 4.78481722, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 52s", "remaining_time": "14h 2m 25s", "loss_scale": 1.0, "consumed_samples": 608256, "global_step/max_steps": "2376/12700"}
{"lm loss": 2.17342973, "grad_norm": 0.42930135, "learning_rate": 9.51e-05, "elapsed_time_per_iteration": 4.8827672, "memory(GiB)": 28.98, "elapsed_time": "3h 13m 57s", "remaining_time": "14h 2m 20s", "loss_scale": 1.0, "consumed_samples": 608512, "global_step/max_steps": "2377/12700"}
{"lm loss": 2.16605377, "grad_norm": 0.45370349, "learning_rate": 9.509e-05, "elapsed_time_per_iteration": 4.8545835, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 2s", "remaining_time": "14h 2m 15s", "loss_scale": 1.0, "consumed_samples": 608768, "global_step/max_steps": "2378/12700"}
{"lm loss": 2.14369845, "grad_norm": 0.45492065, "learning_rate": 9.508e-05, "elapsed_time_per_iteration": 4.86462522, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 7s", "remaining_time": "14h 2m 10s", "loss_scale": 1.0, "consumed_samples": 609024, "global_step/max_steps": "2379/12700"}
{"lm loss": 2.18707657, "grad_norm": 0.43745375, "learning_rate": 9.508e-05, "elapsed_time_per_iteration": 4.84093213, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 12s", "remaining_time": "14h 2m 5s", "loss_scale": 1.0, "consumed_samples": 609280, "global_step/max_steps": "2380/12700"}
{"lm loss": 2.1954782, "grad_norm": 0.43136871, "learning_rate": 9.507e-05, "elapsed_time_per_iteration": 4.91240001, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 17s", "remaining_time": "14h 2m 0s", "loss_scale": 1.0, "consumed_samples": 609536, "global_step/max_steps": "2381/12700"}
{"lm loss": 2.1694057, "grad_norm": 0.44704196, "learning_rate": 9.507e-05, "elapsed_time_per_iteration": 4.806319, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 21s", "remaining_time": "14h 1m 55s", "loss_scale": 1.0, "consumed_samples": 609792, "global_step/max_steps": "2382/12700"}
{"lm loss": 2.20197129, "grad_norm": 0.46654493, "learning_rate": 9.506e-05, "elapsed_time_per_iteration": 4.92239928, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 26s", "remaining_time": "14h 1m 50s", "loss_scale": 1.0, "consumed_samples": 610048, "global_step/max_steps": "2383/12700"}
{"lm loss": 2.20143819, "grad_norm": 0.46651408, "learning_rate": 9.506e-05, "elapsed_time_per_iteration": 4.97895479, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 31s", "remaining_time": "14h 1m 46s", "loss_scale": 1.0, "consumed_samples": 610304, "global_step/max_steps": "2384/12700"}
{"lm loss": 2.20268679, "grad_norm": 0.47761986, "learning_rate": 9.505e-05, "elapsed_time_per_iteration": 4.87746739, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 36s", "remaining_time": "14h 1m 41s", "loss_scale": 1.0, "consumed_samples": 610560, "global_step/max_steps": "2385/12700"}
{"lm loss": 2.17294431, "grad_norm": 0.44938439, "learning_rate": 9.505e-05, "elapsed_time_per_iteration": 4.83481789, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 41s", "remaining_time": "14h 1m 36s", "loss_scale": 1.0, "consumed_samples": 610816, "global_step/max_steps": "2386/12700"}
{"lm loss": 2.20669556, "grad_norm": 0.50390351, "learning_rate": 9.504e-05, "elapsed_time_per_iteration": 4.86296844, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 46s", "remaining_time": "14h 1m 30s", "loss_scale": 1.0, "consumed_samples": 611072, "global_step/max_steps": "2387/12700"}
{"lm loss": 2.17170143, "grad_norm": 0.44066995, "learning_rate": 9.503e-05, "elapsed_time_per_iteration": 4.95224619, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 51s", "remaining_time": "14h 1m 26s", "loss_scale": 1.0, "consumed_samples": 611328, "global_step/max_steps": "2388/12700"}
{"lm loss": 2.13710308, "grad_norm": 0.41080967, "learning_rate": 9.503e-05, "elapsed_time_per_iteration": 4.86634803, "memory(GiB)": 28.98, "elapsed_time": "3h 14m 56s", "remaining_time": "14h 1m 21s", "loss_scale": 1.0, "consumed_samples": 611584, "global_step/max_steps": "2389/12700"}
{"lm loss": 2.17689538, "grad_norm": 0.47373, "learning_rate": 9.502e-05, "elapsed_time_per_iteration": 5.01587534, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 1s", "remaining_time": "14h 1m 16s", "loss_scale": 1.0, "consumed_samples": 611840, "global_step/max_steps": "2390/12700"}
{"lm loss": 2.18422127, "grad_norm": 0.47294354, "learning_rate": 9.502e-05, "elapsed_time_per_iteration": 4.79586005, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 6s", "remaining_time": "14h 1m 11s", "loss_scale": 1.0, "consumed_samples": 612096, "global_step/max_steps": "2391/12700"}
{"lm loss": 2.17095304, "grad_norm": 0.44307598, "learning_rate": 9.501e-05, "elapsed_time_per_iteration": 4.92549968, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 10s", "remaining_time": "14h 1m 6s", "loss_scale": 1.0, "consumed_samples": 612352, "global_step/max_steps": "2392/12700"}
{"lm loss": 2.15105438, "grad_norm": 0.47291431, "learning_rate": 9.501e-05, "elapsed_time_per_iteration": 4.8647511, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 15s", "remaining_time": "14h 1m 1s", "loss_scale": 1.0, "consumed_samples": 612608, "global_step/max_steps": "2393/12700"}
{"lm loss": 2.1771822, "grad_norm": 0.45130259, "learning_rate": 9.5e-05, "elapsed_time_per_iteration": 4.91888332, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 20s", "remaining_time": "14h 0m 57s", "loss_scale": 1.0, "consumed_samples": 612864, "global_step/max_steps": "2394/12700"}
{"lm loss": 2.17201352, "grad_norm": 0.42791662, "learning_rate": 9.5e-05, "elapsed_time_per_iteration": 4.84893584, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 25s", "remaining_time": "14h 0m 51s", "loss_scale": 1.0, "consumed_samples": 613120, "global_step/max_steps": "2395/12700"}
{"lm loss": 2.15970922, "grad_norm": 0.44511807, "learning_rate": 9.499e-05, "elapsed_time_per_iteration": 4.85036755, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 30s", "remaining_time": "14h 0m 46s", "loss_scale": 1.0, "consumed_samples": 613376, "global_step/max_steps": "2396/12700"}
{"lm loss": 2.16189313, "grad_norm": 0.47433406, "learning_rate": 9.498e-05, "elapsed_time_per_iteration": 4.82853746, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 35s", "remaining_time": "14h 0m 41s", "loss_scale": 1.0, "consumed_samples": 613632, "global_step/max_steps": "2397/12700"}
{"lm loss": 2.19863653, "grad_norm": 0.42639685, "learning_rate": 9.498e-05, "elapsed_time_per_iteration": 4.8385303, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 40s", "remaining_time": "14h 0m 36s", "loss_scale": 1.0, "consumed_samples": 613888, "global_step/max_steps": "2398/12700"}
{"lm loss": 2.18259001, "grad_norm": 0.39897493, "learning_rate": 9.497e-05, "elapsed_time_per_iteration": 4.81084943, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 44s", "remaining_time": "14h 0m 31s", "loss_scale": 1.0, "consumed_samples": 614144, "global_step/max_steps": "2399/12700"}
{"lm loss": 2.22679162, "grad_norm": 0.43929723, "learning_rate": 9.497e-05, "elapsed_time_per_iteration": 4.89393687, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 49s", "remaining_time": "14h 0m 26s", "loss_scale": 1.0, "consumed_samples": 614400, "global_step/max_steps": "2400/12700"}
{"lm loss": 2.17314291, "grad_norm": 0.44001338, "learning_rate": 9.496e-05, "elapsed_time_per_iteration": 4.97650361, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 54s", "remaining_time": "14h 0m 21s", "loss_scale": 1.0, "consumed_samples": 614656, "global_step/max_steps": "2401/12700"}
{"lm loss": 2.24121332, "grad_norm": 0.42770997, "learning_rate": 9.496e-05, "elapsed_time_per_iteration": 4.92818999, "memory(GiB)": 28.98, "elapsed_time": "3h 15m 59s", "remaining_time": "14h 0m 17s", "loss_scale": 1.0, "consumed_samples": 614912, "global_step/max_steps": "2402/12700"}
{"lm loss": 2.17147326, "grad_norm": 0.42146012, "learning_rate": 9.495e-05, "elapsed_time_per_iteration": 4.84960198, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 4s", "remaining_time": "14h 0m 11s", "loss_scale": 1.0, "consumed_samples": 615168, "global_step/max_steps": "2403/12700"}
{"lm loss": 2.17676687, "grad_norm": 0.46057552, "learning_rate": 9.495e-05, "elapsed_time_per_iteration": 4.86129713, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 9s", "remaining_time": "14h 0m 6s", "loss_scale": 1.0, "consumed_samples": 615424, "global_step/max_steps": "2404/12700"}
{"lm loss": 2.17435837, "grad_norm": 0.44116744, "learning_rate": 9.494e-05, "elapsed_time_per_iteration": 4.76065636, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 14s", "remaining_time": "14h 0m 1s", "loss_scale": 1.0, "consumed_samples": 615680, "global_step/max_steps": "2405/12700"}
{"lm loss": 2.19292736, "grad_norm": 0.4394775, "learning_rate": 9.493e-05, "elapsed_time_per_iteration": 4.87622237, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 19s", "remaining_time": "13h 59m 56s", "loss_scale": 1.0, "consumed_samples": 615936, "global_step/max_steps": "2406/12700"}
{"lm loss": 2.21147656, "grad_norm": 0.38971898, "learning_rate": 9.493e-05, "elapsed_time_per_iteration": 4.9014957, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 23s", "remaining_time": "13h 59m 51s", "loss_scale": 1.0, "consumed_samples": 616192, "global_step/max_steps": "2407/12700"}
{"lm loss": 2.19664359, "grad_norm": 0.4122867, "learning_rate": 9.492e-05, "elapsed_time_per_iteration": 4.91836214, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 28s", "remaining_time": "13h 59m 46s", "loss_scale": 1.0, "consumed_samples": 616448, "global_step/max_steps": "2408/12700"}
{"lm loss": 2.17936158, "grad_norm": 0.43654349, "learning_rate": 9.492e-05, "elapsed_time_per_iteration": 4.79854679, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 33s", "remaining_time": "13h 59m 41s", "loss_scale": 1.0, "consumed_samples": 616704, "global_step/max_steps": "2409/12700"}
{"lm loss": 2.17787671, "grad_norm": 0.41372117, "learning_rate": 9.491e-05, "elapsed_time_per_iteration": 4.82209587, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 38s", "remaining_time": "13h 59m 36s", "loss_scale": 1.0, "consumed_samples": 616960, "global_step/max_steps": "2410/12700"}
{"lm loss": 2.15429807, "grad_norm": 0.3997806, "learning_rate": 9.491e-05, "elapsed_time_per_iteration": 4.88127637, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 43s", "remaining_time": "13h 59m 31s", "loss_scale": 1.0, "consumed_samples": 617216, "global_step/max_steps": "2411/12700"}
{"lm loss": 2.19868731, "grad_norm": 0.42512929, "learning_rate": 9.49e-05, "elapsed_time_per_iteration": 4.85279584, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 48s", "remaining_time": "13h 59m 26s", "loss_scale": 1.0, "consumed_samples": 617472, "global_step/max_steps": "2412/12700"}
{"lm loss": 2.19157791, "grad_norm": 0.42798555, "learning_rate": 9.489e-05, "elapsed_time_per_iteration": 4.79970479, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 53s", "remaining_time": "13h 59m 20s", "loss_scale": 1.0, "consumed_samples": 617728, "global_step/max_steps": "2413/12700"}
{"lm loss": 2.22113228, "grad_norm": 0.42261347, "learning_rate": 9.489e-05, "elapsed_time_per_iteration": 4.86242414, "memory(GiB)": 28.98, "elapsed_time": "3h 16m 57s", "remaining_time": "13h 59m 15s", "loss_scale": 1.0, "consumed_samples": 617984, "global_step/max_steps": "2414/12700"}
{"lm loss": 2.19289374, "grad_norm": 0.44415841, "learning_rate": 9.488e-05, "elapsed_time_per_iteration": 4.87928677, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 2s", "remaining_time": "13h 59m 10s", "loss_scale": 1.0, "consumed_samples": 618240, "global_step/max_steps": "2415/12700"}
{"lm loss": 2.19449449, "grad_norm": 0.41937402, "learning_rate": 9.488e-05, "elapsed_time_per_iteration": 4.85326886, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 7s", "remaining_time": "13h 59m 5s", "loss_scale": 1.0, "consumed_samples": 618496, "global_step/max_steps": "2416/12700"}
{"lm loss": 2.15820479, "grad_norm": 0.42253396, "learning_rate": 9.487e-05, "elapsed_time_per_iteration": 4.86544824, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 12s", "remaining_time": "13h 59m 0s", "loss_scale": 1.0, "consumed_samples": 618752, "global_step/max_steps": "2417/12700"}
{"lm loss": 2.15412402, "grad_norm": 0.42604911, "learning_rate": 9.487e-05, "elapsed_time_per_iteration": 4.83939838, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 17s", "remaining_time": "13h 58m 55s", "loss_scale": 1.0, "consumed_samples": 619008, "global_step/max_steps": "2418/12700"}
{"lm loss": 2.18265128, "grad_norm": 0.42368317, "learning_rate": 9.486e-05, "elapsed_time_per_iteration": 4.7407124, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 22s", "remaining_time": "13h 58m 50s", "loss_scale": 1.0, "consumed_samples": 619264, "global_step/max_steps": "2419/12700"}
{"lm loss": 2.18200278, "grad_norm": 0.39935333, "learning_rate": 9.485e-05, "elapsed_time_per_iteration": 4.92501473, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 27s", "remaining_time": "13h 58m 45s", "loss_scale": 1.0, "consumed_samples": 619520, "global_step/max_steps": "2420/12700"}
{"lm loss": 2.18593621, "grad_norm": 0.42386013, "learning_rate": 9.485e-05, "elapsed_time_per_iteration": 4.88434005, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 31s", "remaining_time": "13h 58m 40s", "loss_scale": 1.0, "consumed_samples": 619776, "global_step/max_steps": "2421/12700"}
{"lm loss": 2.18010521, "grad_norm": 0.44902784, "learning_rate": 9.484e-05, "elapsed_time_per_iteration": 4.80868912, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 36s", "remaining_time": "13h 58m 35s", "loss_scale": 1.0, "consumed_samples": 620032, "global_step/max_steps": "2422/12700"}
{"lm loss": 2.1635232, "grad_norm": 0.44453573, "learning_rate": 9.484e-05, "elapsed_time_per_iteration": 4.89666271, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 41s", "remaining_time": "13h 58m 30s", "loss_scale": 1.0, "consumed_samples": 620288, "global_step/max_steps": "2423/12700"}
{"lm loss": 2.216609, "grad_norm": 0.41794983, "learning_rate": 9.483e-05, "elapsed_time_per_iteration": 4.8375535, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 46s", "remaining_time": "13h 58m 25s", "loss_scale": 1.0, "consumed_samples": 620544, "global_step/max_steps": "2424/12700"}
{"lm loss": 2.18133402, "grad_norm": 0.41109702, "learning_rate": 9.483e-05, "elapsed_time_per_iteration": 4.85585308, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 51s", "remaining_time": "13h 58m 20s", "loss_scale": 1.0, "consumed_samples": 620800, "global_step/max_steps": "2425/12700"}
{"lm loss": 2.17850113, "grad_norm": 0.47192255, "learning_rate": 9.482e-05, "elapsed_time_per_iteration": 4.89180541, "memory(GiB)": 28.98, "elapsed_time": "3h 17m 56s", "remaining_time": "13h 58m 15s", "loss_scale": 1.0, "consumed_samples": 621056, "global_step/max_steps": "2426/12700"}
{"lm loss": 2.14571571, "grad_norm": 0.43552297, "learning_rate": 9.482e-05, "elapsed_time_per_iteration": 4.93287802, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 1s", "remaining_time": "13h 58m 10s", "loss_scale": 1.0, "consumed_samples": 621312, "global_step/max_steps": "2427/12700"}
{"lm loss": 2.17263031, "grad_norm": 0.44488388, "learning_rate": 9.481e-05, "elapsed_time_per_iteration": 4.96171761, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 6s", "remaining_time": "13h 58m 5s", "loss_scale": 1.0, "consumed_samples": 621568, "global_step/max_steps": "2428/12700"}
{"lm loss": 2.15743732, "grad_norm": 0.44461206, "learning_rate": 9.48e-05, "elapsed_time_per_iteration": 4.82295561, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 10s", "remaining_time": "13h 58m 0s", "loss_scale": 1.0, "consumed_samples": 621824, "global_step/max_steps": "2429/12700"}
{"lm loss": 2.14255929, "grad_norm": 0.43947914, "learning_rate": 9.48e-05, "elapsed_time_per_iteration": 4.84248662, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 15s", "remaining_time": "13h 57m 55s", "loss_scale": 1.0, "consumed_samples": 622080, "global_step/max_steps": "2430/12700"}
{"lm loss": 2.15930271, "grad_norm": 0.42035493, "learning_rate": 9.479e-05, "elapsed_time_per_iteration": 4.79492021, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 20s", "remaining_time": "13h 57m 50s", "loss_scale": 1.0, "consumed_samples": 622336, "global_step/max_steps": "2431/12700"}
{"lm loss": 2.16909909, "grad_norm": 0.45787483, "learning_rate": 9.479e-05, "elapsed_time_per_iteration": 4.81005406, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 25s", "remaining_time": "13h 57m 44s", "loss_scale": 1.0, "consumed_samples": 622592, "global_step/max_steps": "2432/12700"}
{"lm loss": 2.17825246, "grad_norm": 0.41766366, "learning_rate": 9.478e-05, "elapsed_time_per_iteration": 4.87127686, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 30s", "remaining_time": "13h 57m 39s", "loss_scale": 1.0, "consumed_samples": 622848, "global_step/max_steps": "2433/12700"}
{"lm loss": 2.15869975, "grad_norm": 0.44451377, "learning_rate": 9.478e-05, "elapsed_time_per_iteration": 4.82486248, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 35s", "remaining_time": "13h 57m 34s", "loss_scale": 1.0, "consumed_samples": 623104, "global_step/max_steps": "2434/12700"}
{"lm loss": 2.17855358, "grad_norm": 0.4419381, "learning_rate": 9.477e-05, "elapsed_time_per_iteration": 4.87710524, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 39s", "remaining_time": "13h 57m 29s", "loss_scale": 1.0, "consumed_samples": 623360, "global_step/max_steps": "2435/12700"}
{"lm loss": 2.19341016, "grad_norm": 0.40411723, "learning_rate": 9.476e-05, "elapsed_time_per_iteration": 4.83433914, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 44s", "remaining_time": "13h 57m 24s", "loss_scale": 1.0, "consumed_samples": 623616, "global_step/max_steps": "2436/12700"}
{"lm loss": 2.16685677, "grad_norm": 0.40530413, "learning_rate": 9.476e-05, "elapsed_time_per_iteration": 4.94665551, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 49s", "remaining_time": "13h 57m 19s", "loss_scale": 1.0, "consumed_samples": 623872, "global_step/max_steps": "2437/12700"}
{"lm loss": 2.16754079, "grad_norm": 0.40494004, "learning_rate": 9.475e-05, "elapsed_time_per_iteration": 4.92736673, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 54s", "remaining_time": "13h 57m 15s", "loss_scale": 1.0, "consumed_samples": 624128, "global_step/max_steps": "2438/12700"}
{"lm loss": 2.19883585, "grad_norm": 0.4113681, "learning_rate": 9.475e-05, "elapsed_time_per_iteration": 4.93118668, "memory(GiB)": 28.98, "elapsed_time": "3h 18m 59s", "remaining_time": "13h 57m 10s", "loss_scale": 1.0, "consumed_samples": 624384, "global_step/max_steps": "2439/12700"}
{"lm loss": 2.18465209, "grad_norm": 0.44045421, "learning_rate": 9.474e-05, "elapsed_time_per_iteration": 4.87831616, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 4s", "remaining_time": "13h 57m 5s", "loss_scale": 1.0, "consumed_samples": 624640, "global_step/max_steps": "2440/12700"}
{"lm loss": 2.16792321, "grad_norm": 0.45110282, "learning_rate": 9.474e-05, "elapsed_time_per_iteration": 4.84692621, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 9s", "remaining_time": "13h 57m 0s", "loss_scale": 1.0, "consumed_samples": 624896, "global_step/max_steps": "2441/12700"}
{"lm loss": 2.20082688, "grad_norm": 0.44303939, "learning_rate": 9.473e-05, "elapsed_time_per_iteration": 4.84305501, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 14s", "remaining_time": "13h 56m 55s", "loss_scale": 1.0, "consumed_samples": 625152, "global_step/max_steps": "2442/12700"}
{"lm loss": 2.16133046, "grad_norm": 0.42642, "learning_rate": 9.472e-05, "elapsed_time_per_iteration": 4.93801808, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 19s", "remaining_time": "13h 56m 50s", "loss_scale": 1.0, "consumed_samples": 625408, "global_step/max_steps": "2443/12700"}
{"lm loss": 2.20814347, "grad_norm": 0.44524255, "learning_rate": 9.472e-05, "elapsed_time_per_iteration": 4.95393252, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 24s", "remaining_time": "13h 56m 45s", "loss_scale": 1.0, "consumed_samples": 625664, "global_step/max_steps": "2444/12700"}
{"lm loss": 2.17212963, "grad_norm": 0.41405153, "learning_rate": 9.471e-05, "elapsed_time_per_iteration": 4.91273332, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 28s", "remaining_time": "13h 56m 41s", "loss_scale": 1.0, "consumed_samples": 625920, "global_step/max_steps": "2445/12700"}
{"lm loss": 2.17732835, "grad_norm": 0.42693684, "learning_rate": 9.471e-05, "elapsed_time_per_iteration": 4.90753627, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 33s", "remaining_time": "13h 56m 36s", "loss_scale": 1.0, "consumed_samples": 626176, "global_step/max_steps": "2446/12700"}
{"lm loss": 2.19974279, "grad_norm": 0.40283027, "learning_rate": 9.47e-05, "elapsed_time_per_iteration": 4.93272519, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 38s", "remaining_time": "13h 56m 31s", "loss_scale": 1.0, "consumed_samples": 626432, "global_step/max_steps": "2447/12700"}
{"lm loss": 2.19028807, "grad_norm": 0.40711778, "learning_rate": 9.47e-05, "elapsed_time_per_iteration": 4.91260552, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 43s", "remaining_time": "13h 56m 26s", "loss_scale": 1.0, "consumed_samples": 626688, "global_step/max_steps": "2448/12700"}
{"lm loss": 2.18441558, "grad_norm": 0.44135836, "learning_rate": 9.469e-05, "elapsed_time_per_iteration": 4.86912084, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 48s", "remaining_time": "13h 56m 21s", "loss_scale": 1.0, "consumed_samples": 626944, "global_step/max_steps": "2449/12700"}
{"lm loss": 2.14785528, "grad_norm": 0.450645, "learning_rate": 9.468e-05, "elapsed_time_per_iteration": 4.86306, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 53s", "remaining_time": "13h 56m 16s", "loss_scale": 1.0, "consumed_samples": 627200, "global_step/max_steps": "2450/12700"}
{"lm loss": 2.12721324, "grad_norm": 0.46011642, "learning_rate": 9.468e-05, "elapsed_time_per_iteration": 4.86686373, "memory(GiB)": 28.98, "elapsed_time": "3h 19m 58s", "remaining_time": "13h 56m 11s", "loss_scale": 1.0, "consumed_samples": 627456, "global_step/max_steps": "2451/12700"}
{"lm loss": 2.15898466, "grad_norm": 0.48861322, "learning_rate": 9.467e-05, "elapsed_time_per_iteration": 4.84285951, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 3s", "remaining_time": "13h 56m 6s", "loss_scale": 1.0, "consumed_samples": 627712, "global_step/max_steps": "2452/12700"}
{"lm loss": 2.14703035, "grad_norm": 0.47855198, "learning_rate": 9.467e-05, "elapsed_time_per_iteration": 4.85159278, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 7s", "remaining_time": "13h 56m 1s", "loss_scale": 1.0, "consumed_samples": 627968, "global_step/max_steps": "2453/12700"}
{"lm loss": 2.16773367, "grad_norm": 0.4818317, "learning_rate": 9.466e-05, "elapsed_time_per_iteration": 4.90075874, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 12s", "remaining_time": "13h 55m 56s", "loss_scale": 1.0, "consumed_samples": 628224, "global_step/max_steps": "2454/12700"}
{"lm loss": 2.17233062, "grad_norm": 0.48933148, "learning_rate": 9.465e-05, "elapsed_time_per_iteration": 4.82123303, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 17s", "remaining_time": "13h 55m 51s", "loss_scale": 1.0, "consumed_samples": 628480, "global_step/max_steps": "2455/12700"}
{"lm loss": 2.1683321, "grad_norm": 0.51724911, "learning_rate": 9.465e-05, "elapsed_time_per_iteration": 4.89788365, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 22s", "remaining_time": "13h 55m 46s", "loss_scale": 1.0, "consumed_samples": 628736, "global_step/max_steps": "2456/12700"}
{"lm loss": 2.19218755, "grad_norm": 0.4844251, "learning_rate": 9.464e-05, "elapsed_time_per_iteration": 4.81285787, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 27s", "remaining_time": "13h 55m 41s", "loss_scale": 1.0, "consumed_samples": 628992, "global_step/max_steps": "2457/12700"}
{"lm loss": 2.18787837, "grad_norm": 0.44535044, "learning_rate": 9.464e-05, "elapsed_time_per_iteration": 4.84501338, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 32s", "remaining_time": "13h 55m 36s", "loss_scale": 1.0, "consumed_samples": 629248, "global_step/max_steps": "2458/12700"}
{"lm loss": 2.16500473, "grad_norm": 0.45752734, "learning_rate": 9.463e-05, "elapsed_time_per_iteration": 4.83199525, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 37s", "remaining_time": "13h 55m 30s", "loss_scale": 1.0, "consumed_samples": 629504, "global_step/max_steps": "2459/12700"}
{"lm loss": 2.18452358, "grad_norm": 0.43810496, "learning_rate": 9.463e-05, "elapsed_time_per_iteration": 4.80631804, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 41s", "remaining_time": "13h 55m 25s", "loss_scale": 1.0, "consumed_samples": 629760, "global_step/max_steps": "2460/12700"}
{"lm loss": 2.19197512, "grad_norm": 0.45801958, "learning_rate": 9.462e-05, "elapsed_time_per_iteration": 4.92434406, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 46s", "remaining_time": "13h 55m 20s", "loss_scale": 1.0, "consumed_samples": 630016, "global_step/max_steps": "2461/12700"}
{"lm loss": 2.17518568, "grad_norm": 0.42148173, "learning_rate": 9.461e-05, "elapsed_time_per_iteration": 4.82687187, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 51s", "remaining_time": "13h 55m 15s", "loss_scale": 1.0, "consumed_samples": 630272, "global_step/max_steps": "2462/12700"}
{"lm loss": 2.1710813, "grad_norm": 0.4326033, "learning_rate": 9.461e-05, "elapsed_time_per_iteration": 4.78506374, "memory(GiB)": 28.98, "elapsed_time": "3h 20m 56s", "remaining_time": "13h 55m 10s", "loss_scale": 1.0, "consumed_samples": 630528, "global_step/max_steps": "2463/12700"}
{"lm loss": 2.21176791, "grad_norm": 0.48175994, "learning_rate": 9.46e-05, "elapsed_time_per_iteration": 4.91528726, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 1s", "remaining_time": "13h 55m 5s", "loss_scale": 1.0, "consumed_samples": 630784, "global_step/max_steps": "2464/12700"}
{"lm loss": 2.14821696, "grad_norm": 0.4635883, "learning_rate": 9.46e-05, "elapsed_time_per_iteration": 4.81453776, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 6s", "remaining_time": "13h 55m 0s", "loss_scale": 1.0, "consumed_samples": 631040, "global_step/max_steps": "2465/12700"}
{"lm loss": 2.17504716, "grad_norm": 0.42850748, "learning_rate": 9.459e-05, "elapsed_time_per_iteration": 4.88618898, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 11s", "remaining_time": "13h 54m 55s", "loss_scale": 1.0, "consumed_samples": 631296, "global_step/max_steps": "2466/12700"}
{"lm loss": 2.16511846, "grad_norm": 0.4227778, "learning_rate": 9.459e-05, "elapsed_time_per_iteration": 4.82969236, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 15s", "remaining_time": "13h 54m 50s", "loss_scale": 1.0, "consumed_samples": 631552, "global_step/max_steps": "2467/12700"}
{"lm loss": 2.15610242, "grad_norm": 0.43785247, "learning_rate": 9.458e-05, "elapsed_time_per_iteration": 4.8049283, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 20s", "remaining_time": "13h 54m 44s", "loss_scale": 1.0, "consumed_samples": 631808, "global_step/max_steps": "2468/12700"}
{"lm loss": 2.17568707, "grad_norm": 0.41682705, "learning_rate": 9.457e-05, "elapsed_time_per_iteration": 4.83002973, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 25s", "remaining_time": "13h 54m 39s", "loss_scale": 1.0, "consumed_samples": 632064, "global_step/max_steps": "2469/12700"}
{"lm loss": 2.17369103, "grad_norm": 0.39864877, "learning_rate": 9.457e-05, "elapsed_time_per_iteration": 4.8237958, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 30s", "remaining_time": "13h 54m 34s", "loss_scale": 1.0, "consumed_samples": 632320, "global_step/max_steps": "2470/12700"}
{"lm loss": 2.21096468, "grad_norm": 0.42845744, "learning_rate": 9.456e-05, "elapsed_time_per_iteration": 4.84483433, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 35s", "remaining_time": "13h 54m 29s", "loss_scale": 1.0, "consumed_samples": 632576, "global_step/max_steps": "2471/12700"}
{"lm loss": 2.16824532, "grad_norm": 0.40787223, "learning_rate": 9.456e-05, "elapsed_time_per_iteration": 4.91358662, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 40s", "remaining_time": "13h 54m 24s", "loss_scale": 1.0, "consumed_samples": 632832, "global_step/max_steps": "2472/12700"}
{"lm loss": 2.17594457, "grad_norm": 0.39027357, "learning_rate": 9.455e-05, "elapsed_time_per_iteration": 4.77786303, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 44s", "remaining_time": "13h 54m 19s", "loss_scale": 1.0, "consumed_samples": 633088, "global_step/max_steps": "2473/12700"}
{"lm loss": 2.16385436, "grad_norm": 0.40995246, "learning_rate": 9.454e-05, "elapsed_time_per_iteration": 4.94255114, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 49s", "remaining_time": "13h 54m 14s", "loss_scale": 1.0, "consumed_samples": 633344, "global_step/max_steps": "2474/12700"}
{"lm loss": 2.17979574, "grad_norm": 0.41686907, "learning_rate": 9.454e-05, "elapsed_time_per_iteration": 4.85603738, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 54s", "remaining_time": "13h 54m 9s", "loss_scale": 1.0, "consumed_samples": 633600, "global_step/max_steps": "2475/12700"}
{"lm loss": 2.15387344, "grad_norm": 0.41219035, "learning_rate": 9.453e-05, "elapsed_time_per_iteration": 4.83681059, "memory(GiB)": 28.98, "elapsed_time": "3h 21m 59s", "remaining_time": "13h 54m 4s", "loss_scale": 1.0, "consumed_samples": 633856, "global_step/max_steps": "2476/12700"}
{"lm loss": 2.16112542, "grad_norm": 0.39861384, "learning_rate": 9.453e-05, "elapsed_time_per_iteration": 4.91019511, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 4s", "remaining_time": "13h 53m 59s", "loss_scale": 1.0, "consumed_samples": 634112, "global_step/max_steps": "2477/12700"}
{"lm loss": 2.16197228, "grad_norm": 0.41272125, "learning_rate": 9.452e-05, "elapsed_time_per_iteration": 4.78867865, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 9s", "remaining_time": "13h 53m 54s", "loss_scale": 1.0, "consumed_samples": 634368, "global_step/max_steps": "2478/12700"}
{"lm loss": 2.1705122, "grad_norm": 0.40736991, "learning_rate": 9.452e-05, "elapsed_time_per_iteration": 4.81561327, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 14s", "remaining_time": "13h 53m 49s", "loss_scale": 1.0, "consumed_samples": 634624, "global_step/max_steps": "2479/12700"}
{"lm loss": 2.1983645, "grad_norm": 0.43736836, "learning_rate": 9.451e-05, "elapsed_time_per_iteration": 4.85115623, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 18s", "remaining_time": "13h 53m 43s", "loss_scale": 1.0, "consumed_samples": 634880, "global_step/max_steps": "2480/12700"}
{"lm loss": 2.17529249, "grad_norm": 0.41738713, "learning_rate": 9.45e-05, "elapsed_time_per_iteration": 4.79632044, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 23s", "remaining_time": "13h 53m 38s", "loss_scale": 1.0, "consumed_samples": 635136, "global_step/max_steps": "2481/12700"}
{"lm loss": 2.17694163, "grad_norm": 0.44657758, "learning_rate": 9.45e-05, "elapsed_time_per_iteration": 4.8583734, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 28s", "remaining_time": "13h 53m 33s", "loss_scale": 1.0, "consumed_samples": 635392, "global_step/max_steps": "2482/12700"}
{"lm loss": 2.12355351, "grad_norm": 0.45089644, "learning_rate": 9.449e-05, "elapsed_time_per_iteration": 4.84566808, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 33s", "remaining_time": "13h 53m 28s", "loss_scale": 1.0, "consumed_samples": 635648, "global_step/max_steps": "2483/12700"}
{"lm loss": 2.2137053, "grad_norm": 0.43086663, "learning_rate": 9.449e-05, "elapsed_time_per_iteration": 4.80568933, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 38s", "remaining_time": "13h 53m 23s", "loss_scale": 1.0, "consumed_samples": 635904, "global_step/max_steps": "2484/12700"}
{"lm loss": 2.17459846, "grad_norm": 0.46737021, "learning_rate": 9.448e-05, "elapsed_time_per_iteration": 4.82711768, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 43s", "remaining_time": "13h 53m 18s", "loss_scale": 1.0, "consumed_samples": 636160, "global_step/max_steps": "2485/12700"}
{"lm loss": 2.17710137, "grad_norm": 0.40784404, "learning_rate": 9.447e-05, "elapsed_time_per_iteration": 4.8572433, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 47s", "remaining_time": "13h 53m 13s", "loss_scale": 1.0, "consumed_samples": 636416, "global_step/max_steps": "2486/12700"}
{"lm loss": 2.18559694, "grad_norm": 0.41741687, "learning_rate": 9.447e-05, "elapsed_time_per_iteration": 4.80734539, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 52s", "remaining_time": "13h 53m 7s", "loss_scale": 1.0, "consumed_samples": 636672, "global_step/max_steps": "2487/12700"}
{"lm loss": 2.16428304, "grad_norm": 0.39998096, "learning_rate": 9.446e-05, "elapsed_time_per_iteration": 4.88737369, "memory(GiB)": 28.98, "elapsed_time": "3h 22m 57s", "remaining_time": "13h 53m 2s", "loss_scale": 1.0, "consumed_samples": 636928, "global_step/max_steps": "2488/12700"}
{"lm loss": 2.15421677, "grad_norm": 0.42335624, "learning_rate": 9.446e-05, "elapsed_time_per_iteration": 4.9100194, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 2s", "remaining_time": "13h 52m 58s", "loss_scale": 1.0, "consumed_samples": 637184, "global_step/max_steps": "2489/12700"}
{"lm loss": 2.20972705, "grad_norm": 0.39971581, "learning_rate": 9.445e-05, "elapsed_time_per_iteration": 4.86169648, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 7s", "remaining_time": "13h 52m 52s", "loss_scale": 1.0, "consumed_samples": 637440, "global_step/max_steps": "2490/12700"}
{"lm loss": 2.1914947, "grad_norm": 0.398725, "learning_rate": 9.445e-05, "elapsed_time_per_iteration": 4.88297009, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 12s", "remaining_time": "13h 52m 48s", "loss_scale": 1.0, "consumed_samples": 637696, "global_step/max_steps": "2491/12700"}
{"lm loss": 2.18110538, "grad_norm": 0.44482014, "learning_rate": 9.444e-05, "elapsed_time_per_iteration": 4.80700684, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 17s", "remaining_time": "13h 52m 42s", "loss_scale": 1.0, "consumed_samples": 637952, "global_step/max_steps": "2492/12700"}
{"lm loss": 2.20810986, "grad_norm": 0.41193202, "learning_rate": 9.443e-05, "elapsed_time_per_iteration": 4.79459381, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 21s", "remaining_time": "13h 52m 37s", "loss_scale": 1.0, "consumed_samples": 638208, "global_step/max_steps": "2493/12700"}
{"lm loss": 2.17145348, "grad_norm": 0.42024449, "learning_rate": 9.443e-05, "elapsed_time_per_iteration": 4.90616822, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 26s", "remaining_time": "13h 52m 32s", "loss_scale": 1.0, "consumed_samples": 638464, "global_step/max_steps": "2494/12700"}
{"lm loss": 2.17430878, "grad_norm": 0.4460184, "learning_rate": 9.442e-05, "elapsed_time_per_iteration": 4.86111808, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 31s", "remaining_time": "13h 52m 27s", "loss_scale": 1.0, "consumed_samples": 638720, "global_step/max_steps": "2495/12700"}
{"lm loss": 2.19936514, "grad_norm": 0.4579654, "learning_rate": 9.442e-05, "elapsed_time_per_iteration": 4.85866022, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 36s", "remaining_time": "13h 52m 22s", "loss_scale": 1.0, "consumed_samples": 638976, "global_step/max_steps": "2496/12700"}
{"lm loss": 2.18222332, "grad_norm": 0.40080202, "learning_rate": 9.441e-05, "elapsed_time_per_iteration": 4.78628659, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 41s", "remaining_time": "13h 52m 17s", "loss_scale": 1.0, "consumed_samples": 639232, "global_step/max_steps": "2497/12700"}
{"lm loss": 2.17087793, "grad_norm": 0.43248239, "learning_rate": 9.44e-05, "elapsed_time_per_iteration": 4.85634971, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 46s", "remaining_time": "13h 52m 12s", "loss_scale": 1.0, "consumed_samples": 639488, "global_step/max_steps": "2498/12700"}
{"lm loss": 2.17088652, "grad_norm": 0.46068686, "learning_rate": 9.44e-05, "elapsed_time_per_iteration": 4.86539841, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 50s", "remaining_time": "13h 52m 7s", "loss_scale": 1.0, "consumed_samples": 639744, "global_step/max_steps": "2499/12700"}
{"lm loss": 2.14401627, "grad_norm": 0.43167397, "learning_rate": 9.439e-05, "elapsed_time_per_iteration": 4.90544796, "memory(GiB)": 28.98, "elapsed_time": "3h 23m 55s", "remaining_time": "13h 52m 2s", "loss_scale": 1.0, "consumed_samples": 640000, "global_step/max_steps": "2500/12700"}
{"lm loss": 2.16225433, "grad_norm": 0.4280301, "learning_rate": 9.439e-05, "elapsed_time_per_iteration": 4.8416543, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 0s", "remaining_time": "13h 51m 57s", "loss_scale": 1.0, "consumed_samples": 640256, "global_step/max_steps": "2501/12700"}
{"lm loss": 2.18994212, "grad_norm": 0.41702741, "learning_rate": 9.438e-05, "elapsed_time_per_iteration": 4.81792617, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 5s", "remaining_time": "13h 51m 52s", "loss_scale": 1.0, "consumed_samples": 640512, "global_step/max_steps": "2502/12700"}
{"lm loss": 2.16342497, "grad_norm": 0.45677212, "learning_rate": 9.437e-05, "elapsed_time_per_iteration": 4.86191106, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 10s", "remaining_time": "13h 51m 46s", "loss_scale": 1.0, "consumed_samples": 640768, "global_step/max_steps": "2503/12700"}
{"lm loss": 2.18647838, "grad_norm": 0.46005854, "learning_rate": 9.437e-05, "elapsed_time_per_iteration": 4.82282233, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 15s", "remaining_time": "13h 51m 41s", "loss_scale": 1.0, "consumed_samples": 641024, "global_step/max_steps": "2504/12700"}
{"lm loss": 2.18149996, "grad_norm": 0.42002007, "learning_rate": 9.436e-05, "elapsed_time_per_iteration": 4.95605683, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 20s", "remaining_time": "13h 51m 37s", "loss_scale": 1.0, "consumed_samples": 641280, "global_step/max_steps": "2505/12700"}
{"lm loss": 2.17630363, "grad_norm": 0.45563054, "learning_rate": 9.436e-05, "elapsed_time_per_iteration": 4.76157904, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 24s", "remaining_time": "13h 51m 31s", "loss_scale": 1.0, "consumed_samples": 641536, "global_step/max_steps": "2506/12700"}
{"lm loss": 2.18146873, "grad_norm": 0.42818069, "learning_rate": 9.435e-05, "elapsed_time_per_iteration": 4.7836163, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 29s", "remaining_time": "13h 51m 26s", "loss_scale": 1.0, "consumed_samples": 641792, "global_step/max_steps": "2507/12700"}
{"lm loss": 2.18187284, "grad_norm": 0.47748113, "learning_rate": 9.435e-05, "elapsed_time_per_iteration": 4.9327724, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 34s", "remaining_time": "13h 51m 21s", "loss_scale": 1.0, "consumed_samples": 642048, "global_step/max_steps": "2508/12700"}
{"lm loss": 2.21425462, "grad_norm": 0.53998733, "learning_rate": 9.434e-05, "elapsed_time_per_iteration": 4.9175756, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 39s", "remaining_time": "13h 51m 16s", "loss_scale": 1.0, "consumed_samples": 642304, "global_step/max_steps": "2509/12700"}
{"lm loss": 2.19236708, "grad_norm": 0.44259053, "learning_rate": 9.433e-05, "elapsed_time_per_iteration": 4.88548541, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 44s", "remaining_time": "13h 51m 11s", "loss_scale": 1.0, "consumed_samples": 642560, "global_step/max_steps": "2510/12700"}
{"lm loss": 2.21360278, "grad_norm": 0.44465631, "learning_rate": 9.433e-05, "elapsed_time_per_iteration": 5.01245022, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 49s", "remaining_time": "13h 51m 7s", "loss_scale": 1.0, "consumed_samples": 642816, "global_step/max_steps": "2511/12700"}
{"lm loss": 2.16777849, "grad_norm": 0.50542969, "learning_rate": 9.432e-05, "elapsed_time_per_iteration": 4.86590505, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 54s", "remaining_time": "13h 51m 2s", "loss_scale": 1.0, "consumed_samples": 643072, "global_step/max_steps": "2512/12700"}
{"lm loss": 2.16564941, "grad_norm": 0.45188248, "learning_rate": 9.432e-05, "elapsed_time_per_iteration": 4.8119576, "memory(GiB)": 28.98, "elapsed_time": "3h 24m 59s", "remaining_time": "13h 50m 57s", "loss_scale": 1.0, "consumed_samples": 643328, "global_step/max_steps": "2513/12700"}
{"lm loss": 2.175524, "grad_norm": 0.42249489, "learning_rate": 9.431e-05, "elapsed_time_per_iteration": 4.94010425, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 4s", "remaining_time": "13h 50m 52s", "loss_scale": 1.0, "consumed_samples": 643584, "global_step/max_steps": "2514/12700"}
{"lm loss": 2.18138289, "grad_norm": 0.49725506, "learning_rate": 9.43e-05, "elapsed_time_per_iteration": 4.9018693, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 8s", "remaining_time": "13h 50m 47s", "loss_scale": 1.0, "consumed_samples": 643840, "global_step/max_steps": "2515/12700"}
{"lm loss": 2.16013169, "grad_norm": 0.41716841, "learning_rate": 9.43e-05, "elapsed_time_per_iteration": 4.81998229, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 13s", "remaining_time": "13h 50m 42s", "loss_scale": 1.0, "consumed_samples": 644096, "global_step/max_steps": "2516/12700"}
{"lm loss": 2.18043923, "grad_norm": 0.42214233, "learning_rate": 9.429e-05, "elapsed_time_per_iteration": 4.86095238, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 18s", "remaining_time": "13h 50m 37s", "loss_scale": 1.0, "consumed_samples": 644352, "global_step/max_steps": "2517/12700"}
{"lm loss": 2.15299249, "grad_norm": 0.50549829, "learning_rate": 9.429e-05, "elapsed_time_per_iteration": 4.86501503, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 23s", "remaining_time": "13h 50m 32s", "loss_scale": 1.0, "consumed_samples": 644608, "global_step/max_steps": "2518/12700"}
{"lm loss": 2.17176867, "grad_norm": 0.47628483, "learning_rate": 9.428e-05, "elapsed_time_per_iteration": 4.81661963, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 28s", "remaining_time": "13h 50m 27s", "loss_scale": 1.0, "consumed_samples": 644864, "global_step/max_steps": "2519/12700"}
{"lm loss": 2.20193481, "grad_norm": 0.41400164, "learning_rate": 9.427e-05, "elapsed_time_per_iteration": 4.85887408, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 33s", "remaining_time": "13h 50m 22s", "loss_scale": 1.0, "consumed_samples": 645120, "global_step/max_steps": "2520/12700"}
{"lm loss": 2.17802286, "grad_norm": 0.45744357, "learning_rate": 9.427e-05, "elapsed_time_per_iteration": 4.88429904, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 38s", "remaining_time": "13h 50m 17s", "loss_scale": 1.0, "consumed_samples": 645376, "global_step/max_steps": "2521/12700"}
{"lm loss": 2.16059661, "grad_norm": 0.44973859, "learning_rate": 9.426e-05, "elapsed_time_per_iteration": 4.88809609, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 42s", "remaining_time": "13h 50m 12s", "loss_scale": 1.0, "consumed_samples": 645632, "global_step/max_steps": "2522/12700"}
{"lm loss": 2.19070148, "grad_norm": 0.39422226, "learning_rate": 9.426e-05, "elapsed_time_per_iteration": 4.80414367, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 47s", "remaining_time": "13h 50m 7s", "loss_scale": 1.0, "consumed_samples": 645888, "global_step/max_steps": "2523/12700"}
{"lm loss": 2.1831646, "grad_norm": 0.43323842, "learning_rate": 9.425e-05, "elapsed_time_per_iteration": 4.97087288, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 52s", "remaining_time": "13h 50m 2s", "loss_scale": 1.0, "consumed_samples": 646144, "global_step/max_steps": "2524/12700"}
{"lm loss": 2.19987297, "grad_norm": 0.42115727, "learning_rate": 9.424e-05, "elapsed_time_per_iteration": 4.94908071, "memory(GiB)": 28.98, "elapsed_time": "3h 25m 57s", "remaining_time": "13h 49m 57s", "loss_scale": 1.0, "consumed_samples": 646400, "global_step/max_steps": "2525/12700"}
{"lm loss": 2.17701864, "grad_norm": 0.41114685, "learning_rate": 9.424e-05, "elapsed_time_per_iteration": 4.90849614, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 2s", "remaining_time": "13h 49m 52s", "loss_scale": 1.0, "consumed_samples": 646656, "global_step/max_steps": "2526/12700"}
{"lm loss": 2.19624352, "grad_norm": 0.45392162, "learning_rate": 9.423e-05, "elapsed_time_per_iteration": 4.85570621, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 7s", "remaining_time": "13h 49m 47s", "loss_scale": 1.0, "consumed_samples": 646912, "global_step/max_steps": "2527/12700"}
{"lm loss": 2.2098372, "grad_norm": 0.42045453, "learning_rate": 9.423e-05, "elapsed_time_per_iteration": 4.88254857, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 12s", "remaining_time": "13h 49m 43s", "loss_scale": 1.0, "consumed_samples": 647168, "global_step/max_steps": "2528/12700"}
{"lm loss": 2.19526577, "grad_norm": 0.40868175, "learning_rate": 9.422e-05, "elapsed_time_per_iteration": 4.81584978, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 17s", "remaining_time": "13h 49m 37s", "loss_scale": 1.0, "consumed_samples": 647424, "global_step/max_steps": "2529/12700"}
{"lm loss": 2.17508554, "grad_norm": 0.45457882, "learning_rate": 9.421e-05, "elapsed_time_per_iteration": 4.86282516, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 22s", "remaining_time": "13h 49m 32s", "loss_scale": 1.0, "consumed_samples": 647680, "global_step/max_steps": "2530/12700"}
{"lm loss": 2.20819497, "grad_norm": 0.39754587, "learning_rate": 9.421e-05, "elapsed_time_per_iteration": 4.80107522, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 26s", "remaining_time": "13h 49m 27s", "loss_scale": 1.0, "consumed_samples": 647936, "global_step/max_steps": "2531/12700"}
{"lm loss": 2.15135193, "grad_norm": 0.42129591, "learning_rate": 9.42e-05, "elapsed_time_per_iteration": 4.87129188, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 31s", "remaining_time": "13h 49m 22s", "loss_scale": 1.0, "consumed_samples": 648192, "global_step/max_steps": "2532/12700"}
{"lm loss": 2.19785714, "grad_norm": 0.40783384, "learning_rate": 9.42e-05, "elapsed_time_per_iteration": 4.79529595, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 36s", "remaining_time": "13h 49m 17s", "loss_scale": 1.0, "consumed_samples": 648448, "global_step/max_steps": "2533/12700"}
{"lm loss": 2.17370963, "grad_norm": 0.4130049, "learning_rate": 9.419e-05, "elapsed_time_per_iteration": 4.86056066, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 41s", "remaining_time": "13h 49m 12s", "loss_scale": 1.0, "consumed_samples": 648704, "global_step/max_steps": "2534/12700"}
{"lm loss": 2.14868164, "grad_norm": 0.4018693, "learning_rate": 9.418e-05, "elapsed_time_per_iteration": 4.88024426, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 46s", "remaining_time": "13h 49m 7s", "loss_scale": 1.0, "consumed_samples": 648960, "global_step/max_steps": "2535/12700"}
{"lm loss": 2.19015431, "grad_norm": 0.41584754, "learning_rate": 9.418e-05, "elapsed_time_per_iteration": 4.81569314, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 51s", "remaining_time": "13h 49m 2s", "loss_scale": 1.0, "consumed_samples": 649216, "global_step/max_steps": "2536/12700"}
{"lm loss": 2.1839087, "grad_norm": 0.40378225, "learning_rate": 9.417e-05, "elapsed_time_per_iteration": 4.80299735, "memory(GiB)": 28.98, "elapsed_time": "3h 26m 55s", "remaining_time": "13h 48m 56s", "loss_scale": 1.0, "consumed_samples": 649472, "global_step/max_steps": "2537/12700"}
{"lm loss": 2.16861224, "grad_norm": 0.43889889, "learning_rate": 9.417e-05, "elapsed_time_per_iteration": 4.81741929, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 0s", "remaining_time": "13h 48m 51s", "loss_scale": 1.0, "consumed_samples": 649728, "global_step/max_steps": "2538/12700"}
{"lm loss": 2.17329073, "grad_norm": 0.41272643, "learning_rate": 9.416e-05, "elapsed_time_per_iteration": 4.84263873, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 5s", "remaining_time": "13h 48m 46s", "loss_scale": 1.0, "consumed_samples": 649984, "global_step/max_steps": "2539/12700"}
{"lm loss": 2.16788101, "grad_norm": 0.43199936, "learning_rate": 9.415e-05, "elapsed_time_per_iteration": 4.96746039, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 10s", "remaining_time": "13h 48m 41s", "loss_scale": 1.0, "consumed_samples": 650240, "global_step/max_steps": "2540/12700"}
{"lm loss": 2.1628437, "grad_norm": 0.40967968, "learning_rate": 9.415e-05, "elapsed_time_per_iteration": 4.87324452, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 15s", "remaining_time": "13h 48m 36s", "loss_scale": 1.0, "consumed_samples": 650496, "global_step/max_steps": "2541/12700"}
{"lm loss": 2.23096824, "grad_norm": 0.4143497, "learning_rate": 9.414e-05, "elapsed_time_per_iteration": 4.91945052, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 20s", "remaining_time": "13h 48m 32s", "loss_scale": 1.0, "consumed_samples": 650752, "global_step/max_steps": "2542/12700"}
{"lm loss": 2.20190072, "grad_norm": 0.40652493, "learning_rate": 9.414e-05, "elapsed_time_per_iteration": 4.82179737, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 25s", "remaining_time": "13h 48m 26s", "loss_scale": 1.0, "consumed_samples": 651008, "global_step/max_steps": "2543/12700"}
{"lm loss": 2.18571186, "grad_norm": 0.40961957, "learning_rate": 9.413e-05, "elapsed_time_per_iteration": 4.87476635, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 29s", "remaining_time": "13h 48m 21s", "loss_scale": 1.0, "consumed_samples": 651264, "global_step/max_steps": "2544/12700"}
{"lm loss": 2.20853853, "grad_norm": 0.44601625, "learning_rate": 9.412e-05, "elapsed_time_per_iteration": 4.74020433, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 34s", "remaining_time": "13h 48m 16s", "loss_scale": 1.0, "consumed_samples": 651520, "global_step/max_steps": "2545/12700"}
{"lm loss": 2.18689275, "grad_norm": 0.46065223, "learning_rate": 9.412e-05, "elapsed_time_per_iteration": 4.86379099, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 39s", "remaining_time": "13h 48m 11s", "loss_scale": 1.0, "consumed_samples": 651776, "global_step/max_steps": "2546/12700"}
{"lm loss": 2.16445255, "grad_norm": 0.41687468, "learning_rate": 9.411e-05, "elapsed_time_per_iteration": 4.90625405, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 44s", "remaining_time": "13h 48m 6s", "loss_scale": 1.0, "consumed_samples": 652032, "global_step/max_steps": "2547/12700"}
{"lm loss": 2.17283177, "grad_norm": 0.44540188, "learning_rate": 9.411e-05, "elapsed_time_per_iteration": 4.91540003, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 49s", "remaining_time": "13h 48m 1s", "loss_scale": 1.0, "consumed_samples": 652288, "global_step/max_steps": "2548/12700"}
{"lm loss": 2.17134166, "grad_norm": 0.43336865, "learning_rate": 9.41e-05, "elapsed_time_per_iteration": 4.80798602, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 54s", "remaining_time": "13h 47m 56s", "loss_scale": 1.0, "consumed_samples": 652544, "global_step/max_steps": "2549/12700"}
{"lm loss": 2.19104719, "grad_norm": 0.40220112, "learning_rate": 9.409e-05, "elapsed_time_per_iteration": 4.84405828, "memory(GiB)": 28.98, "elapsed_time": "3h 27m 59s", "remaining_time": "13h 47m 51s", "loss_scale": 1.0, "consumed_samples": 652800, "global_step/max_steps": "2550/12700"}
{"lm loss": 2.18557167, "grad_norm": 0.45186052, "learning_rate": 9.409e-05, "elapsed_time_per_iteration": 4.89456415, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 3s", "remaining_time": "13h 47m 46s", "loss_scale": 1.0, "consumed_samples": 653056, "global_step/max_steps": "2551/12700"}
{"lm loss": 2.15496111, "grad_norm": 0.46894571, "learning_rate": 9.408e-05, "elapsed_time_per_iteration": 4.92143989, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 8s", "remaining_time": "13h 47m 41s", "loss_scale": 1.0, "consumed_samples": 653312, "global_step/max_steps": "2552/12700"}
{"lm loss": 2.15567875, "grad_norm": 0.42419457, "learning_rate": 9.408e-05, "elapsed_time_per_iteration": 4.91549921, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 13s", "remaining_time": "13h 47m 36s", "loss_scale": 1.0, "consumed_samples": 653568, "global_step/max_steps": "2553/12700"}
{"lm loss": 2.17381549, "grad_norm": 0.42202368, "learning_rate": 9.407e-05, "elapsed_time_per_iteration": 5.05955744, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 18s", "remaining_time": "13h 47m 32s", "loss_scale": 1.0, "consumed_samples": 653824, "global_step/max_steps": "2554/12700"}
{"lm loss": 2.19312501, "grad_norm": 0.47179168, "learning_rate": 9.406e-05, "elapsed_time_per_iteration": 4.81203389, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 23s", "remaining_time": "13h 47m 27s", "loss_scale": 1.0, "consumed_samples": 654080, "global_step/max_steps": "2555/12700"}
{"lm loss": 2.15830469, "grad_norm": 0.39415929, "learning_rate": 9.406e-05, "elapsed_time_per_iteration": 4.94034028, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 28s", "remaining_time": "13h 47m 22s", "loss_scale": 1.0, "consumed_samples": 654336, "global_step/max_steps": "2556/12700"}
{"lm loss": 2.15220308, "grad_norm": 0.42527923, "learning_rate": 9.405e-05, "elapsed_time_per_iteration": 4.81148076, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 33s", "remaining_time": "13h 47m 17s", "loss_scale": 1.0, "consumed_samples": 654592, "global_step/max_steps": "2557/12700"}
{"lm loss": 2.17430997, "grad_norm": 0.45937288, "learning_rate": 9.405e-05, "elapsed_time_per_iteration": 4.9246366, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 38s", "remaining_time": "13h 47m 12s", "loss_scale": 1.0, "consumed_samples": 654848, "global_step/max_steps": "2558/12700"}
{"lm loss": 2.17339253, "grad_norm": 0.47048193, "learning_rate": 9.404e-05, "elapsed_time_per_iteration": 4.88438702, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 43s", "remaining_time": "13h 47m 7s", "loss_scale": 1.0, "consumed_samples": 655104, "global_step/max_steps": "2559/12700"}
{"lm loss": 2.16998243, "grad_norm": 0.42586073, "learning_rate": 9.403e-05, "elapsed_time_per_iteration": 4.81012177, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 48s", "remaining_time": "13h 47m 2s", "loss_scale": 1.0, "consumed_samples": 655360, "global_step/max_steps": "2560/12700"}
{"lm loss": 2.14686441, "grad_norm": 0.42626488, "learning_rate": 9.403e-05, "elapsed_time_per_iteration": 4.92282486, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 52s", "remaining_time": "13h 46m 57s", "loss_scale": 1.0, "consumed_samples": 655616, "global_step/max_steps": "2561/12700"}
{"lm loss": 2.20185351, "grad_norm": 0.46890873, "learning_rate": 9.402e-05, "elapsed_time_per_iteration": 4.85993648, "memory(GiB)": 28.98, "elapsed_time": "3h 28m 57s", "remaining_time": "13h 46m 52s", "loss_scale": 1.0, "consumed_samples": 655872, "global_step/max_steps": "2562/12700"}
{"lm loss": 2.15815163, "grad_norm": 0.42275268, "learning_rate": 9.402e-05, "elapsed_time_per_iteration": 4.85578752, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 2s", "remaining_time": "13h 46m 47s", "loss_scale": 1.0, "consumed_samples": 656128, "global_step/max_steps": "2563/12700"}
{"lm loss": 2.1609621, "grad_norm": 0.42052805, "learning_rate": 9.401e-05, "elapsed_time_per_iteration": 4.85276031, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 7s", "remaining_time": "13h 46m 42s", "loss_scale": 1.0, "consumed_samples": 656384, "global_step/max_steps": "2564/12700"}
{"lm loss": 2.18776655, "grad_norm": 0.42834863, "learning_rate": 9.4e-05, "elapsed_time_per_iteration": 4.81067014, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 12s", "remaining_time": "13h 46m 37s", "loss_scale": 1.0, "consumed_samples": 656640, "global_step/max_steps": "2565/12700"}
{"lm loss": 2.17263961, "grad_norm": 0.46086684, "learning_rate": 9.4e-05, "elapsed_time_per_iteration": 4.83977461, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 17s", "remaining_time": "13h 46m 32s", "loss_scale": 1.0, "consumed_samples": 656896, "global_step/max_steps": "2566/12700"}
{"lm loss": 2.14920592, "grad_norm": 0.38657731, "learning_rate": 9.399e-05, "elapsed_time_per_iteration": 4.87688303, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 22s", "remaining_time": "13h 46m 27s", "loss_scale": 1.0, "consumed_samples": 657152, "global_step/max_steps": "2567/12700"}
{"lm loss": 2.18349338, "grad_norm": 0.50690806, "learning_rate": 9.399e-05, "elapsed_time_per_iteration": 4.82738161, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 26s", "remaining_time": "13h 46m 22s", "loss_scale": 1.0, "consumed_samples": 657408, "global_step/max_steps": "2568/12700"}
{"lm loss": 2.19657397, "grad_norm": 0.39192623, "learning_rate": 9.398e-05, "elapsed_time_per_iteration": 4.83610606, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 31s", "remaining_time": "13h 46m 17s", "loss_scale": 1.0, "consumed_samples": 657664, "global_step/max_steps": "2569/12700"}
{"lm loss": 2.13619423, "grad_norm": 0.4346436, "learning_rate": 9.397e-05, "elapsed_time_per_iteration": 4.94027781, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 36s", "remaining_time": "13h 46m 12s", "loss_scale": 1.0, "consumed_samples": 657920, "global_step/max_steps": "2570/12700"}
{"lm loss": 2.16496944, "grad_norm": 0.44567966, "learning_rate": 9.397e-05, "elapsed_time_per_iteration": 4.97678709, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 41s", "remaining_time": "13h 46m 7s", "loss_scale": 1.0, "consumed_samples": 658176, "global_step/max_steps": "2571/12700"}
{"lm loss": 2.17797923, "grad_norm": 0.41128331, "learning_rate": 9.396e-05, "elapsed_time_per_iteration": 4.84540153, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 46s", "remaining_time": "13h 46m 2s", "loss_scale": 1.0, "consumed_samples": 658432, "global_step/max_steps": "2572/12700"}
{"lm loss": 2.13367653, "grad_norm": 0.40513945, "learning_rate": 9.395e-05, "elapsed_time_per_iteration": 4.92263651, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 51s", "remaining_time": "13h 45m 58s", "loss_scale": 1.0, "consumed_samples": 658688, "global_step/max_steps": "2573/12700"}
{"lm loss": 2.17895532, "grad_norm": 0.47802252, "learning_rate": 9.395e-05, "elapsed_time_per_iteration": 4.8226738, "memory(GiB)": 28.98, "elapsed_time": "3h 29m 56s", "remaining_time": "13h 45m 52s", "loss_scale": 1.0, "consumed_samples": 658944, "global_step/max_steps": "2574/12700"}
{"lm loss": 2.21287417, "grad_norm": 0.39998612, "learning_rate": 9.394e-05, "elapsed_time_per_iteration": 4.93439937, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 1s", "remaining_time": "13h 45m 48s", "loss_scale": 1.0, "consumed_samples": 659200, "global_step/max_steps": "2575/12700"}
{"lm loss": 2.15505195, "grad_norm": 0.45022264, "learning_rate": 9.394e-05, "elapsed_time_per_iteration": 4.79845762, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 5s", "remaining_time": "13h 45m 42s", "loss_scale": 1.0, "consumed_samples": 659456, "global_step/max_steps": "2576/12700"}
{"lm loss": 2.16124153, "grad_norm": 0.4149738, "learning_rate": 9.393e-05, "elapsed_time_per_iteration": 4.8306067, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 10s", "remaining_time": "13h 45m 37s", "loss_scale": 1.0, "consumed_samples": 659712, "global_step/max_steps": "2577/12700"}
{"lm loss": 2.14881301, "grad_norm": 0.41021749, "learning_rate": 9.392e-05, "elapsed_time_per_iteration": 4.82834649, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 15s", "remaining_time": "13h 45m 32s", "loss_scale": 1.0, "consumed_samples": 659968, "global_step/max_steps": "2578/12700"}
{"lm loss": 2.15799308, "grad_norm": 0.45136043, "learning_rate": 9.392e-05, "elapsed_time_per_iteration": 4.87324715, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 20s", "remaining_time": "13h 45m 27s", "loss_scale": 1.0, "consumed_samples": 660224, "global_step/max_steps": "2579/12700"}
{"lm loss": 2.17532849, "grad_norm": 0.4193756, "learning_rate": 9.391e-05, "elapsed_time_per_iteration": 4.83321118, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 25s", "remaining_time": "13h 45m 22s", "loss_scale": 1.0, "consumed_samples": 660480, "global_step/max_steps": "2580/12700"}
{"lm loss": 2.15518928, "grad_norm": 0.48093921, "learning_rate": 9.391e-05, "elapsed_time_per_iteration": 5.04668784, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 30s", "remaining_time": "13h 45m 18s", "loss_scale": 1.0, "consumed_samples": 660736, "global_step/max_steps": "2581/12700"}
{"lm loss": 2.15092587, "grad_norm": 0.45365715, "learning_rate": 9.39e-05, "elapsed_time_per_iteration": 4.85402393, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 35s", "remaining_time": "13h 45m 13s", "loss_scale": 1.0, "consumed_samples": 660992, "global_step/max_steps": "2582/12700"}
{"lm loss": 2.18050861, "grad_norm": 0.45541555, "learning_rate": 9.389e-05, "elapsed_time_per_iteration": 4.86161208, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 40s", "remaining_time": "13h 45m 8s", "loss_scale": 1.0, "consumed_samples": 661248, "global_step/max_steps": "2583/12700"}
{"lm loss": 2.17282939, "grad_norm": 0.42746848, "learning_rate": 9.389e-05, "elapsed_time_per_iteration": 4.8946774, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 44s", "remaining_time": "13h 45m 3s", "loss_scale": 1.0, "consumed_samples": 661504, "global_step/max_steps": "2584/12700"}
{"lm loss": 2.17867947, "grad_norm": 0.43967956, "learning_rate": 9.388e-05, "elapsed_time_per_iteration": 4.87761378, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 49s", "remaining_time": "13h 44m 58s", "loss_scale": 1.0, "consumed_samples": 661760, "global_step/max_steps": "2585/12700"}
{"lm loss": 2.22416115, "grad_norm": 0.43599892, "learning_rate": 9.387e-05, "elapsed_time_per_iteration": 4.84406877, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 54s", "remaining_time": "13h 44m 53s", "loss_scale": 1.0, "consumed_samples": 662016, "global_step/max_steps": "2586/12700"}
{"lm loss": 2.14287925, "grad_norm": 0.45704162, "learning_rate": 9.387e-05, "elapsed_time_per_iteration": 4.821661, "memory(GiB)": 28.98, "elapsed_time": "3h 30m 59s", "remaining_time": "13h 44m 48s", "loss_scale": 1.0, "consumed_samples": 662272, "global_step/max_steps": "2587/12700"}
{"lm loss": 2.14341354, "grad_norm": 0.45812288, "learning_rate": 9.386e-05, "elapsed_time_per_iteration": 4.87406135, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 4s", "remaining_time": "13h 44m 43s", "loss_scale": 1.0, "consumed_samples": 662528, "global_step/max_steps": "2588/12700"}
{"lm loss": 2.17245126, "grad_norm": 0.39459747, "learning_rate": 9.386e-05, "elapsed_time_per_iteration": 4.7951498, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 9s", "remaining_time": "13h 44m 37s", "loss_scale": 1.0, "consumed_samples": 662784, "global_step/max_steps": "2589/12700"}
{"lm loss": 2.13493395, "grad_norm": 0.47293466, "learning_rate": 9.385e-05, "elapsed_time_per_iteration": 4.86914563, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 14s", "remaining_time": "13h 44m 32s", "loss_scale": 1.0, "consumed_samples": 663040, "global_step/max_steps": "2590/12700"}
{"lm loss": 2.17909813, "grad_norm": 0.44719255, "learning_rate": 9.384e-05, "elapsed_time_per_iteration": 4.91411567, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 18s", "remaining_time": "13h 44m 27s", "loss_scale": 1.0, "consumed_samples": 663296, "global_step/max_steps": "2591/12700"}
{"lm loss": 2.20084119, "grad_norm": 0.45302919, "learning_rate": 9.384e-05, "elapsed_time_per_iteration": 4.87115955, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 23s", "remaining_time": "13h 44m 23s", "loss_scale": 1.0, "consumed_samples": 663552, "global_step/max_steps": "2592/12700"}
{"lm loss": 2.18539929, "grad_norm": 0.40672246, "learning_rate": 9.383e-05, "elapsed_time_per_iteration": 4.87323546, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 28s", "remaining_time": "13h 44m 18s", "loss_scale": 1.0, "consumed_samples": 663808, "global_step/max_steps": "2593/12700"}
{"lm loss": 2.20915842, "grad_norm": 0.42283896, "learning_rate": 9.383e-05, "elapsed_time_per_iteration": 4.79116011, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 33s", "remaining_time": "13h 44m 12s", "loss_scale": 1.0, "consumed_samples": 664064, "global_step/max_steps": "2594/12700"}
{"lm loss": 2.17803478, "grad_norm": 0.44526908, "learning_rate": 9.382e-05, "elapsed_time_per_iteration": 4.91426206, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 38s", "remaining_time": "13h 44m 7s", "loss_scale": 1.0, "consumed_samples": 664320, "global_step/max_steps": "2595/12700"}
{"lm loss": 2.17664838, "grad_norm": 0.46218708, "learning_rate": 9.381e-05, "elapsed_time_per_iteration": 4.84833837, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 43s", "remaining_time": "13h 44m 2s", "loss_scale": 1.0, "consumed_samples": 664576, "global_step/max_steps": "2596/12700"}
{"lm loss": 2.16978645, "grad_norm": 0.43682909, "learning_rate": 9.381e-05, "elapsed_time_per_iteration": 4.84500003, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 48s", "remaining_time": "13h 43m 57s", "loss_scale": 1.0, "consumed_samples": 664832, "global_step/max_steps": "2597/12700"}
{"lm loss": 2.15543652, "grad_norm": 0.45595878, "learning_rate": 9.38e-05, "elapsed_time_per_iteration": 4.8658998, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 52s", "remaining_time": "13h 43m 52s", "loss_scale": 1.0, "consumed_samples": 665088, "global_step/max_steps": "2598/12700"}
{"lm loss": 2.21172166, "grad_norm": 0.47723117, "learning_rate": 9.379e-05, "elapsed_time_per_iteration": 4.83142185, "memory(GiB)": 28.98, "elapsed_time": "3h 31m 57s", "remaining_time": "13h 43m 47s", "loss_scale": 1.0, "consumed_samples": 665344, "global_step/max_steps": "2599/12700"}
{"lm loss": 2.15212321, "grad_norm": 0.41289011, "learning_rate": 9.379e-05, "elapsed_time_per_iteration": 4.80433822, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 2s", "remaining_time": "13h 43m 42s", "loss_scale": 1.0, "consumed_samples": 665600, "global_step/max_steps": "2600/12700"}
{"lm loss": 2.15906191, "grad_norm": 0.44830865, "learning_rate": 9.378e-05, "elapsed_time_per_iteration": 4.90904951, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 7s", "remaining_time": "13h 43m 37s", "loss_scale": 1.0, "consumed_samples": 665856, "global_step/max_steps": "2601/12700"}
{"lm loss": 2.18613625, "grad_norm": 0.44121918, "learning_rate": 9.378e-05, "elapsed_time_per_iteration": 4.89856005, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 12s", "remaining_time": "13h 43m 32s", "loss_scale": 1.0, "consumed_samples": 666112, "global_step/max_steps": "2602/12700"}
{"lm loss": 2.17481804, "grad_norm": 0.39533854, "learning_rate": 9.377e-05, "elapsed_time_per_iteration": 4.86337543, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 17s", "remaining_time": "13h 43m 27s", "loss_scale": 1.0, "consumed_samples": 666368, "global_step/max_steps": "2603/12700"}
{"lm loss": 2.16691065, "grad_norm": 0.42759547, "learning_rate": 9.376e-05, "elapsed_time_per_iteration": 4.80025768, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 22s", "remaining_time": "13h 43m 22s", "loss_scale": 1.0, "consumed_samples": 666624, "global_step/max_steps": "2604/12700"}
{"lm loss": 2.16217804, "grad_norm": 0.46050796, "learning_rate": 9.376e-05, "elapsed_time_per_iteration": 4.84816313, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 26s", "remaining_time": "13h 43m 17s", "loss_scale": 1.0, "consumed_samples": 666880, "global_step/max_steps": "2605/12700"}
{"lm loss": 2.14629149, "grad_norm": 0.38615876, "learning_rate": 9.375e-05, "elapsed_time_per_iteration": 4.88768601, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 31s", "remaining_time": "13h 43m 12s", "loss_scale": 1.0, "consumed_samples": 667136, "global_step/max_steps": "2606/12700"}
{"lm loss": 2.15709519, "grad_norm": 0.40007228, "learning_rate": 9.375e-05, "elapsed_time_per_iteration": 4.77449107, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 36s", "remaining_time": "13h 43m 7s", "loss_scale": 1.0, "consumed_samples": 667392, "global_step/max_steps": "2607/12700"}
{"lm loss": 2.17167354, "grad_norm": 0.40363917, "learning_rate": 9.374e-05, "elapsed_time_per_iteration": 4.86675239, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 41s", "remaining_time": "13h 43m 2s", "loss_scale": 1.0, "consumed_samples": 667648, "global_step/max_steps": "2608/12700"}
{"lm loss": 2.16767168, "grad_norm": 0.39867654, "learning_rate": 9.373e-05, "elapsed_time_per_iteration": 4.99439359, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 46s", "remaining_time": "13h 42m 57s", "loss_scale": 1.0, "consumed_samples": 667904, "global_step/max_steps": "2609/12700"}
{"lm loss": 2.1566577, "grad_norm": 0.4467417, "learning_rate": 9.373e-05, "elapsed_time_per_iteration": 4.8823843, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 51s", "remaining_time": "13h 42m 52s", "loss_scale": 1.0, "consumed_samples": 668160, "global_step/max_steps": "2610/12700"}
{"lm loss": 2.16240907, "grad_norm": 0.3954176, "learning_rate": 9.372e-05, "elapsed_time_per_iteration": 4.86002779, "memory(GiB)": 28.98, "elapsed_time": "3h 32m 56s", "remaining_time": "13h 42m 47s", "loss_scale": 1.0, "consumed_samples": 668416, "global_step/max_steps": "2611/12700"}
{"lm loss": 2.20471358, "grad_norm": 0.42425191, "learning_rate": 9.371e-05, "elapsed_time_per_iteration": 4.81156778, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 0s", "remaining_time": "13h 42m 42s", "loss_scale": 1.0, "consumed_samples": 668672, "global_step/max_steps": "2612/12700"}
{"lm loss": 2.19961476, "grad_norm": 0.42905647, "learning_rate": 9.371e-05, "elapsed_time_per_iteration": 4.98600173, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 5s", "remaining_time": "13h 42m 37s", "loss_scale": 1.0, "consumed_samples": 668928, "global_step/max_steps": "2613/12700"}
{"lm loss": 2.18588376, "grad_norm": 0.4131369, "learning_rate": 9.37e-05, "elapsed_time_per_iteration": 4.8709023, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 10s", "remaining_time": "13h 42m 32s", "loss_scale": 1.0, "consumed_samples": 669184, "global_step/max_steps": "2614/12700"}
{"lm loss": 2.18579865, "grad_norm": 0.40772846, "learning_rate": 9.37e-05, "elapsed_time_per_iteration": 4.9140017, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 15s", "remaining_time": "13h 42m 28s", "loss_scale": 1.0, "consumed_samples": 669440, "global_step/max_steps": "2615/12700"}
{"lm loss": 2.16597581, "grad_norm": 0.43445867, "learning_rate": 9.369e-05, "elapsed_time_per_iteration": 4.89615798, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 20s", "remaining_time": "13h 42m 23s", "loss_scale": 1.0, "consumed_samples": 669696, "global_step/max_steps": "2616/12700"}
{"lm loss": 2.19042325, "grad_norm": 0.45500892, "learning_rate": 9.368e-05, "elapsed_time_per_iteration": 4.99011159, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 25s", "remaining_time": "13h 42m 18s", "loss_scale": 1.0, "consumed_samples": 669952, "global_step/max_steps": "2617/12700"}
{"lm loss": 2.17727685, "grad_norm": 0.42850778, "learning_rate": 9.368e-05, "elapsed_time_per_iteration": 4.82923746, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 30s", "remaining_time": "13h 42m 13s", "loss_scale": 1.0, "consumed_samples": 670208, "global_step/max_steps": "2618/12700"}
{"lm loss": 2.12812233, "grad_norm": 0.45384902, "learning_rate": 9.367e-05, "elapsed_time_per_iteration": 4.89836907, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 35s", "remaining_time": "13h 42m 8s", "loss_scale": 1.0, "consumed_samples": 670464, "global_step/max_steps": "2619/12700"}
{"lm loss": 2.17148638, "grad_norm": 0.47234139, "learning_rate": 9.366e-05, "elapsed_time_per_iteration": 4.91652203, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 40s", "remaining_time": "13h 42m 3s", "loss_scale": 1.0, "consumed_samples": 670720, "global_step/max_steps": "2620/12700"}
{"lm loss": 2.18307543, "grad_norm": 0.47044802, "learning_rate": 9.366e-05, "elapsed_time_per_iteration": 4.87612677, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 45s", "remaining_time": "13h 41m 58s", "loss_scale": 1.0, "consumed_samples": 670976, "global_step/max_steps": "2621/12700"}
{"lm loss": 2.15811276, "grad_norm": 0.44092816, "learning_rate": 9.365e-05, "elapsed_time_per_iteration": 4.81671882, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 49s", "remaining_time": "13h 41m 53s", "loss_scale": 1.0, "consumed_samples": 671232, "global_step/max_steps": "2622/12700"}
{"lm loss": 2.16785645, "grad_norm": 0.51927757, "learning_rate": 9.365e-05, "elapsed_time_per_iteration": 4.89046574, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 54s", "remaining_time": "13h 41m 48s", "loss_scale": 1.0, "consumed_samples": 671488, "global_step/max_steps": "2623/12700"}
{"lm loss": 2.17610216, "grad_norm": 0.43484372, "learning_rate": 9.364e-05, "elapsed_time_per_iteration": 4.84084916, "memory(GiB)": 28.98, "elapsed_time": "3h 33m 59s", "remaining_time": "13h 41m 43s", "loss_scale": 1.0, "consumed_samples": 671744, "global_step/max_steps": "2624/12700"}
{"lm loss": 2.15852714, "grad_norm": 0.49154133, "learning_rate": 9.363e-05, "elapsed_time_per_iteration": 4.86405873, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 4s", "remaining_time": "13h 41m 38s", "loss_scale": 1.0, "consumed_samples": 672000, "global_step/max_steps": "2625/12700"}
{"lm loss": 2.17727399, "grad_norm": 0.51380724, "learning_rate": 9.363e-05, "elapsed_time_per_iteration": 4.84480715, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 9s", "remaining_time": "13h 41m 33s", "loss_scale": 1.0, "consumed_samples": 672256, "global_step/max_steps": "2626/12700"}
{"lm loss": 2.17291784, "grad_norm": 0.46813232, "learning_rate": 9.362e-05, "elapsed_time_per_iteration": 4.83899617, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 14s", "remaining_time": "13h 41m 28s", "loss_scale": 1.0, "consumed_samples": 672512, "global_step/max_steps": "2627/12700"}
{"lm loss": 2.19072437, "grad_norm": 0.42722088, "learning_rate": 9.361e-05, "elapsed_time_per_iteration": 4.82686615, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 19s", "remaining_time": "13h 41m 23s", "loss_scale": 1.0, "consumed_samples": 672768, "global_step/max_steps": "2628/12700"}
{"lm loss": 2.20995283, "grad_norm": 0.47982863, "learning_rate": 9.361e-05, "elapsed_time_per_iteration": 4.86674166, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 23s", "remaining_time": "13h 41m 18s", "loss_scale": 1.0, "consumed_samples": 673024, "global_step/max_steps": "2629/12700"}
{"lm loss": 2.17375803, "grad_norm": 0.43227389, "learning_rate": 9.36e-05, "elapsed_time_per_iteration": 4.83327341, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 28s", "remaining_time": "13h 41m 13s", "loss_scale": 1.0, "consumed_samples": 673280, "global_step/max_steps": "2630/12700"}
{"lm loss": 2.17100692, "grad_norm": 0.44024679, "learning_rate": 9.36e-05, "elapsed_time_per_iteration": 4.87051439, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 33s", "remaining_time": "13h 41m 8s", "loss_scale": 1.0, "consumed_samples": 673536, "global_step/max_steps": "2631/12700"}
{"lm loss": 2.17389131, "grad_norm": 0.46146306, "learning_rate": 9.359e-05, "elapsed_time_per_iteration": 4.90764117, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 38s", "remaining_time": "13h 41m 3s", "loss_scale": 1.0, "consumed_samples": 673792, "global_step/max_steps": "2632/12700"}
{"lm loss": 2.17753887, "grad_norm": 0.41979086, "learning_rate": 9.358e-05, "elapsed_time_per_iteration": 4.80479383, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 43s", "remaining_time": "13h 40m 58s", "loss_scale": 1.0, "consumed_samples": 674048, "global_step/max_steps": "2633/12700"}
{"lm loss": 2.18052006, "grad_norm": 0.42132974, "learning_rate": 9.358e-05, "elapsed_time_per_iteration": 4.8245616, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 48s", "remaining_time": "13h 40m 53s", "loss_scale": 1.0, "consumed_samples": 674304, "global_step/max_steps": "2634/12700"}
{"lm loss": 2.14789343, "grad_norm": 0.44959036, "learning_rate": 9.357e-05, "elapsed_time_per_iteration": 4.80165339, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 53s", "remaining_time": "13h 40m 47s", "loss_scale": 1.0, "consumed_samples": 674560, "global_step/max_steps": "2635/12700"}
{"lm loss": 2.14908838, "grad_norm": 0.42287061, "learning_rate": 9.356e-05, "elapsed_time_per_iteration": 4.88806295, "memory(GiB)": 28.98, "elapsed_time": "3h 34m 57s", "remaining_time": "13h 40m 42s", "loss_scale": 1.0, "consumed_samples": 674816, "global_step/max_steps": "2636/12700"}
{"lm loss": 2.18355083, "grad_norm": 0.39931741, "learning_rate": 9.356e-05, "elapsed_time_per_iteration": 4.82796526, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 2s", "remaining_time": "13h 40m 37s", "loss_scale": 1.0, "consumed_samples": 675072, "global_step/max_steps": "2637/12700"}
{"lm loss": 2.15982389, "grad_norm": 0.44964582, "learning_rate": 9.355e-05, "elapsed_time_per_iteration": 4.82719374, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 7s", "remaining_time": "13h 40m 32s", "loss_scale": 1.0, "consumed_samples": 675328, "global_step/max_steps": "2638/12700"}
{"lm loss": 2.14314914, "grad_norm": 0.41497782, "learning_rate": 9.355e-05, "elapsed_time_per_iteration": 4.96920085, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 12s", "remaining_time": "13h 40m 28s", "loss_scale": 1.0, "consumed_samples": 675584, "global_step/max_steps": "2639/12700"}
{"lm loss": 2.14586163, "grad_norm": 0.42663559, "learning_rate": 9.354e-05, "elapsed_time_per_iteration": 4.92477012, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 17s", "remaining_time": "13h 40m 23s", "loss_scale": 1.0, "consumed_samples": 675840, "global_step/max_steps": "2640/12700"}
{"lm loss": 2.16330886, "grad_norm": 0.39995959, "learning_rate": 9.353e-05, "elapsed_time_per_iteration": 4.80187345, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 22s", "remaining_time": "13h 40m 18s", "loss_scale": 1.0, "consumed_samples": 676096, "global_step/max_steps": "2641/12700"}
{"lm loss": 2.16604686, "grad_norm": 0.4171629, "learning_rate": 9.353e-05, "elapsed_time_per_iteration": 4.80229425, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 27s", "remaining_time": "13h 40m 12s", "loss_scale": 1.0, "consumed_samples": 676352, "global_step/max_steps": "2642/12700"}
{"lm loss": 2.17502022, "grad_norm": 0.44409171, "learning_rate": 9.352e-05, "elapsed_time_per_iteration": 4.96362448, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 32s", "remaining_time": "13h 40m 8s", "loss_scale": 1.0, "consumed_samples": 676608, "global_step/max_steps": "2643/12700"}
{"lm loss": 2.2036593, "grad_norm": 0.41629514, "learning_rate": 9.351e-05, "elapsed_time_per_iteration": 4.78929353, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 36s", "remaining_time": "13h 40m 2s", "loss_scale": 1.0, "consumed_samples": 676864, "global_step/max_steps": "2644/12700"}
{"lm loss": 2.16685653, "grad_norm": 0.4207063, "learning_rate": 9.351e-05, "elapsed_time_per_iteration": 4.95645308, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 41s", "remaining_time": "13h 39m 58s", "loss_scale": 1.0, "consumed_samples": 677120, "global_step/max_steps": "2645/12700"}
{"lm loss": 2.15422058, "grad_norm": 0.45147997, "learning_rate": 9.35e-05, "elapsed_time_per_iteration": 4.80450749, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 46s", "remaining_time": "13h 39m 53s", "loss_scale": 1.0, "consumed_samples": 677376, "global_step/max_steps": "2646/12700"}
{"lm loss": 2.12428951, "grad_norm": 0.45021358, "learning_rate": 9.349e-05, "elapsed_time_per_iteration": 4.8696959, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 51s", "remaining_time": "13h 39m 48s", "loss_scale": 1.0, "consumed_samples": 677632, "global_step/max_steps": "2647/12700"}
{"lm loss": 2.18168831, "grad_norm": 0.40760526, "learning_rate": 9.349e-05, "elapsed_time_per_iteration": 4.9098475, "memory(GiB)": 28.98, "elapsed_time": "3h 35m 56s", "remaining_time": "13h 39m 43s", "loss_scale": 1.0, "consumed_samples": 677888, "global_step/max_steps": "2648/12700"}
{"lm loss": 2.17149282, "grad_norm": 0.45248553, "learning_rate": 9.348e-05, "elapsed_time_per_iteration": 4.96572876, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 1s", "remaining_time": "13h 39m 38s", "loss_scale": 1.0, "consumed_samples": 678144, "global_step/max_steps": "2649/12700"}
{"lm loss": 2.1565423, "grad_norm": 0.43253359, "learning_rate": 9.348e-05, "elapsed_time_per_iteration": 4.91748118, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 6s", "remaining_time": "13h 39m 33s", "loss_scale": 1.0, "consumed_samples": 678400, "global_step/max_steps": "2650/12700"}
{"lm loss": 2.17304587, "grad_norm": 0.42757699, "learning_rate": 9.347e-05, "elapsed_time_per_iteration": 4.89850211, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 11s", "remaining_time": "13h 39m 28s", "loss_scale": 1.0, "consumed_samples": 678656, "global_step/max_steps": "2651/12700"}
{"lm loss": 2.17283106, "grad_norm": 0.42055175, "learning_rate": 9.346e-05, "elapsed_time_per_iteration": 4.83734608, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 15s", "remaining_time": "13h 39m 23s", "loss_scale": 1.0, "consumed_samples": 678912, "global_step/max_steps": "2652/12700"}
{"lm loss": 2.19323373, "grad_norm": 0.45294961, "learning_rate": 9.346e-05, "elapsed_time_per_iteration": 4.90162516, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 20s", "remaining_time": "13h 39m 18s", "loss_scale": 1.0, "consumed_samples": 679168, "global_step/max_steps": "2653/12700"}
{"lm loss": 2.18274999, "grad_norm": 0.39232504, "learning_rate": 9.345e-05, "elapsed_time_per_iteration": 4.92241573, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 25s", "remaining_time": "13h 39m 14s", "loss_scale": 1.0, "consumed_samples": 679424, "global_step/max_steps": "2654/12700"}
{"lm loss": 2.16736913, "grad_norm": 0.41056931, "learning_rate": 9.344e-05, "elapsed_time_per_iteration": 4.83812261, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 30s", "remaining_time": "13h 39m 9s", "loss_scale": 1.0, "consumed_samples": 679680, "global_step/max_steps": "2655/12700"}
{"lm loss": 2.17206216, "grad_norm": 0.42558968, "learning_rate": 9.344e-05, "elapsed_time_per_iteration": 4.8302021, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 35s", "remaining_time": "13h 39m 3s", "loss_scale": 1.0, "consumed_samples": 679936, "global_step/max_steps": "2656/12700"}
{"lm loss": 2.18068075, "grad_norm": 0.43539181, "learning_rate": 9.343e-05, "elapsed_time_per_iteration": 4.95920134, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 40s", "remaining_time": "13h 38m 59s", "loss_scale": 1.0, "consumed_samples": 680192, "global_step/max_steps": "2657/12700"}
{"lm loss": 2.17200351, "grad_norm": 0.40023872, "learning_rate": 9.343e-05, "elapsed_time_per_iteration": 4.87534499, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 45s", "remaining_time": "13h 38m 54s", "loss_scale": 1.0, "consumed_samples": 680448, "global_step/max_steps": "2658/12700"}
{"lm loss": 2.15709949, "grad_norm": 0.50062513, "learning_rate": 9.342e-05, "elapsed_time_per_iteration": 4.87507343, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 50s", "remaining_time": "13h 38m 49s", "loss_scale": 1.0, "consumed_samples": 680704, "global_step/max_steps": "2659/12700"}
{"lm loss": 2.16314912, "grad_norm": 0.41469756, "learning_rate": 9.341e-05, "elapsed_time_per_iteration": 4.92541504, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 55s", "remaining_time": "13h 38m 44s", "loss_scale": 1.0, "consumed_samples": 680960, "global_step/max_steps": "2660/12700"}
{"lm loss": 2.15529895, "grad_norm": 0.46263534, "learning_rate": 9.341e-05, "elapsed_time_per_iteration": 4.82269335, "memory(GiB)": 28.98, "elapsed_time": "3h 36m 59s", "remaining_time": "13h 38m 39s", "loss_scale": 1.0, "consumed_samples": 681216, "global_step/max_steps": "2661/12700"}
{"lm loss": 2.15710378, "grad_norm": 0.47885713, "learning_rate": 9.34e-05, "elapsed_time_per_iteration": 4.80780482, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 4s", "remaining_time": "13h 38m 34s", "loss_scale": 1.0, "consumed_samples": 681472, "global_step/max_steps": "2662/12700"}
{"lm loss": 2.17548108, "grad_norm": 0.41935056, "learning_rate": 9.339e-05, "elapsed_time_per_iteration": 4.82778478, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 9s", "remaining_time": "13h 38m 29s", "loss_scale": 1.0, "consumed_samples": 681728, "global_step/max_steps": "2663/12700"}
{"lm loss": 2.20355844, "grad_norm": 0.46751186, "learning_rate": 9.339e-05, "elapsed_time_per_iteration": 4.86380553, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 14s", "remaining_time": "13h 38m 24s", "loss_scale": 1.0, "consumed_samples": 681984, "global_step/max_steps": "2664/12700"}
{"lm loss": 2.17661309, "grad_norm": 0.43395269, "learning_rate": 9.338e-05, "elapsed_time_per_iteration": 4.9532764, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 19s", "remaining_time": "13h 38m 19s", "loss_scale": 1.0, "consumed_samples": 682240, "global_step/max_steps": "2665/12700"}
{"lm loss": 2.18302464, "grad_norm": 0.43123162, "learning_rate": 9.337e-05, "elapsed_time_per_iteration": 4.89284992, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 24s", "remaining_time": "13h 38m 14s", "loss_scale": 1.0, "consumed_samples": 682496, "global_step/max_steps": "2666/12700"}
{"lm loss": 2.17263985, "grad_norm": 0.4571541, "learning_rate": 9.337e-05, "elapsed_time_per_iteration": 4.79988575, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 29s", "remaining_time": "13h 38m 9s", "loss_scale": 1.0, "consumed_samples": 682752, "global_step/max_steps": "2667/12700"}
{"lm loss": 2.17490911, "grad_norm": 0.44649714, "learning_rate": 9.336e-05, "elapsed_time_per_iteration": 4.89415979, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 33s", "remaining_time": "13h 38m 4s", "loss_scale": 1.0, "consumed_samples": 683008, "global_step/max_steps": "2668/12700"}
{"lm loss": 2.17104435, "grad_norm": 0.4191893, "learning_rate": 9.336e-05, "elapsed_time_per_iteration": 4.97660279, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 38s", "remaining_time": "13h 37m 59s", "loss_scale": 1.0, "consumed_samples": 683264, "global_step/max_steps": "2669/12700"}
{"lm loss": 2.17725563, "grad_norm": 0.4535844, "learning_rate": 9.335e-05, "elapsed_time_per_iteration": 4.88186121, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 43s", "remaining_time": "13h 37m 54s", "loss_scale": 1.0, "consumed_samples": 683520, "global_step/max_steps": "2670/12700"}
{"lm loss": 2.18436003, "grad_norm": 0.39134154, "learning_rate": 9.334e-05, "elapsed_time_per_iteration": 4.84634089, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 48s", "remaining_time": "13h 37m 49s", "loss_scale": 1.0, "consumed_samples": 683776, "global_step/max_steps": "2671/12700"}
{"lm loss": 2.13577104, "grad_norm": 0.41830471, "learning_rate": 9.334e-05, "elapsed_time_per_iteration": 4.90208554, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 53s", "remaining_time": "13h 37m 44s", "loss_scale": 1.0, "consumed_samples": 684032, "global_step/max_steps": "2672/12700"}
{"lm loss": 2.19211578, "grad_norm": 0.46548748, "learning_rate": 9.333e-05, "elapsed_time_per_iteration": 4.90045404, "memory(GiB)": 28.98, "elapsed_time": "3h 37m 58s", "remaining_time": "13h 37m 40s", "loss_scale": 1.0, "consumed_samples": 684288, "global_step/max_steps": "2673/12700"}
{"lm loss": 2.19005823, "grad_norm": 0.42257038, "learning_rate": 9.332e-05, "elapsed_time_per_iteration": 4.789433, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 3s", "remaining_time": "13h 37m 34s", "loss_scale": 1.0, "consumed_samples": 684544, "global_step/max_steps": "2674/12700"}
{"lm loss": 2.15782332, "grad_norm": 0.44218159, "learning_rate": 9.332e-05, "elapsed_time_per_iteration": 4.85852313, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 8s", "remaining_time": "13h 37m 29s", "loss_scale": 1.0, "consumed_samples": 684800, "global_step/max_steps": "2675/12700"}
{"lm loss": 2.17163253, "grad_norm": 0.42815596, "learning_rate": 9.331e-05, "elapsed_time_per_iteration": 4.85020661, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 12s", "remaining_time": "13h 37m 24s", "loss_scale": 1.0, "consumed_samples": 685056, "global_step/max_steps": "2676/12700"}
{"lm loss": 2.16467667, "grad_norm": 0.44126791, "learning_rate": 9.33e-05, "elapsed_time_per_iteration": 4.747159, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 17s", "remaining_time": "13h 37m 19s", "loss_scale": 1.0, "consumed_samples": 685312, "global_step/max_steps": "2677/12700"}
{"lm loss": 2.18671823, "grad_norm": 0.38119307, "learning_rate": 9.33e-05, "elapsed_time_per_iteration": 4.92026806, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 22s", "remaining_time": "13h 37m 14s", "loss_scale": 1.0, "consumed_samples": 685568, "global_step/max_steps": "2678/12700"}
{"lm loss": 2.19195557, "grad_norm": 0.42727444, "learning_rate": 9.329e-05, "elapsed_time_per_iteration": 4.86097288, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 27s", "remaining_time": "13h 37m 9s", "loss_scale": 1.0, "consumed_samples": 685824, "global_step/max_steps": "2679/12700"}
{"lm loss": 2.17616224, "grad_norm": 0.39459452, "learning_rate": 9.328e-05, "elapsed_time_per_iteration": 4.95391941, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 32s", "remaining_time": "13h 37m 4s", "loss_scale": 1.0, "consumed_samples": 686080, "global_step/max_steps": "2680/12700"}
{"lm loss": 2.18258119, "grad_norm": 0.3671506, "learning_rate": 9.328e-05, "elapsed_time_per_iteration": 4.86550426, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 37s", "remaining_time": "13h 36m 59s", "loss_scale": 1.0, "consumed_samples": 686336, "global_step/max_steps": "2681/12700"}
{"lm loss": 2.15648818, "grad_norm": 0.45040035, "learning_rate": 9.327e-05, "elapsed_time_per_iteration": 4.78983378, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 42s", "remaining_time": "13h 36m 54s", "loss_scale": 1.0, "consumed_samples": 686592, "global_step/max_steps": "2682/12700"}
{"lm loss": 2.15922713, "grad_norm": 0.43507299, "learning_rate": 9.327e-05, "elapsed_time_per_iteration": 4.90542912, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 46s", "remaining_time": "13h 36m 49s", "loss_scale": 1.0, "consumed_samples": 686848, "global_step/max_steps": "2683/12700"}
{"lm loss": 2.15913105, "grad_norm": 0.42277369, "learning_rate": 9.326e-05, "elapsed_time_per_iteration": 4.79711127, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 51s", "remaining_time": "13h 36m 44s", "loss_scale": 1.0, "consumed_samples": 687104, "global_step/max_steps": "2684/12700"}
{"lm loss": 2.20124555, "grad_norm": 0.4215804, "learning_rate": 9.325e-05, "elapsed_time_per_iteration": 4.88365078, "memory(GiB)": 28.98, "elapsed_time": "3h 38m 56s", "remaining_time": "13h 36m 39s", "loss_scale": 1.0, "consumed_samples": 687360, "global_step/max_steps": "2685/12700"}
{"lm loss": 2.16593289, "grad_norm": 0.44415364, "learning_rate": 9.325e-05, "elapsed_time_per_iteration": 4.88642526, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 1s", "remaining_time": "13h 36m 34s", "loss_scale": 1.0, "consumed_samples": 687616, "global_step/max_steps": "2686/12700"}
{"lm loss": 2.16913366, "grad_norm": 0.43721545, "learning_rate": 9.324e-05, "elapsed_time_per_iteration": 4.8217783, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 6s", "remaining_time": "13h 36m 29s", "loss_scale": 1.0, "consumed_samples": 687872, "global_step/max_steps": "2687/12700"}
{"lm loss": 2.16946268, "grad_norm": 0.43579644, "learning_rate": 9.323e-05, "elapsed_time_per_iteration": 4.87383175, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 11s", "remaining_time": "13h 36m 24s", "loss_scale": 1.0, "consumed_samples": 688128, "global_step/max_steps": "2688/12700"}
{"lm loss": 2.15490627, "grad_norm": 0.46667832, "learning_rate": 9.323e-05, "elapsed_time_per_iteration": 4.89672327, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 16s", "remaining_time": "13h 36m 19s", "loss_scale": 1.0, "consumed_samples": 688384, "global_step/max_steps": "2689/12700"}
{"lm loss": 2.14539671, "grad_norm": 0.42449197, "learning_rate": 9.322e-05, "elapsed_time_per_iteration": 4.83659863, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 20s", "remaining_time": "13h 36m 14s", "loss_scale": 1.0, "consumed_samples": 688640, "global_step/max_steps": "2690/12700"}
{"lm loss": 2.18873215, "grad_norm": 0.43885687, "learning_rate": 9.321e-05, "elapsed_time_per_iteration": 4.84976029, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 25s", "remaining_time": "13h 36m 9s", "loss_scale": 1.0, "consumed_samples": 688896, "global_step/max_steps": "2691/12700"}
{"lm loss": 2.13482308, "grad_norm": 0.51290494, "learning_rate": 9.321e-05, "elapsed_time_per_iteration": 4.92858863, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 30s", "remaining_time": "13h 36m 4s", "loss_scale": 1.0, "consumed_samples": 689152, "global_step/max_steps": "2692/12700"}
{"lm loss": 2.13838911, "grad_norm": 0.48001146, "learning_rate": 9.32e-05, "elapsed_time_per_iteration": 4.8001647, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 35s", "remaining_time": "13h 35m 59s", "loss_scale": 1.0, "consumed_samples": 689408, "global_step/max_steps": "2693/12700"}
{"lm loss": 2.11489415, "grad_norm": 0.44442505, "learning_rate": 9.319e-05, "elapsed_time_per_iteration": 5.06266165, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 40s", "remaining_time": "13h 35m 55s", "loss_scale": 1.0, "consumed_samples": 689664, "global_step/max_steps": "2694/12700"}
{"lm loss": 2.15730286, "grad_norm": 0.44950679, "learning_rate": 9.319e-05, "elapsed_time_per_iteration": 4.90491438, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 45s", "remaining_time": "13h 35m 50s", "loss_scale": 1.0, "consumed_samples": 689920, "global_step/max_steps": "2695/12700"}
{"lm loss": 2.17902732, "grad_norm": 0.43132252, "learning_rate": 9.318e-05, "elapsed_time_per_iteration": 4.93920064, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 50s", "remaining_time": "13h 35m 45s", "loss_scale": 1.0, "consumed_samples": 690176, "global_step/max_steps": "2696/12700"}
{"lm loss": 2.17456412, "grad_norm": 0.42673323, "learning_rate": 9.318e-05, "elapsed_time_per_iteration": 4.79457021, "memory(GiB)": 28.98, "elapsed_time": "3h 39m 55s", "remaining_time": "13h 35m 40s", "loss_scale": 1.0, "consumed_samples": 690432, "global_step/max_steps": "2697/12700"}
{"lm loss": 2.17530274, "grad_norm": 0.44909334, "learning_rate": 9.317e-05, "elapsed_time_per_iteration": 4.87301755, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 0s", "remaining_time": "13h 35m 35s", "loss_scale": 1.0, "consumed_samples": 690688, "global_step/max_steps": "2698/12700"}
{"lm loss": 2.19905329, "grad_norm": 0.43202797, "learning_rate": 9.316e-05, "elapsed_time_per_iteration": 4.81850123, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 4s", "remaining_time": "13h 35m 30s", "loss_scale": 1.0, "consumed_samples": 690944, "global_step/max_steps": "2699/12700"}
{"lm loss": 2.17331433, "grad_norm": 0.42904052, "learning_rate": 9.316e-05, "elapsed_time_per_iteration": 4.8657856, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 9s", "remaining_time": "13h 35m 25s", "loss_scale": 1.0, "consumed_samples": 691200, "global_step/max_steps": "2700/12700"}
{"lm loss": 2.15198255, "grad_norm": 0.44443527, "learning_rate": 9.315e-05, "elapsed_time_per_iteration": 5.00248241, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 14s", "remaining_time": "13h 35m 20s", "loss_scale": 1.0, "consumed_samples": 691456, "global_step/max_steps": "2701/12700"}
{"lm loss": 2.12639785, "grad_norm": 0.40851754, "learning_rate": 9.314e-05, "elapsed_time_per_iteration": 4.88588428, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 19s", "remaining_time": "13h 35m 15s", "loss_scale": 1.0, "consumed_samples": 691712, "global_step/max_steps": "2702/12700"}
{"lm loss": 2.1437757, "grad_norm": 0.46830112, "learning_rate": 9.314e-05, "elapsed_time_per_iteration": 4.79191232, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 24s", "remaining_time": "13h 35m 10s", "loss_scale": 1.0, "consumed_samples": 691968, "global_step/max_steps": "2703/12700"}
{"lm loss": 2.13075399, "grad_norm": 0.41051829, "learning_rate": 9.313e-05, "elapsed_time_per_iteration": 4.87806082, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 29s", "remaining_time": "13h 35m 5s", "loss_scale": 1.0, "consumed_samples": 692224, "global_step/max_steps": "2704/12700"}
{"lm loss": 2.14961791, "grad_norm": 0.42154449, "learning_rate": 9.312e-05, "elapsed_time_per_iteration": 4.848001, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 34s", "remaining_time": "13h 35m 0s", "loss_scale": 1.0, "consumed_samples": 692480, "global_step/max_steps": "2705/12700"}
{"lm loss": 2.18327332, "grad_norm": 0.43829721, "learning_rate": 9.312e-05, "elapsed_time_per_iteration": 4.92706323, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 39s", "remaining_time": "13h 34m 55s", "loss_scale": 1.0, "consumed_samples": 692736, "global_step/max_steps": "2706/12700"}
{"lm loss": 2.13836265, "grad_norm": 0.41045424, "learning_rate": 9.311e-05, "elapsed_time_per_iteration": 4.87718821, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 44s", "remaining_time": "13h 34m 50s", "loss_scale": 1.0, "consumed_samples": 692992, "global_step/max_steps": "2707/12700"}
{"lm loss": 2.17870045, "grad_norm": 0.42406094, "learning_rate": 9.31e-05, "elapsed_time_per_iteration": 4.99818611, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 49s", "remaining_time": "13h 34m 46s", "loss_scale": 1.0, "consumed_samples": 693248, "global_step/max_steps": "2708/12700"}
{"lm loss": 2.17991877, "grad_norm": 0.43085152, "learning_rate": 9.31e-05, "elapsed_time_per_iteration": 4.85606337, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 53s", "remaining_time": "13h 34m 41s", "loss_scale": 1.0, "consumed_samples": 693504, "global_step/max_steps": "2709/12700"}
{"lm loss": 2.18426681, "grad_norm": 0.41243353, "learning_rate": 9.309e-05, "elapsed_time_per_iteration": 4.98796773, "memory(GiB)": 28.98, "elapsed_time": "3h 40m 58s", "remaining_time": "13h 34m 36s", "loss_scale": 1.0, "consumed_samples": 693760, "global_step/max_steps": "2710/12700"}
{"lm loss": 2.17880654, "grad_norm": 0.43020135, "learning_rate": 9.308e-05, "elapsed_time_per_iteration": 4.94079924, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 3s", "remaining_time": "13h 34m 32s", "loss_scale": 1.0, "consumed_samples": 694016, "global_step/max_steps": "2711/12700"}
{"lm loss": 2.18729234, "grad_norm": 0.4384971, "learning_rate": 9.308e-05, "elapsed_time_per_iteration": 4.85285783, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 8s", "remaining_time": "13h 34m 27s", "loss_scale": 1.0, "consumed_samples": 694272, "global_step/max_steps": "2712/12700"}
{"lm loss": 2.19863534, "grad_norm": 0.3716982, "learning_rate": 9.307e-05, "elapsed_time_per_iteration": 4.80332279, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 13s", "remaining_time": "13h 34m 21s", "loss_scale": 1.0, "consumed_samples": 694528, "global_step/max_steps": "2713/12700"}
{"lm loss": 2.17611527, "grad_norm": 0.44823256, "learning_rate": 9.307e-05, "elapsed_time_per_iteration": 4.84649181, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 18s", "remaining_time": "13h 34m 16s", "loss_scale": 1.0, "consumed_samples": 694784, "global_step/max_steps": "2714/12700"}
{"lm loss": 2.19294143, "grad_norm": 0.3885639, "learning_rate": 9.306e-05, "elapsed_time_per_iteration": 4.85720229, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 23s", "remaining_time": "13h 34m 11s", "loss_scale": 1.0, "consumed_samples": 695040, "global_step/max_steps": "2715/12700"}
{"lm loss": 2.18494105, "grad_norm": 0.40010801, "learning_rate": 9.305e-05, "elapsed_time_per_iteration": 4.87407875, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 28s", "remaining_time": "13h 34m 6s", "loss_scale": 1.0, "consumed_samples": 695296, "global_step/max_steps": "2716/12700"}
{"lm loss": 2.16708302, "grad_norm": 0.42748779, "learning_rate": 9.305e-05, "elapsed_time_per_iteration": 4.98768258, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 33s", "remaining_time": "13h 34m 2s", "loss_scale": 1.0, "consumed_samples": 695552, "global_step/max_steps": "2717/12700"}
{"lm loss": 2.16759467, "grad_norm": 0.36874455, "learning_rate": 9.304e-05, "elapsed_time_per_iteration": 4.82242799, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 37s", "remaining_time": "13h 33m 57s", "loss_scale": 1.0, "consumed_samples": 695808, "global_step/max_steps": "2718/12700"}
{"lm loss": 2.17202854, "grad_norm": 0.45305103, "learning_rate": 9.303e-05, "elapsed_time_per_iteration": 4.85217071, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 42s", "remaining_time": "13h 33m 52s", "loss_scale": 1.0, "consumed_samples": 696064, "global_step/max_steps": "2719/12700"}
{"lm loss": 2.17918897, "grad_norm": 0.37868139, "learning_rate": 9.303e-05, "elapsed_time_per_iteration": 4.90651751, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 47s", "remaining_time": "13h 33m 47s", "loss_scale": 1.0, "consumed_samples": 696320, "global_step/max_steps": "2720/12700"}
{"lm loss": 2.15111136, "grad_norm": 0.45959726, "learning_rate": 9.302e-05, "elapsed_time_per_iteration": 4.8291235, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 52s", "remaining_time": "13h 33m 42s", "loss_scale": 1.0, "consumed_samples": 696576, "global_step/max_steps": "2721/12700"}
{"lm loss": 2.19704199, "grad_norm": 0.42664477, "learning_rate": 9.301e-05, "elapsed_time_per_iteration": 4.93791223, "memory(GiB)": 28.98, "elapsed_time": "3h 41m 57s", "remaining_time": "13h 33m 37s", "loss_scale": 1.0, "consumed_samples": 696832, "global_step/max_steps": "2722/12700"}
{"lm loss": 2.16551542, "grad_norm": 0.43593168, "learning_rate": 9.301e-05, "elapsed_time_per_iteration": 4.86031604, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 2s", "remaining_time": "13h 33m 32s", "loss_scale": 1.0, "consumed_samples": 697088, "global_step/max_steps": "2723/12700"}
{"lm loss": 2.17381525, "grad_norm": 0.46565971, "learning_rate": 9.3e-05, "elapsed_time_per_iteration": 4.82826829, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 7s", "remaining_time": "13h 33m 27s", "loss_scale": 1.0, "consumed_samples": 697344, "global_step/max_steps": "2724/12700"}
{"lm loss": 2.21793365, "grad_norm": 0.44976774, "learning_rate": 9.299e-05, "elapsed_time_per_iteration": 4.93633246, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 12s", "remaining_time": "13h 33m 22s", "loss_scale": 1.0, "consumed_samples": 697600, "global_step/max_steps": "2725/12700"}
{"lm loss": 2.19301176, "grad_norm": 0.44292846, "learning_rate": 9.299e-05, "elapsed_time_per_iteration": 4.85447264, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 16s", "remaining_time": "13h 33m 17s", "loss_scale": 1.0, "consumed_samples": 697856, "global_step/max_steps": "2726/12700"}
{"lm loss": 2.11966372, "grad_norm": 0.45401943, "learning_rate": 9.298e-05, "elapsed_time_per_iteration": 4.94342089, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 21s", "remaining_time": "13h 33m 12s", "loss_scale": 1.0, "consumed_samples": 698112, "global_step/max_steps": "2727/12700"}
{"lm loss": 2.14842606, "grad_norm": 0.46250278, "learning_rate": 9.297e-05, "elapsed_time_per_iteration": 5.05020833, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 26s", "remaining_time": "13h 33m 8s", "loss_scale": 1.0, "consumed_samples": 698368, "global_step/max_steps": "2728/12700"}
{"lm loss": 2.13734436, "grad_norm": 0.44515979, "learning_rate": 9.297e-05, "elapsed_time_per_iteration": 4.86207366, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 31s", "remaining_time": "13h 33m 3s", "loss_scale": 1.0, "consumed_samples": 698624, "global_step/max_steps": "2729/12700"}
{"lm loss": 2.14747453, "grad_norm": 0.45171517, "learning_rate": 9.296e-05, "elapsed_time_per_iteration": 4.87975502, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 36s", "remaining_time": "13h 32m 58s", "loss_scale": 1.0, "consumed_samples": 698880, "global_step/max_steps": "2730/12700"}
{"lm loss": 2.17737103, "grad_norm": 0.39983034, "learning_rate": 9.295e-05, "elapsed_time_per_iteration": 4.82845855, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 41s", "remaining_time": "13h 32m 53s", "loss_scale": 1.0, "consumed_samples": 699136, "global_step/max_steps": "2731/12700"}
{"lm loss": 2.17869377, "grad_norm": 0.47761923, "learning_rate": 9.295e-05, "elapsed_time_per_iteration": 4.9071672, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 46s", "remaining_time": "13h 32m 48s", "loss_scale": 1.0, "consumed_samples": 699392, "global_step/max_steps": "2732/12700"}
{"lm loss": 2.17260051, "grad_norm": 0.42284539, "learning_rate": 9.294e-05, "elapsed_time_per_iteration": 4.90644073, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 51s", "remaining_time": "13h 32m 43s", "loss_scale": 1.0, "consumed_samples": 699648, "global_step/max_steps": "2733/12700"}
{"lm loss": 2.17571855, "grad_norm": 0.45230308, "learning_rate": 9.293e-05, "elapsed_time_per_iteration": 4.93476868, "memory(GiB)": 28.98, "elapsed_time": "3h 42m 56s", "remaining_time": "13h 32m 38s", "loss_scale": 1.0, "consumed_samples": 699904, "global_step/max_steps": "2734/12700"}
{"lm loss": 2.15547657, "grad_norm": 0.41081238, "learning_rate": 9.293e-05, "elapsed_time_per_iteration": 4.86333203, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 1s", "remaining_time": "13h 32m 33s", "loss_scale": 1.0, "consumed_samples": 700160, "global_step/max_steps": "2735/12700"}
{"lm loss": 2.14121461, "grad_norm": 0.46623483, "learning_rate": 9.292e-05, "elapsed_time_per_iteration": 4.88294792, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 5s", "remaining_time": "13h 32m 29s", "loss_scale": 1.0, "consumed_samples": 700416, "global_step/max_steps": "2736/12700"}
{"lm loss": 2.13753462, "grad_norm": 0.47699499, "learning_rate": 9.291e-05, "elapsed_time_per_iteration": 4.87088156, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 10s", "remaining_time": "13h 32m 24s", "loss_scale": 1.0, "consumed_samples": 700672, "global_step/max_steps": "2737/12700"}
{"lm loss": 2.15508628, "grad_norm": 0.39801234, "learning_rate": 9.291e-05, "elapsed_time_per_iteration": 4.91203475, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 15s", "remaining_time": "13h 32m 19s", "loss_scale": 1.0, "consumed_samples": 700928, "global_step/max_steps": "2738/12700"}
{"lm loss": 2.17572975, "grad_norm": 0.47150666, "learning_rate": 9.29e-05, "elapsed_time_per_iteration": 4.87942719, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 20s", "remaining_time": "13h 32m 14s", "loss_scale": 1.0, "consumed_samples": 701184, "global_step/max_steps": "2739/12700"}
{"lm loss": 2.15340114, "grad_norm": 0.39909822, "learning_rate": 9.29e-05, "elapsed_time_per_iteration": 4.89262414, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 25s", "remaining_time": "13h 32m 9s", "loss_scale": 1.0, "consumed_samples": 701440, "global_step/max_steps": "2740/12700"}
{"lm loss": 2.16519117, "grad_norm": 0.45336184, "learning_rate": 9.289e-05, "elapsed_time_per_iteration": 4.78579378, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 30s", "remaining_time": "13h 32m 4s", "loss_scale": 1.0, "consumed_samples": 701696, "global_step/max_steps": "2741/12700"}
{"lm loss": 2.17978525, "grad_norm": 0.42010984, "learning_rate": 9.288e-05, "elapsed_time_per_iteration": 4.86468482, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 35s", "remaining_time": "13h 31m 59s", "loss_scale": 1.0, "consumed_samples": 701952, "global_step/max_steps": "2742/12700"}
{"lm loss": 2.17993546, "grad_norm": 0.42742082, "learning_rate": 9.288e-05, "elapsed_time_per_iteration": 4.78176594, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 39s", "remaining_time": "13h 31m 53s", "loss_scale": 1.0, "consumed_samples": 702208, "global_step/max_steps": "2743/12700"}
{"lm loss": 2.17990661, "grad_norm": 0.41259298, "learning_rate": 9.287e-05, "elapsed_time_per_iteration": 4.84591246, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 44s", "remaining_time": "13h 31m 48s", "loss_scale": 1.0, "consumed_samples": 702464, "global_step/max_steps": "2744/12700"}
{"lm loss": 2.20021868, "grad_norm": 0.42173013, "learning_rate": 9.286e-05, "elapsed_time_per_iteration": 4.96608067, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 49s", "remaining_time": "13h 31m 44s", "loss_scale": 1.0, "consumed_samples": 702720, "global_step/max_steps": "2745/12700"}
{"lm loss": 2.15592217, "grad_norm": 0.42576662, "learning_rate": 9.286e-05, "elapsed_time_per_iteration": 4.974231, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 54s", "remaining_time": "13h 31m 39s", "loss_scale": 1.0, "consumed_samples": 702976, "global_step/max_steps": "2746/12700"}
{"lm loss": 2.17234111, "grad_norm": 0.44114256, "learning_rate": 9.285e-05, "elapsed_time_per_iteration": 4.78468537, "memory(GiB)": 28.98, "elapsed_time": "3h 43m 59s", "remaining_time": "13h 31m 34s", "loss_scale": 1.0, "consumed_samples": 703232, "global_step/max_steps": "2747/12700"}
{"lm loss": 2.16764116, "grad_norm": 0.40838251, "learning_rate": 9.284e-05, "elapsed_time_per_iteration": 4.97589159, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 4s", "remaining_time": "13h 31m 29s", "loss_scale": 1.0, "consumed_samples": 703488, "global_step/max_steps": "2748/12700"}
{"lm loss": 2.14186954, "grad_norm": 0.41140315, "learning_rate": 9.284e-05, "elapsed_time_per_iteration": 4.82816315, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 9s", "remaining_time": "13h 31m 24s", "loss_scale": 1.0, "consumed_samples": 703744, "global_step/max_steps": "2749/12700"}
{"lm loss": 2.15534258, "grad_norm": 0.42521045, "learning_rate": 9.283e-05, "elapsed_time_per_iteration": 4.91920877, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 14s", "remaining_time": "13h 31m 19s", "loss_scale": 1.0, "consumed_samples": 704000, "global_step/max_steps": "2750/12700"}
{"lm loss": 2.15324855, "grad_norm": 0.41282499, "learning_rate": 9.282e-05, "elapsed_time_per_iteration": 4.85703993, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 19s", "remaining_time": "13h 31m 14s", "loss_scale": 1.0, "consumed_samples": 704256, "global_step/max_steps": "2751/12700"}
{"lm loss": 2.16815042, "grad_norm": 0.41108948, "learning_rate": 9.282e-05, "elapsed_time_per_iteration": 4.85332108, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 23s", "remaining_time": "13h 31m 9s", "loss_scale": 1.0, "consumed_samples": 704512, "global_step/max_steps": "2752/12700"}
{"lm loss": 2.17580104, "grad_norm": 0.450169, "learning_rate": 9.281e-05, "elapsed_time_per_iteration": 4.80026031, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 28s", "remaining_time": "13h 31m 4s", "loss_scale": 1.0, "consumed_samples": 704768, "global_step/max_steps": "2753/12700"}
{"lm loss": 2.16787434, "grad_norm": 0.41778019, "learning_rate": 9.28e-05, "elapsed_time_per_iteration": 4.81457639, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 33s", "remaining_time": "13h 30m 59s", "loss_scale": 1.0, "consumed_samples": 705024, "global_step/max_steps": "2754/12700"}
{"lm loss": 2.17429066, "grad_norm": 0.3987793, "learning_rate": 9.28e-05, "elapsed_time_per_iteration": 4.92546201, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 38s", "remaining_time": "13h 30m 54s", "loss_scale": 1.0, "consumed_samples": 705280, "global_step/max_steps": "2755/12700"}
{"lm loss": 2.19102979, "grad_norm": 0.42304397, "learning_rate": 9.279e-05, "elapsed_time_per_iteration": 4.81752396, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 43s", "remaining_time": "13h 30m 49s", "loss_scale": 1.0, "consumed_samples": 705536, "global_step/max_steps": "2756/12700"}
{"lm loss": 2.16684151, "grad_norm": 0.44539037, "learning_rate": 9.278e-05, "elapsed_time_per_iteration": 4.85268211, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 48s", "remaining_time": "13h 30m 44s", "loss_scale": 1.0, "consumed_samples": 705792, "global_step/max_steps": "2757/12700"}
{"lm loss": 2.14452338, "grad_norm": 0.42668897, "learning_rate": 9.278e-05, "elapsed_time_per_iteration": 4.96348476, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 53s", "remaining_time": "13h 30m 39s", "loss_scale": 1.0, "consumed_samples": 706048, "global_step/max_steps": "2758/12700"}
{"lm loss": 2.14831662, "grad_norm": 0.42608339, "learning_rate": 9.277e-05, "elapsed_time_per_iteration": 4.84059334, "memory(GiB)": 28.98, "elapsed_time": "3h 44m 57s", "remaining_time": "13h 30m 34s", "loss_scale": 1.0, "consumed_samples": 706304, "global_step/max_steps": "2759/12700"}
{"lm loss": 2.14939189, "grad_norm": 0.40057978, "learning_rate": 9.276e-05, "elapsed_time_per_iteration": 4.89985967, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 2s", "remaining_time": "13h 30m 29s", "loss_scale": 1.0, "consumed_samples": 706560, "global_step/max_steps": "2760/12700"}
{"lm loss": 2.16745019, "grad_norm": 0.41851348, "learning_rate": 9.276e-05, "elapsed_time_per_iteration": 4.89355731, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 7s", "remaining_time": "13h 30m 24s", "loss_scale": 1.0, "consumed_samples": 706816, "global_step/max_steps": "2761/12700"}
{"lm loss": 2.16261506, "grad_norm": 0.40727663, "learning_rate": 9.275e-05, "elapsed_time_per_iteration": 4.84454727, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 12s", "remaining_time": "13h 30m 19s", "loss_scale": 1.0, "consumed_samples": 707072, "global_step/max_steps": "2762/12700"}
{"lm loss": 2.15376902, "grad_norm": 0.4149757, "learning_rate": 9.274e-05, "elapsed_time_per_iteration": 4.89581299, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 17s", "remaining_time": "13h 30m 14s", "loss_scale": 1.0, "consumed_samples": 707328, "global_step/max_steps": "2763/12700"}
{"lm loss": 2.15527844, "grad_norm": 0.41458806, "learning_rate": 9.274e-05, "elapsed_time_per_iteration": 4.84844232, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 22s", "remaining_time": "13h 30m 9s", "loss_scale": 1.0, "consumed_samples": 707584, "global_step/max_steps": "2764/12700"}
{"lm loss": 2.19107294, "grad_norm": 0.39569148, "learning_rate": 9.273e-05, "elapsed_time_per_iteration": 4.91655993, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 27s", "remaining_time": "13h 30m 5s", "loss_scale": 1.0, "consumed_samples": 707840, "global_step/max_steps": "2765/12700"}
{"lm loss": 2.16666889, "grad_norm": 0.38938028, "learning_rate": 9.272e-05, "elapsed_time_per_iteration": 4.84873652, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 32s", "remaining_time": "13h 30m 0s", "loss_scale": 1.0, "consumed_samples": 708096, "global_step/max_steps": "2766/12700"}
{"lm loss": 2.19540381, "grad_norm": 0.37278733, "learning_rate": 9.272e-05, "elapsed_time_per_iteration": 4.86945152, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 36s", "remaining_time": "13h 29m 55s", "loss_scale": 1.0, "consumed_samples": 708352, "global_step/max_steps": "2767/12700"}
{"lm loss": 2.16940117, "grad_norm": 0.3918356, "learning_rate": 9.271e-05, "elapsed_time_per_iteration": 4.88521385, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 41s", "remaining_time": "13h 29m 50s", "loss_scale": 1.0, "consumed_samples": 708608, "global_step/max_steps": "2768/12700"}
{"lm loss": 2.14782596, "grad_norm": 0.38823429, "learning_rate": 9.27e-05, "elapsed_time_per_iteration": 4.82829309, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 46s", "remaining_time": "13h 29m 45s", "loss_scale": 1.0, "consumed_samples": 708864, "global_step/max_steps": "2769/12700"}
{"lm loss": 2.17401814, "grad_norm": 0.44631925, "learning_rate": 9.27e-05, "elapsed_time_per_iteration": 4.77936721, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 51s", "remaining_time": "13h 29m 39s", "loss_scale": 1.0, "consumed_samples": 709120, "global_step/max_steps": "2770/12700"}
{"lm loss": 2.18295717, "grad_norm": 0.42163539, "learning_rate": 9.269e-05, "elapsed_time_per_iteration": 4.89080644, "memory(GiB)": 28.98, "elapsed_time": "3h 45m 56s", "remaining_time": "13h 29m 34s", "loss_scale": 1.0, "consumed_samples": 709376, "global_step/max_steps": "2771/12700"}
{"lm loss": 2.1705215, "grad_norm": 0.40588295, "learning_rate": 9.268e-05, "elapsed_time_per_iteration": 4.84023809, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 1s", "remaining_time": "13h 29m 29s", "loss_scale": 1.0, "consumed_samples": 709632, "global_step/max_steps": "2772/12700"}
{"lm loss": 2.14036942, "grad_norm": 0.42763767, "learning_rate": 9.268e-05, "elapsed_time_per_iteration": 4.80665445, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 5s", "remaining_time": "13h 29m 24s", "loss_scale": 1.0, "consumed_samples": 709888, "global_step/max_steps": "2773/12700"}
{"lm loss": 2.17724991, "grad_norm": 0.40412727, "learning_rate": 9.267e-05, "elapsed_time_per_iteration": 4.8334558, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 10s", "remaining_time": "13h 29m 19s", "loss_scale": 1.0, "consumed_samples": 710144, "global_step/max_steps": "2774/12700"}
{"lm loss": 2.13620996, "grad_norm": 0.46059608, "learning_rate": 9.266e-05, "elapsed_time_per_iteration": 4.89688349, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 15s", "remaining_time": "13h 29m 14s", "loss_scale": 1.0, "consumed_samples": 710400, "global_step/max_steps": "2775/12700"}
{"lm loss": 2.17267847, "grad_norm": 0.43802729, "learning_rate": 9.266e-05, "elapsed_time_per_iteration": 4.79552555, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 20s", "remaining_time": "13h 29m 9s", "loss_scale": 1.0, "consumed_samples": 710656, "global_step/max_steps": "2776/12700"}
{"lm loss": 2.15618873, "grad_norm": 0.416192, "learning_rate": 9.265e-05, "elapsed_time_per_iteration": 4.86340714, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 25s", "remaining_time": "13h 29m 4s", "loss_scale": 1.0, "consumed_samples": 710912, "global_step/max_steps": "2777/12700"}
{"lm loss": 2.14131927, "grad_norm": 0.46822309, "learning_rate": 9.264e-05, "elapsed_time_per_iteration": 4.91817808, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 30s", "remaining_time": "13h 28m 59s", "loss_scale": 1.0, "consumed_samples": 711168, "global_step/max_steps": "2778/12700"}
{"lm loss": 2.15536523, "grad_norm": 0.40142915, "learning_rate": 9.264e-05, "elapsed_time_per_iteration": 4.86502767, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 35s", "remaining_time": "13h 28m 54s", "loss_scale": 1.0, "consumed_samples": 711424, "global_step/max_steps": "2779/12700"}
{"lm loss": 2.17002726, "grad_norm": 0.4706986, "learning_rate": 9.263e-05, "elapsed_time_per_iteration": 4.82400036, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 39s", "remaining_time": "13h 28m 49s", "loss_scale": 1.0, "consumed_samples": 711680, "global_step/max_steps": "2780/12700"}
{"lm loss": 2.17676878, "grad_norm": 0.4463129, "learning_rate": 9.262e-05, "elapsed_time_per_iteration": 4.87604189, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 44s", "remaining_time": "13h 28m 44s", "loss_scale": 1.0, "consumed_samples": 711936, "global_step/max_steps": "2781/12700"}
{"lm loss": 2.17230487, "grad_norm": 0.48471105, "learning_rate": 9.262e-05, "elapsed_time_per_iteration": 4.86350203, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 49s", "remaining_time": "13h 28m 39s", "loss_scale": 1.0, "consumed_samples": 712192, "global_step/max_steps": "2782/12700"}
{"lm loss": 2.17051625, "grad_norm": 0.4840396, "learning_rate": 9.261e-05, "elapsed_time_per_iteration": 4.85154653, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 54s", "remaining_time": "13h 28m 34s", "loss_scale": 1.0, "consumed_samples": 712448, "global_step/max_steps": "2783/12700"}
{"lm loss": 2.16314316, "grad_norm": 0.41404483, "learning_rate": 9.26e-05, "elapsed_time_per_iteration": 4.94055057, "memory(GiB)": 28.98, "elapsed_time": "3h 46m 59s", "remaining_time": "13h 28m 29s", "loss_scale": 1.0, "consumed_samples": 712704, "global_step/max_steps": "2784/12700"}
{"lm loss": 2.13227439, "grad_norm": 0.45390928, "learning_rate": 9.26e-05, "elapsed_time_per_iteration": 4.75746989, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 4s", "remaining_time": "13h 28m 24s", "loss_scale": 1.0, "consumed_samples": 712960, "global_step/max_steps": "2785/12700"}
{"lm loss": 2.18666291, "grad_norm": 0.44081941, "learning_rate": 9.259e-05, "elapsed_time_per_iteration": 4.77245045, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 9s", "remaining_time": "13h 28m 19s", "loss_scale": 1.0, "consumed_samples": 713216, "global_step/max_steps": "2786/12700"}
{"lm loss": 2.14489245, "grad_norm": 0.4247736, "learning_rate": 9.258e-05, "elapsed_time_per_iteration": 4.89107323, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 13s", "remaining_time": "13h 28m 14s", "loss_scale": 1.0, "consumed_samples": 713472, "global_step/max_steps": "2787/12700"}
{"lm loss": 2.15766001, "grad_norm": 0.44247681, "learning_rate": 9.258e-05, "elapsed_time_per_iteration": 4.7982583, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 18s", "remaining_time": "13h 28m 8s", "loss_scale": 1.0, "consumed_samples": 713728, "global_step/max_steps": "2788/12700"}
{"lm loss": 2.17290425, "grad_norm": 0.40686029, "learning_rate": 9.257e-05, "elapsed_time_per_iteration": 5.0434103, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 23s", "remaining_time": "13h 28m 4s", "loss_scale": 1.0, "consumed_samples": 713984, "global_step/max_steps": "2789/12700"}
{"lm loss": 2.17557096, "grad_norm": 0.43854126, "learning_rate": 9.256e-05, "elapsed_time_per_iteration": 4.91948795, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 28s", "remaining_time": "13h 27m 59s", "loss_scale": 1.0, "consumed_samples": 714240, "global_step/max_steps": "2790/12700"}
{"lm loss": 2.16546178, "grad_norm": 0.41011947, "learning_rate": 9.256e-05, "elapsed_time_per_iteration": 4.89608026, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 33s", "remaining_time": "13h 27m 54s", "loss_scale": 1.0, "consumed_samples": 714496, "global_step/max_steps": "2791/12700"}
{"lm loss": 2.14188766, "grad_norm": 0.415023, "learning_rate": 9.255e-05, "elapsed_time_per_iteration": 5.00789213, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 38s", "remaining_time": "13h 27m 50s", "loss_scale": 1.0, "consumed_samples": 714752, "global_step/max_steps": "2792/12700"}
{"lm loss": 2.14296412, "grad_norm": 0.417052, "learning_rate": 9.254e-05, "elapsed_time_per_iteration": 4.81847453, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 43s", "remaining_time": "13h 27m 45s", "loss_scale": 1.0, "consumed_samples": 715008, "global_step/max_steps": "2793/12700"}
{"lm loss": 2.17222404, "grad_norm": 0.46456316, "learning_rate": 9.254e-05, "elapsed_time_per_iteration": 4.99184942, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 48s", "remaining_time": "13h 27m 40s", "loss_scale": 1.0, "consumed_samples": 715264, "global_step/max_steps": "2794/12700"}
{"lm loss": 2.15129399, "grad_norm": 0.39515612, "learning_rate": 9.253e-05, "elapsed_time_per_iteration": 4.81390166, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 53s", "remaining_time": "13h 27m 35s", "loss_scale": 1.0, "consumed_samples": 715520, "global_step/max_steps": "2795/12700"}
{"lm loss": 2.14958763, "grad_norm": 0.42150554, "learning_rate": 9.252e-05, "elapsed_time_per_iteration": 4.88878536, "memory(GiB)": 28.98, "elapsed_time": "3h 47m 58s", "remaining_time": "13h 27m 30s", "loss_scale": 1.0, "consumed_samples": 715776, "global_step/max_steps": "2796/12700"}
{"lm loss": 2.14507413, "grad_norm": 0.40967256, "learning_rate": 9.252e-05, "elapsed_time_per_iteration": 4.85514402, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 2s", "remaining_time": "13h 27m 25s", "loss_scale": 1.0, "consumed_samples": 716032, "global_step/max_steps": "2797/12700"}
{"lm loss": 2.14341784, "grad_norm": 0.39958566, "learning_rate": 9.251e-05, "elapsed_time_per_iteration": 4.78708673, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 7s", "remaining_time": "13h 27m 20s", "loss_scale": 1.0, "consumed_samples": 716288, "global_step/max_steps": "2798/12700"}
{"lm loss": 2.13591671, "grad_norm": 0.40631211, "learning_rate": 9.25e-05, "elapsed_time_per_iteration": 4.86271381, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 12s", "remaining_time": "13h 27m 15s", "loss_scale": 1.0, "consumed_samples": 716544, "global_step/max_steps": "2799/12700"}
{"lm loss": 2.21412897, "grad_norm": 0.38839379, "learning_rate": 9.25e-05, "elapsed_time_per_iteration": 4.84547949, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 17s", "remaining_time": "13h 27m 10s", "loss_scale": 1.0, "consumed_samples": 716800, "global_step/max_steps": "2800/12700"}
{"lm loss": 2.19348502, "grad_norm": 0.40213308, "learning_rate": 9.249e-05, "elapsed_time_per_iteration": 4.96446705, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 22s", "remaining_time": "13h 27m 5s", "loss_scale": 1.0, "consumed_samples": 717056, "global_step/max_steps": "2801/12700"}
{"lm loss": 2.17234945, "grad_norm": 0.42925453, "learning_rate": 9.248e-05, "elapsed_time_per_iteration": 4.84698248, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 27s", "remaining_time": "13h 27m 0s", "loss_scale": 1.0, "consumed_samples": 717312, "global_step/max_steps": "2802/12700"}
{"lm loss": 2.17840481, "grad_norm": 0.42277664, "learning_rate": 9.247e-05, "elapsed_time_per_iteration": 4.90829134, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 32s", "remaining_time": "13h 26m 55s", "loss_scale": 1.0, "consumed_samples": 717568, "global_step/max_steps": "2803/12700"}
{"lm loss": 2.17182326, "grad_norm": 0.39205909, "learning_rate": 9.247e-05, "elapsed_time_per_iteration": 4.89096212, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 37s", "remaining_time": "13h 26m 50s", "loss_scale": 1.0, "consumed_samples": 717824, "global_step/max_steps": "2804/12700"}
{"lm loss": 2.1855073, "grad_norm": 0.38968405, "learning_rate": 9.246e-05, "elapsed_time_per_iteration": 4.86954975, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 41s", "remaining_time": "13h 26m 45s", "loss_scale": 1.0, "consumed_samples": 718080, "global_step/max_steps": "2805/12700"}
{"lm loss": 2.19525218, "grad_norm": 0.40040112, "learning_rate": 9.245e-05, "elapsed_time_per_iteration": 4.92189431, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 46s", "remaining_time": "13h 26m 41s", "loss_scale": 1.0, "consumed_samples": 718336, "global_step/max_steps": "2806/12700"}
{"lm loss": 2.17881393, "grad_norm": 0.42045391, "learning_rate": 9.245e-05, "elapsed_time_per_iteration": 4.88469672, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 51s", "remaining_time": "13h 26m 36s", "loss_scale": 1.0, "consumed_samples": 718592, "global_step/max_steps": "2807/12700"}
{"lm loss": 2.13839054, "grad_norm": 0.39775777, "learning_rate": 9.244e-05, "elapsed_time_per_iteration": 4.90605831, "memory(GiB)": 28.98, "elapsed_time": "3h 48m 56s", "remaining_time": "13h 26m 31s", "loss_scale": 1.0, "consumed_samples": 718848, "global_step/max_steps": "2808/12700"}
{"lm loss": 2.20112133, "grad_norm": 0.41632256, "learning_rate": 9.243e-05, "elapsed_time_per_iteration": 4.90191746, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 1s", "remaining_time": "13h 26m 26s", "loss_scale": 1.0, "consumed_samples": 719104, "global_step/max_steps": "2809/12700"}
{"lm loss": 2.19848037, "grad_norm": 0.47264475, "learning_rate": 9.243e-05, "elapsed_time_per_iteration": 4.94832683, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 6s", "remaining_time": "13h 26m 21s", "loss_scale": 1.0, "consumed_samples": 719360, "global_step/max_steps": "2810/12700"}
{"lm loss": 2.18175197, "grad_norm": 0.38626865, "learning_rate": 9.242e-05, "elapsed_time_per_iteration": 4.98622704, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 11s", "remaining_time": "13h 26m 17s", "loss_scale": 1.0, "consumed_samples": 719616, "global_step/max_steps": "2811/12700"}
{"lm loss": 2.16997266, "grad_norm": 0.4131889, "learning_rate": 9.241e-05, "elapsed_time_per_iteration": 4.8833859, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 16s", "remaining_time": "13h 26m 12s", "loss_scale": 1.0, "consumed_samples": 719872, "global_step/max_steps": "2812/12700"}
{"lm loss": 2.17929673, "grad_norm": 0.39923322, "learning_rate": 9.241e-05, "elapsed_time_per_iteration": 4.99843764, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 21s", "remaining_time": "13h 26m 7s", "loss_scale": 1.0, "consumed_samples": 720128, "global_step/max_steps": "2813/12700"}
{"lm loss": 2.14534378, "grad_norm": 0.40995932, "learning_rate": 9.24e-05, "elapsed_time_per_iteration": 5.09100175, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 26s", "remaining_time": "13h 26m 3s", "loss_scale": 1.0, "consumed_samples": 720384, "global_step/max_steps": "2814/12700"}
{"lm loss": 2.1653645, "grad_norm": 0.41636792, "learning_rate": 9.239e-05, "elapsed_time_per_iteration": 4.8201077, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 31s", "remaining_time": "13h 25m 58s", "loss_scale": 1.0, "consumed_samples": 720640, "global_step/max_steps": "2815/12700"}
{"lm loss": 2.2009294, "grad_norm": 0.40599281, "learning_rate": 9.239e-05, "elapsed_time_per_iteration": 4.82156467, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 36s", "remaining_time": "13h 25m 53s", "loss_scale": 1.0, "consumed_samples": 720896, "global_step/max_steps": "2816/12700"}
{"lm loss": 2.1537056, "grad_norm": 0.42199814, "learning_rate": 9.238e-05, "elapsed_time_per_iteration": 4.94391227, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 41s", "remaining_time": "13h 25m 48s", "loss_scale": 1.0, "consumed_samples": 721152, "global_step/max_steps": "2817/12700"}
{"lm loss": 2.15356612, "grad_norm": 0.3768526, "learning_rate": 9.237e-05, "elapsed_time_per_iteration": 4.79247403, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 45s", "remaining_time": "13h 25m 43s", "loss_scale": 1.0, "consumed_samples": 721408, "global_step/max_steps": "2818/12700"}
{"lm loss": 2.16719532, "grad_norm": 0.4164333, "learning_rate": 9.237e-05, "elapsed_time_per_iteration": 4.89781523, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 50s", "remaining_time": "13h 25m 38s", "loss_scale": 1.0, "consumed_samples": 721664, "global_step/max_steps": "2819/12700"}
{"lm loss": 2.20190096, "grad_norm": 0.41131335, "learning_rate": 9.236e-05, "elapsed_time_per_iteration": 4.87812805, "memory(GiB)": 28.98, "elapsed_time": "3h 49m 55s", "remaining_time": "13h 25m 33s", "loss_scale": 1.0, "consumed_samples": 721920, "global_step/max_steps": "2820/12700"}
{"lm loss": 2.17230105, "grad_norm": 0.42473435, "learning_rate": 9.235e-05, "elapsed_time_per_iteration": 4.81353164, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 0s", "remaining_time": "13h 25m 28s", "loss_scale": 1.0, "consumed_samples": 722176, "global_step/max_steps": "2821/12700"}
{"lm loss": 2.1871736, "grad_norm": 0.37911594, "learning_rate": 9.235e-05, "elapsed_time_per_iteration": 4.84039283, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 5s", "remaining_time": "13h 25m 23s", "loss_scale": 1.0, "consumed_samples": 722432, "global_step/max_steps": "2822/12700"}
{"lm loss": 2.16223335, "grad_norm": 0.43753022, "learning_rate": 9.234e-05, "elapsed_time_per_iteration": 4.91961288, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 10s", "remaining_time": "13h 25m 18s", "loss_scale": 1.0, "consumed_samples": 722688, "global_step/max_steps": "2823/12700"}
{"lm loss": 2.16877556, "grad_norm": 0.39682645, "learning_rate": 9.233e-05, "elapsed_time_per_iteration": 4.97242522, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 15s", "remaining_time": "13h 25m 13s", "loss_scale": 1.0, "consumed_samples": 722944, "global_step/max_steps": "2824/12700"}
{"lm loss": 2.17575312, "grad_norm": 0.41784018, "learning_rate": 9.233e-05, "elapsed_time_per_iteration": 4.88294554, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 20s", "remaining_time": "13h 25m 9s", "loss_scale": 1.0, "consumed_samples": 723200, "global_step/max_steps": "2825/12700"}
{"lm loss": 2.14351535, "grad_norm": 0.42572576, "learning_rate": 9.232e-05, "elapsed_time_per_iteration": 4.82312655, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 24s", "remaining_time": "13h 25m 3s", "loss_scale": 1.0, "consumed_samples": 723456, "global_step/max_steps": "2826/12700"}
{"lm loss": 2.15863013, "grad_norm": 0.46969181, "learning_rate": 9.231e-05, "elapsed_time_per_iteration": 5.01644206, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 29s", "remaining_time": "13h 24m 59s", "loss_scale": 1.0, "consumed_samples": 723712, "global_step/max_steps": "2827/12700"}
{"lm loss": 2.19254303, "grad_norm": 0.41287503, "learning_rate": 9.231e-05, "elapsed_time_per_iteration": 4.86973047, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 34s", "remaining_time": "13h 24m 54s", "loss_scale": 1.0, "consumed_samples": 723968, "global_step/max_steps": "2828/12700"}
{"lm loss": 2.1730516, "grad_norm": 0.42647454, "learning_rate": 9.23e-05, "elapsed_time_per_iteration": 4.89860392, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 39s", "remaining_time": "13h 24m 49s", "loss_scale": 1.0, "consumed_samples": 724224, "global_step/max_steps": "2829/12700"}
{"lm loss": 2.15378284, "grad_norm": 0.45060134, "learning_rate": 9.229e-05, "elapsed_time_per_iteration": 4.90013671, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 44s", "remaining_time": "13h 24m 44s", "loss_scale": 1.0, "consumed_samples": 724480, "global_step/max_steps": "2830/12700"}
{"lm loss": 2.14345837, "grad_norm": 0.39203477, "learning_rate": 9.228e-05, "elapsed_time_per_iteration": 4.82522058, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 49s", "remaining_time": "13h 24m 39s", "loss_scale": 1.0, "consumed_samples": 724736, "global_step/max_steps": "2831/12700"}
{"lm loss": 2.19490099, "grad_norm": 0.46162438, "learning_rate": 9.228e-05, "elapsed_time_per_iteration": 4.88955808, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 54s", "remaining_time": "13h 24m 34s", "loss_scale": 1.0, "consumed_samples": 724992, "global_step/max_steps": "2832/12700"}
{"lm loss": 2.19293237, "grad_norm": 0.40535313, "learning_rate": 9.227e-05, "elapsed_time_per_iteration": 4.82403827, "memory(GiB)": 28.98, "elapsed_time": "3h 50m 59s", "remaining_time": "13h 24m 29s", "loss_scale": 1.0, "consumed_samples": 725248, "global_step/max_steps": "2833/12700"}
{"lm loss": 2.21781874, "grad_norm": 0.44745746, "learning_rate": 9.226e-05, "elapsed_time_per_iteration": 4.80495405, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 3s", "remaining_time": "13h 24m 24s", "loss_scale": 1.0, "consumed_samples": 725504, "global_step/max_steps": "2834/12700"}
{"lm loss": 2.17760897, "grad_norm": 0.41100314, "learning_rate": 9.226e-05, "elapsed_time_per_iteration": 4.87902665, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 8s", "remaining_time": "13h 24m 19s", "loss_scale": 1.0, "consumed_samples": 725760, "global_step/max_steps": "2835/12700"}
{"lm loss": 2.13805008, "grad_norm": 0.40873381, "learning_rate": 9.225e-05, "elapsed_time_per_iteration": 4.89737272, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 13s", "remaining_time": "13h 24m 14s", "loss_scale": 1.0, "consumed_samples": 726016, "global_step/max_steps": "2836/12700"}
{"lm loss": 2.17341137, "grad_norm": 0.38631845, "learning_rate": 9.224e-05, "elapsed_time_per_iteration": 4.83558965, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 18s", "remaining_time": "13h 24m 9s", "loss_scale": 1.0, "consumed_samples": 726272, "global_step/max_steps": "2837/12700"}
{"lm loss": 2.14917922, "grad_norm": 0.4206813, "learning_rate": 9.224e-05, "elapsed_time_per_iteration": 4.85407424, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 23s", "remaining_time": "13h 24m 4s", "loss_scale": 1.0, "consumed_samples": 726528, "global_step/max_steps": "2838/12700"}
{"lm loss": 2.17584324, "grad_norm": 0.42383221, "learning_rate": 9.223e-05, "elapsed_time_per_iteration": 4.81189299, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 28s", "remaining_time": "13h 23m 59s", "loss_scale": 1.0, "consumed_samples": 726784, "global_step/max_steps": "2839/12700"}
{"lm loss": 2.1579566, "grad_norm": 0.39489338, "learning_rate": 9.222e-05, "elapsed_time_per_iteration": 4.95646191, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 33s", "remaining_time": "13h 23m 54s", "loss_scale": 1.0, "consumed_samples": 727040, "global_step/max_steps": "2840/12700"}
{"lm loss": 2.20209384, "grad_norm": 0.43072572, "learning_rate": 9.222e-05, "elapsed_time_per_iteration": 4.87837005, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 38s", "remaining_time": "13h 23m 49s", "loss_scale": 1.0, "consumed_samples": 727296, "global_step/max_steps": "2841/12700"}
{"lm loss": 2.15517521, "grad_norm": 0.42143443, "learning_rate": 9.221e-05, "elapsed_time_per_iteration": 4.84789872, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 42s", "remaining_time": "13h 23m 44s", "loss_scale": 1.0, "consumed_samples": 727552, "global_step/max_steps": "2842/12700"}
{"lm loss": 2.16391563, "grad_norm": 0.43794176, "learning_rate": 9.22e-05, "elapsed_time_per_iteration": 4.94857025, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 47s", "remaining_time": "13h 23m 39s", "loss_scale": 1.0, "consumed_samples": 727808, "global_step/max_steps": "2843/12700"}
{"lm loss": 2.17023826, "grad_norm": 0.41735089, "learning_rate": 9.22e-05, "elapsed_time_per_iteration": 4.86678314, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 52s", "remaining_time": "13h 23m 34s", "loss_scale": 1.0, "consumed_samples": 728064, "global_step/max_steps": "2844/12700"}
{"lm loss": 2.13287163, "grad_norm": 0.42879876, "learning_rate": 9.219e-05, "elapsed_time_per_iteration": 4.89526367, "memory(GiB)": 28.98, "elapsed_time": "3h 51m 57s", "remaining_time": "13h 23m 30s", "loss_scale": 1.0, "consumed_samples": 728320, "global_step/max_steps": "2845/12700"}
{"lm loss": 2.13842225, "grad_norm": 0.42397553, "learning_rate": 9.218e-05, "elapsed_time_per_iteration": 4.84035373, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 2s", "remaining_time": "13h 23m 25s", "loss_scale": 1.0, "consumed_samples": 728576, "global_step/max_steps": "2846/12700"}
{"lm loss": 2.18940043, "grad_norm": 0.46410292, "learning_rate": 9.217e-05, "elapsed_time_per_iteration": 4.81271243, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 7s", "remaining_time": "13h 23m 19s", "loss_scale": 1.0, "consumed_samples": 728832, "global_step/max_steps": "2847/12700"}
{"lm loss": 2.1633985, "grad_norm": 0.46906021, "learning_rate": 9.217e-05, "elapsed_time_per_iteration": 4.83411503, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 12s", "remaining_time": "13h 23m 14s", "loss_scale": 1.0, "consumed_samples": 729088, "global_step/max_steps": "2848/12700"}
{"lm loss": 2.16332579, "grad_norm": 0.41122591, "learning_rate": 9.216e-05, "elapsed_time_per_iteration": 4.82851505, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 16s", "remaining_time": "13h 23m 9s", "loss_scale": 1.0, "consumed_samples": 729344, "global_step/max_steps": "2849/12700"}
{"lm loss": 2.14367056, "grad_norm": 0.43883592, "learning_rate": 9.215e-05, "elapsed_time_per_iteration": 4.82057619, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 21s", "remaining_time": "13h 23m 4s", "loss_scale": 1.0, "consumed_samples": 729600, "global_step/max_steps": "2850/12700"}
{"lm loss": 2.17119503, "grad_norm": 0.43470708, "learning_rate": 9.215e-05, "elapsed_time_per_iteration": 4.80460453, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 26s", "remaining_time": "13h 22m 59s", "loss_scale": 1.0, "consumed_samples": 729856, "global_step/max_steps": "2851/12700"}
{"lm loss": 2.15081859, "grad_norm": 0.42146072, "learning_rate": 9.214e-05, "elapsed_time_per_iteration": 4.79086566, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 31s", "remaining_time": "13h 22m 54s", "loss_scale": 1.0, "consumed_samples": 730112, "global_step/max_steps": "2852/12700"}
{"lm loss": 2.19531226, "grad_norm": 0.37830999, "learning_rate": 9.213e-05, "elapsed_time_per_iteration": 4.81788707, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 36s", "remaining_time": "13h 22m 48s", "loss_scale": 1.0, "consumed_samples": 730368, "global_step/max_steps": "2853/12700"}
{"lm loss": 2.16761851, "grad_norm": 0.40747488, "learning_rate": 9.213e-05, "elapsed_time_per_iteration": 5.04308987, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 41s", "remaining_time": "13h 22m 44s", "loss_scale": 1.0, "consumed_samples": 730624, "global_step/max_steps": "2854/12700"}
{"lm loss": 2.13376999, "grad_norm": 0.40254602, "learning_rate": 9.212e-05, "elapsed_time_per_iteration": 4.84208179, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 46s", "remaining_time": "13h 22m 39s", "loss_scale": 1.0, "consumed_samples": 730880, "global_step/max_steps": "2855/12700"}
{"lm loss": 2.17594671, "grad_norm": 0.37930855, "learning_rate": 9.211e-05, "elapsed_time_per_iteration": 4.88084698, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 50s", "remaining_time": "13h 22m 34s", "loss_scale": 1.0, "consumed_samples": 731136, "global_step/max_steps": "2856/12700"}
{"lm loss": 2.18373561, "grad_norm": 0.41695875, "learning_rate": 9.211e-05, "elapsed_time_per_iteration": 4.85380006, "memory(GiB)": 28.98, "elapsed_time": "3h 52m 55s", "remaining_time": "13h 22m 29s", "loss_scale": 1.0, "consumed_samples": 731392, "global_step/max_steps": "2857/12700"}
{"lm loss": 2.1499722, "grad_norm": 0.39312926, "learning_rate": 9.21e-05, "elapsed_time_per_iteration": 4.7850101, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 0s", "remaining_time": "13h 22m 24s", "loss_scale": 1.0, "consumed_samples": 731648, "global_step/max_steps": "2858/12700"}
{"lm loss": 2.15605021, "grad_norm": 0.39099762, "learning_rate": 9.209e-05, "elapsed_time_per_iteration": 4.91107798, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 5s", "remaining_time": "13h 22m 19s", "loss_scale": 1.0, "consumed_samples": 731904, "global_step/max_steps": "2859/12700"}
{"lm loss": 2.14830947, "grad_norm": 0.44844532, "learning_rate": 9.209e-05, "elapsed_time_per_iteration": 4.89272332, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 10s", "remaining_time": "13h 22m 14s", "loss_scale": 1.0, "consumed_samples": 732160, "global_step/max_steps": "2860/12700"}
{"lm loss": 2.22628808, "grad_norm": 0.39994386, "learning_rate": 9.208e-05, "elapsed_time_per_iteration": 4.83489919, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 15s", "remaining_time": "13h 22m 9s", "loss_scale": 1.0, "consumed_samples": 732416, "global_step/max_steps": "2861/12700"}
{"lm loss": 2.17519093, "grad_norm": 0.41677335, "learning_rate": 9.207e-05, "elapsed_time_per_iteration": 4.78281951, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 19s", "remaining_time": "13h 22m 4s", "loss_scale": 1.0, "consumed_samples": 732672, "global_step/max_steps": "2862/12700"}
{"lm loss": 2.18694878, "grad_norm": 0.43316856, "learning_rate": 9.206e-05, "elapsed_time_per_iteration": 4.91679072, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 24s", "remaining_time": "13h 21m 59s", "loss_scale": 1.0, "consumed_samples": 732928, "global_step/max_steps": "2863/12700"}
{"lm loss": 2.14485383, "grad_norm": 0.38023037, "learning_rate": 9.206e-05, "elapsed_time_per_iteration": 4.79737425, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 29s", "remaining_time": "13h 21m 54s", "loss_scale": 1.0, "consumed_samples": 733184, "global_step/max_steps": "2864/12700"}
{"lm loss": 2.1594193, "grad_norm": 0.42303869, "learning_rate": 9.205e-05, "elapsed_time_per_iteration": 4.99702406, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 34s", "remaining_time": "13h 21m 49s", "loss_scale": 1.0, "consumed_samples": 733440, "global_step/max_steps": "2865/12700"}
{"lm loss": 2.19862103, "grad_norm": 0.47679824, "learning_rate": 9.204e-05, "elapsed_time_per_iteration": 4.80250382, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 39s", "remaining_time": "13h 21m 44s", "loss_scale": 1.0, "consumed_samples": 733696, "global_step/max_steps": "2866/12700"}
{"lm loss": 2.16444278, "grad_norm": 0.4242526, "learning_rate": 9.204e-05, "elapsed_time_per_iteration": 4.86152768, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 44s", "remaining_time": "13h 21m 39s", "loss_scale": 1.0, "consumed_samples": 733952, "global_step/max_steps": "2867/12700"}
{"lm loss": 2.17516518, "grad_norm": 0.38660061, "learning_rate": 9.203e-05, "elapsed_time_per_iteration": 4.89095116, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 49s", "remaining_time": "13h 21m 34s", "loss_scale": 1.0, "consumed_samples": 734208, "global_step/max_steps": "2868/12700"}
{"lm loss": 2.15529561, "grad_norm": 0.42498776, "learning_rate": 9.202e-05, "elapsed_time_per_iteration": 4.88207674, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 54s", "remaining_time": "13h 21m 29s", "loss_scale": 1.0, "consumed_samples": 734464, "global_step/max_steps": "2869/12700"}
{"lm loss": 2.16519475, "grad_norm": 0.37104121, "learning_rate": 9.202e-05, "elapsed_time_per_iteration": 4.88305068, "memory(GiB)": 28.98, "elapsed_time": "3h 53m 58s", "remaining_time": "13h 21m 24s", "loss_scale": 1.0, "consumed_samples": 734720, "global_step/max_steps": "2870/12700"}
{"lm loss": 2.16158342, "grad_norm": 0.43251577, "learning_rate": 9.201e-05, "elapsed_time_per_iteration": 4.91339016, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 3s", "remaining_time": "13h 21m 19s", "loss_scale": 1.0, "consumed_samples": 734976, "global_step/max_steps": "2871/12700"}
{"lm loss": 2.19644547, "grad_norm": 0.43481237, "learning_rate": 9.2e-05, "elapsed_time_per_iteration": 4.88419962, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 8s", "remaining_time": "13h 21m 14s", "loss_scale": 1.0, "consumed_samples": 735232, "global_step/max_steps": "2872/12700"}
{"lm loss": 2.15408587, "grad_norm": 0.38732335, "learning_rate": 9.2e-05, "elapsed_time_per_iteration": 4.89037657, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 13s", "remaining_time": "13h 21m 10s", "loss_scale": 1.0, "consumed_samples": 735488, "global_step/max_steps": "2873/12700"}
{"lm loss": 2.17097282, "grad_norm": 0.40787748, "learning_rate": 9.199e-05, "elapsed_time_per_iteration": 4.89889431, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 18s", "remaining_time": "13h 21m 5s", "loss_scale": 1.0, "consumed_samples": 735744, "global_step/max_steps": "2874/12700"}
{"lm loss": 2.20036268, "grad_norm": 0.46574378, "learning_rate": 9.198e-05, "elapsed_time_per_iteration": 4.88920856, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 23s", "remaining_time": "13h 21m 0s", "loss_scale": 1.0, "consumed_samples": 736000, "global_step/max_steps": "2875/12700"}
{"lm loss": 2.17414999, "grad_norm": 0.52017182, "learning_rate": 9.197e-05, "elapsed_time_per_iteration": 4.93836284, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 28s", "remaining_time": "13h 20m 55s", "loss_scale": 1.0, "consumed_samples": 736256, "global_step/max_steps": "2876/12700"}
{"lm loss": 2.15718865, "grad_norm": 0.40380698, "learning_rate": 9.197e-05, "elapsed_time_per_iteration": 4.9565556, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 33s", "remaining_time": "13h 20m 50s", "loss_scale": 1.0, "consumed_samples": 736512, "global_step/max_steps": "2877/12700"}
{"lm loss": 2.14600945, "grad_norm": 0.51674235, "learning_rate": 9.196e-05, "elapsed_time_per_iteration": 4.96972394, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 38s", "remaining_time": "13h 20m 46s", "loss_scale": 1.0, "consumed_samples": 736768, "global_step/max_steps": "2878/12700"}
{"lm loss": 2.18876958, "grad_norm": 0.50253552, "learning_rate": 9.195e-05, "elapsed_time_per_iteration": 4.89755845, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 43s", "remaining_time": "13h 20m 41s", "loss_scale": 1.0, "consumed_samples": 737024, "global_step/max_steps": "2879/12700"}
{"lm loss": 2.15168905, "grad_norm": 0.41251516, "learning_rate": 9.195e-05, "elapsed_time_per_iteration": 4.90879488, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 48s", "remaining_time": "13h 20m 36s", "loss_scale": 1.0, "consumed_samples": 737280, "global_step/max_steps": "2880/12700"}
{"lm loss": 2.16974187, "grad_norm": 0.49817955, "learning_rate": 9.194e-05, "elapsed_time_per_iteration": 4.89264655, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 53s", "remaining_time": "13h 20m 31s", "loss_scale": 1.0, "consumed_samples": 737536, "global_step/max_steps": "2881/12700"}
{"lm loss": 2.14639473, "grad_norm": 0.45626092, "learning_rate": 9.193e-05, "elapsed_time_per_iteration": 4.80005932, "memory(GiB)": 28.98, "elapsed_time": "3h 54m 57s", "remaining_time": "13h 20m 26s", "loss_scale": 1.0, "consumed_samples": 737792, "global_step/max_steps": "2882/12700"}
{"lm loss": 2.17680764, "grad_norm": 0.47112066, "learning_rate": 9.193e-05, "elapsed_time_per_iteration": 4.95529222, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 2s", "remaining_time": "13h 20m 21s", "loss_scale": 1.0, "consumed_samples": 738048, "global_step/max_steps": "2883/12700"}
{"lm loss": 2.15873504, "grad_norm": 0.449016, "learning_rate": 9.192e-05, "elapsed_time_per_iteration": 5.04054379, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 7s", "remaining_time": "13h 20m 17s", "loss_scale": 1.0, "consumed_samples": 738304, "global_step/max_steps": "2884/12700"}
{"lm loss": 2.15882301, "grad_norm": 0.444148, "learning_rate": 9.191e-05, "elapsed_time_per_iteration": 4.86375093, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 12s", "remaining_time": "13h 20m 12s", "loss_scale": 1.0, "consumed_samples": 738560, "global_step/max_steps": "2885/12700"}
{"lm loss": 2.16440773, "grad_norm": 0.44389358, "learning_rate": 9.19e-05, "elapsed_time_per_iteration": 4.87313247, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 17s", "remaining_time": "13h 20m 7s", "loss_scale": 1.0, "consumed_samples": 738816, "global_step/max_steps": "2886/12700"}
{"lm loss": 2.17446446, "grad_norm": 0.44563779, "learning_rate": 9.19e-05, "elapsed_time_per_iteration": 4.79577875, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 22s", "remaining_time": "13h 20m 2s", "loss_scale": 1.0, "consumed_samples": 739072, "global_step/max_steps": "2887/12700"}
{"lm loss": 2.17967582, "grad_norm": 0.38847604, "learning_rate": 9.189e-05, "elapsed_time_per_iteration": 4.81958032, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 27s", "remaining_time": "13h 19m 57s", "loss_scale": 1.0, "consumed_samples": 739328, "global_step/max_steps": "2888/12700"}
{"lm loss": 2.14783239, "grad_norm": 0.42624232, "learning_rate": 9.188e-05, "elapsed_time_per_iteration": 4.82064199, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 31s", "remaining_time": "13h 19m 52s", "loss_scale": 1.0, "consumed_samples": 739584, "global_step/max_steps": "2889/12700"}
{"lm loss": 2.16350865, "grad_norm": 0.45502895, "learning_rate": 9.188e-05, "elapsed_time_per_iteration": 4.78848314, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 36s", "remaining_time": "13h 19m 46s", "loss_scale": 1.0, "consumed_samples": 739840, "global_step/max_steps": "2890/12700"}
{"lm loss": 2.11731815, "grad_norm": 0.43813553, "learning_rate": 9.187e-05, "elapsed_time_per_iteration": 4.82952476, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 41s", "remaining_time": "13h 19m 41s", "loss_scale": 1.0, "consumed_samples": 740096, "global_step/max_steps": "2891/12700"}
{"lm loss": 2.16683006, "grad_norm": 0.42581201, "learning_rate": 9.186e-05, "elapsed_time_per_iteration": 4.89409351, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 46s", "remaining_time": "13h 19m 36s", "loss_scale": 1.0, "consumed_samples": 740352, "global_step/max_steps": "2892/12700"}
{"lm loss": 2.18546128, "grad_norm": 0.43861356, "learning_rate": 9.186e-05, "elapsed_time_per_iteration": 4.88364434, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 51s", "remaining_time": "13h 19m 31s", "loss_scale": 1.0, "consumed_samples": 740608, "global_step/max_steps": "2893/12700"}
{"lm loss": 2.18124485, "grad_norm": 0.42390573, "learning_rate": 9.185e-05, "elapsed_time_per_iteration": 4.85249662, "memory(GiB)": 28.98, "elapsed_time": "3h 55m 56s", "remaining_time": "13h 19m 26s", "loss_scale": 1.0, "consumed_samples": 740864, "global_step/max_steps": "2894/12700"}
{"lm loss": 2.14629412, "grad_norm": 0.42437974, "learning_rate": 9.184e-05, "elapsed_time_per_iteration": 4.87416434, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 1s", "remaining_time": "13h 19m 21s", "loss_scale": 1.0, "consumed_samples": 741120, "global_step/max_steps": "2895/12700"}
{"lm loss": 2.13945889, "grad_norm": 0.44850224, "learning_rate": 9.183e-05, "elapsed_time_per_iteration": 4.91862941, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 6s", "remaining_time": "13h 19m 17s", "loss_scale": 1.0, "consumed_samples": 741376, "global_step/max_steps": "2896/12700"}
{"lm loss": 2.15574074, "grad_norm": 0.41167545, "learning_rate": 9.183e-05, "elapsed_time_per_iteration": 4.89942575, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 10s", "remaining_time": "13h 19m 12s", "loss_scale": 1.0, "consumed_samples": 741632, "global_step/max_steps": "2897/12700"}
{"lm loss": 2.16557503, "grad_norm": 0.40612182, "learning_rate": 9.182e-05, "elapsed_time_per_iteration": 4.88439035, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 15s", "remaining_time": "13h 19m 7s", "loss_scale": 1.0, "consumed_samples": 741888, "global_step/max_steps": "2898/12700"}
{"lm loss": 2.1587832, "grad_norm": 0.41383484, "learning_rate": 9.181e-05, "elapsed_time_per_iteration": 4.96302128, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 20s", "remaining_time": "13h 19m 2s", "loss_scale": 1.0, "consumed_samples": 742144, "global_step/max_steps": "2899/12700"}
{"lm loss": 2.15657473, "grad_norm": 0.42475531, "learning_rate": 9.181e-05, "elapsed_time_per_iteration": 4.79900455, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 25s", "remaining_time": "13h 18m 57s", "loss_scale": 1.0, "consumed_samples": 742400, "global_step/max_steps": "2900/12700"}
{"lm loss": 2.15388012, "grad_norm": 0.3923957, "learning_rate": 9.18e-05, "elapsed_time_per_iteration": 4.86187959, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 30s", "remaining_time": "13h 18m 52s", "loss_scale": 1.0, "consumed_samples": 742656, "global_step/max_steps": "2901/12700"}
{"lm loss": 2.16256762, "grad_norm": 0.40011734, "learning_rate": 9.179e-05, "elapsed_time_per_iteration": 4.81191134, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 35s", "remaining_time": "13h 18m 47s", "loss_scale": 1.0, "consumed_samples": 742912, "global_step/max_steps": "2902/12700"}
{"lm loss": 2.1545856, "grad_norm": 0.44174141, "learning_rate": 9.179e-05, "elapsed_time_per_iteration": 4.85141134, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 40s", "remaining_time": "13h 18m 42s", "loss_scale": 1.0, "consumed_samples": 743168, "global_step/max_steps": "2903/12700"}
{"lm loss": 2.15778875, "grad_norm": 0.44587481, "learning_rate": 9.178e-05, "elapsed_time_per_iteration": 4.96995974, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 45s", "remaining_time": "13h 18m 37s", "loss_scale": 1.0, "consumed_samples": 743424, "global_step/max_steps": "2904/12700"}
{"lm loss": 2.18942118, "grad_norm": 0.40463093, "learning_rate": 9.177e-05, "elapsed_time_per_iteration": 4.80839586, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 49s", "remaining_time": "13h 18m 32s", "loss_scale": 1.0, "consumed_samples": 743680, "global_step/max_steps": "2905/12700"}
{"lm loss": 2.17308617, "grad_norm": 0.47769284, "learning_rate": 9.176e-05, "elapsed_time_per_iteration": 4.9351511, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 54s", "remaining_time": "13h 18m 27s", "loss_scale": 1.0, "consumed_samples": 743936, "global_step/max_steps": "2906/12700"}
{"lm loss": 2.15375686, "grad_norm": 0.44506556, "learning_rate": 9.176e-05, "elapsed_time_per_iteration": 4.76913929, "memory(GiB)": 28.98, "elapsed_time": "3h 56m 59s", "remaining_time": "13h 18m 22s", "loss_scale": 1.0, "consumed_samples": 744192, "global_step/max_steps": "2907/12700"}
{"lm loss": 2.17858458, "grad_norm": 0.42549625, "learning_rate": 9.175e-05, "elapsed_time_per_iteration": 4.8763144, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 4s", "remaining_time": "13h 18m 17s", "loss_scale": 1.0, "consumed_samples": 744448, "global_step/max_steps": "2908/12700"}
{"lm loss": 2.19759059, "grad_norm": 0.40823269, "learning_rate": 9.174e-05, "elapsed_time_per_iteration": 4.98802423, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 9s", "remaining_time": "13h 18m 12s", "loss_scale": 1.0, "consumed_samples": 744704, "global_step/max_steps": "2909/12700"}
{"lm loss": 2.18357873, "grad_norm": 0.43728119, "learning_rate": 9.174e-05, "elapsed_time_per_iteration": 4.81580782, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 14s", "remaining_time": "13h 18m 7s", "loss_scale": 1.0, "consumed_samples": 744960, "global_step/max_steps": "2910/12700"}
{"lm loss": 2.13032866, "grad_norm": 0.41425729, "learning_rate": 9.173e-05, "elapsed_time_per_iteration": 4.81939983, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 19s", "remaining_time": "13h 18m 2s", "loss_scale": 1.0, "consumed_samples": 745216, "global_step/max_steps": "2911/12700"}
{"lm loss": 2.17082644, "grad_norm": 0.4179931, "learning_rate": 9.172e-05, "elapsed_time_per_iteration": 4.84980154, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 23s", "remaining_time": "13h 17m 57s", "loss_scale": 1.0, "consumed_samples": 745472, "global_step/max_steps": "2912/12700"}
{"lm loss": 2.15528393, "grad_norm": 0.47304636, "learning_rate": 9.171e-05, "elapsed_time_per_iteration": 4.94942331, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 28s", "remaining_time": "13h 17m 52s", "loss_scale": 1.0, "consumed_samples": 745728, "global_step/max_steps": "2913/12700"}
{"lm loss": 2.16632009, "grad_norm": 0.42403075, "learning_rate": 9.171e-05, "elapsed_time_per_iteration": 4.93998313, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 33s", "remaining_time": "13h 17m 48s", "loss_scale": 1.0, "consumed_samples": 745984, "global_step/max_steps": "2914/12700"}
{"lm loss": 2.18750334, "grad_norm": 0.42489842, "learning_rate": 9.17e-05, "elapsed_time_per_iteration": 4.80159688, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 38s", "remaining_time": "13h 17m 42s", "loss_scale": 1.0, "consumed_samples": 746240, "global_step/max_steps": "2915/12700"}
{"lm loss": 2.20075798, "grad_norm": 0.45049569, "learning_rate": 9.169e-05, "elapsed_time_per_iteration": 4.84976315, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 43s", "remaining_time": "13h 17m 37s", "loss_scale": 1.0, "consumed_samples": 746496, "global_step/max_steps": "2916/12700"}
{"lm loss": 2.13513088, "grad_norm": 0.41201514, "learning_rate": 9.169e-05, "elapsed_time_per_iteration": 4.86574435, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 48s", "remaining_time": "13h 17m 32s", "loss_scale": 1.0, "consumed_samples": 746752, "global_step/max_steps": "2917/12700"}
{"lm loss": 2.1616261, "grad_norm": 0.3863849, "learning_rate": 9.168e-05, "elapsed_time_per_iteration": 4.91371679, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 53s", "remaining_time": "13h 17m 28s", "loss_scale": 1.0, "consumed_samples": 747008, "global_step/max_steps": "2918/12700"}
{"lm loss": 2.12297964, "grad_norm": 0.41856375, "learning_rate": 9.167e-05, "elapsed_time_per_iteration": 4.92934918, "memory(GiB)": 28.98, "elapsed_time": "3h 57m 58s", "remaining_time": "13h 17m 23s", "loss_scale": 1.0, "consumed_samples": 747264, "global_step/max_steps": "2919/12700"}
{"lm loss": 2.17361569, "grad_norm": 0.39870718, "learning_rate": 9.167e-05, "elapsed_time_per_iteration": 4.8834548, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 3s", "remaining_time": "13h 17m 18s", "loss_scale": 1.0, "consumed_samples": 747520, "global_step/max_steps": "2920/12700"}
{"lm loss": 2.13648915, "grad_norm": 0.42885005, "learning_rate": 9.166e-05, "elapsed_time_per_iteration": 4.89116669, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 7s", "remaining_time": "13h 17m 13s", "loss_scale": 1.0, "consumed_samples": 747776, "global_step/max_steps": "2921/12700"}
{"lm loss": 2.15773487, "grad_norm": 0.45947239, "learning_rate": 9.165e-05, "elapsed_time_per_iteration": 4.86992359, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 12s", "remaining_time": "13h 17m 8s", "loss_scale": 1.0, "consumed_samples": 748032, "global_step/max_steps": "2922/12700"}
{"lm loss": 2.15200138, "grad_norm": 0.45475382, "learning_rate": 9.164e-05, "elapsed_time_per_iteration": 4.70755959, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 17s", "remaining_time": "13h 17m 3s", "loss_scale": 1.0, "consumed_samples": 748288, "global_step/max_steps": "2923/12700"}
{"lm loss": 2.18174911, "grad_norm": 0.42894298, "learning_rate": 9.164e-05, "elapsed_time_per_iteration": 4.82589221, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 22s", "remaining_time": "13h 16m 58s", "loss_scale": 1.0, "consumed_samples": 748544, "global_step/max_steps": "2924/12700"}
{"lm loss": 2.16320777, "grad_norm": 0.48644525, "learning_rate": 9.163e-05, "elapsed_time_per_iteration": 4.99603748, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 27s", "remaining_time": "13h 16m 53s", "loss_scale": 1.0, "consumed_samples": 748800, "global_step/max_steps": "2925/12700"}
{"lm loss": 2.20934319, "grad_norm": 0.48521113, "learning_rate": 9.162e-05, "elapsed_time_per_iteration": 4.95472646, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 32s", "remaining_time": "13h 16m 48s", "loss_scale": 1.0, "consumed_samples": 749056, "global_step/max_steps": "2926/12700"}
{"lm loss": 2.14056754, "grad_norm": 0.4177928, "learning_rate": 9.162e-05, "elapsed_time_per_iteration": 4.84823632, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 37s", "remaining_time": "13h 16m 43s", "loss_scale": 1.0, "consumed_samples": 749312, "global_step/max_steps": "2927/12700"}
{"lm loss": 2.13554454, "grad_norm": 0.45133966, "learning_rate": 9.161e-05, "elapsed_time_per_iteration": 4.8458128, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 42s", "remaining_time": "13h 16m 38s", "loss_scale": 1.0, "consumed_samples": 749568, "global_step/max_steps": "2928/12700"}
{"lm loss": 2.16684127, "grad_norm": 0.4297235, "learning_rate": 9.16e-05, "elapsed_time_per_iteration": 4.82179403, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 46s", "remaining_time": "13h 16m 33s", "loss_scale": 1.0, "consumed_samples": 749824, "global_step/max_steps": "2929/12700"}
{"lm loss": 2.1441102, "grad_norm": 0.44081178, "learning_rate": 9.159e-05, "elapsed_time_per_iteration": 4.91868043, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 51s", "remaining_time": "13h 16m 28s", "loss_scale": 1.0, "consumed_samples": 750080, "global_step/max_steps": "2930/12700"}
{"lm loss": 2.16162562, "grad_norm": 0.41616863, "learning_rate": 9.159e-05, "elapsed_time_per_iteration": 4.91447377, "memory(GiB)": 28.98, "elapsed_time": "3h 58m 56s", "remaining_time": "13h 16m 23s", "loss_scale": 1.0, "consumed_samples": 750336, "global_step/max_steps": "2931/12700"}
{"lm loss": 2.16606069, "grad_norm": 0.47254804, "learning_rate": 9.158e-05, "elapsed_time_per_iteration": 4.8137939, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 1s", "remaining_time": "13h 16m 18s", "loss_scale": 1.0, "consumed_samples": 750592, "global_step/max_steps": "2932/12700"}
{"lm loss": 2.16808295, "grad_norm": 0.43668285, "learning_rate": 9.157e-05, "elapsed_time_per_iteration": 4.87090397, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 6s", "remaining_time": "13h 16m 13s", "loss_scale": 1.0, "consumed_samples": 750848, "global_step/max_steps": "2933/12700"}
{"lm loss": 2.1611445, "grad_norm": 0.39438051, "learning_rate": 9.157e-05, "elapsed_time_per_iteration": 4.87329531, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 11s", "remaining_time": "13h 16m 8s", "loss_scale": 1.0, "consumed_samples": 751104, "global_step/max_steps": "2934/12700"}
{"lm loss": 2.1454103, "grad_norm": 0.45615184, "learning_rate": 9.156e-05, "elapsed_time_per_iteration": 4.87034917, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 16s", "remaining_time": "13h 16m 3s", "loss_scale": 1.0, "consumed_samples": 751360, "global_step/max_steps": "2935/12700"}
{"lm loss": 2.15430808, "grad_norm": 0.40726891, "learning_rate": 9.155e-05, "elapsed_time_per_iteration": 4.78182483, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 20s", "remaining_time": "13h 15m 58s", "loss_scale": 1.0, "consumed_samples": 751616, "global_step/max_steps": "2936/12700"}
{"lm loss": 2.17255688, "grad_norm": 0.42131653, "learning_rate": 9.154e-05, "elapsed_time_per_iteration": 4.83848262, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 25s", "remaining_time": "13h 15m 53s", "loss_scale": 1.0, "consumed_samples": 751872, "global_step/max_steps": "2937/12700"}
{"lm loss": 2.12162447, "grad_norm": 0.40327999, "learning_rate": 9.154e-05, "elapsed_time_per_iteration": 4.88416481, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 30s", "remaining_time": "13h 15m 48s", "loss_scale": 1.0, "consumed_samples": 752128, "global_step/max_steps": "2938/12700"}
{"lm loss": 2.15539742, "grad_norm": 0.43178225, "learning_rate": 9.153e-05, "elapsed_time_per_iteration": 4.86738682, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 35s", "remaining_time": "13h 15m 43s", "loss_scale": 1.0, "consumed_samples": 752384, "global_step/max_steps": "2939/12700"}
{"lm loss": 2.15244722, "grad_norm": 0.42423531, "learning_rate": 9.152e-05, "elapsed_time_per_iteration": 4.90830851, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 40s", "remaining_time": "13h 15m 38s", "loss_scale": 1.0, "consumed_samples": 752640, "global_step/max_steps": "2940/12700"}
{"lm loss": 2.20282793, "grad_norm": 0.41967934, "learning_rate": 9.152e-05, "elapsed_time_per_iteration": 4.92775297, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 45s", "remaining_time": "13h 15m 34s", "loss_scale": 1.0, "consumed_samples": 752896, "global_step/max_steps": "2941/12700"}
{"lm loss": 2.16096139, "grad_norm": 0.41782305, "learning_rate": 9.151e-05, "elapsed_time_per_iteration": 4.86763215, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 50s", "remaining_time": "13h 15m 29s", "loss_scale": 1.0, "consumed_samples": 753152, "global_step/max_steps": "2942/12700"}
{"lm loss": 2.14274192, "grad_norm": 0.41121617, "learning_rate": 9.15e-05, "elapsed_time_per_iteration": 4.80323911, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 54s", "remaining_time": "13h 15m 23s", "loss_scale": 1.0, "consumed_samples": 753408, "global_step/max_steps": "2943/12700"}
{"lm loss": 2.15595818, "grad_norm": 0.37334481, "learning_rate": 9.149e-05, "elapsed_time_per_iteration": 4.91896439, "memory(GiB)": 28.98, "elapsed_time": "3h 59m 59s", "remaining_time": "13h 15m 19s", "loss_scale": 1.0, "consumed_samples": 753664, "global_step/max_steps": "2944/12700"}
{"lm loss": 2.17206955, "grad_norm": 0.37246847, "learning_rate": 9.149e-05, "elapsed_time_per_iteration": 4.82097912, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 4s", "remaining_time": "13h 15m 14s", "loss_scale": 1.0, "consumed_samples": 753920, "global_step/max_steps": "2945/12700"}
{"lm loss": 2.14140654, "grad_norm": 0.39321145, "learning_rate": 9.148e-05, "elapsed_time_per_iteration": 4.89830256, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 9s", "remaining_time": "13h 15m 9s", "loss_scale": 1.0, "consumed_samples": 754176, "global_step/max_steps": "2946/12700"}
{"lm loss": 2.1779058, "grad_norm": 0.40953571, "learning_rate": 9.147e-05, "elapsed_time_per_iteration": 4.8723805, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 14s", "remaining_time": "13h 15m 4s", "loss_scale": 1.0, "consumed_samples": 754432, "global_step/max_steps": "2947/12700"}
{"lm loss": 2.16277313, "grad_norm": 0.42401156, "learning_rate": 9.147e-05, "elapsed_time_per_iteration": 4.84916258, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 19s", "remaining_time": "13h 14m 59s", "loss_scale": 1.0, "consumed_samples": 754688, "global_step/max_steps": "2948/12700"}
{"lm loss": 2.16095543, "grad_norm": 0.40743843, "learning_rate": 9.146e-05, "elapsed_time_per_iteration": 5.04074621, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 24s", "remaining_time": "13h 14m 54s", "loss_scale": 1.0, "consumed_samples": 754944, "global_step/max_steps": "2949/12700"}
{"lm loss": 2.16067743, "grad_norm": 0.40682414, "learning_rate": 9.145e-05, "elapsed_time_per_iteration": 4.87057137, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 29s", "remaining_time": "13h 14m 49s", "loss_scale": 1.0, "consumed_samples": 755200, "global_step/max_steps": "2950/12700"}
{"lm loss": 2.1471355, "grad_norm": 0.43061763, "learning_rate": 9.144e-05, "elapsed_time_per_iteration": 4.88869834, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 34s", "remaining_time": "13h 14m 44s", "loss_scale": 1.0, "consumed_samples": 755456, "global_step/max_steps": "2951/12700"}
{"lm loss": 2.19809699, "grad_norm": 0.37963346, "learning_rate": 9.144e-05, "elapsed_time_per_iteration": 4.83505321, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 38s", "remaining_time": "13h 14m 39s", "loss_scale": 1.0, "consumed_samples": 755712, "global_step/max_steps": "2952/12700"}
{"lm loss": 2.16329074, "grad_norm": 0.4267303, "learning_rate": 9.143e-05, "elapsed_time_per_iteration": 4.91722703, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 43s", "remaining_time": "13h 14m 35s", "loss_scale": 1.0, "consumed_samples": 755968, "global_step/max_steps": "2953/12700"}
{"lm loss": 2.18412471, "grad_norm": 0.43819514, "learning_rate": 9.142e-05, "elapsed_time_per_iteration": 4.78566051, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 48s", "remaining_time": "13h 14m 29s", "loss_scale": 1.0, "consumed_samples": 756224, "global_step/max_steps": "2954/12700"}
{"lm loss": 2.17429686, "grad_norm": 0.40491953, "learning_rate": 9.142e-05, "elapsed_time_per_iteration": 4.89645481, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 53s", "remaining_time": "13h 14m 24s", "loss_scale": 1.0, "consumed_samples": 756480, "global_step/max_steps": "2955/12700"}
{"lm loss": 2.17141414, "grad_norm": 0.38414431, "learning_rate": 9.141e-05, "elapsed_time_per_iteration": 4.88015747, "memory(GiB)": 28.98, "elapsed_time": "4h 0m 58s", "remaining_time": "13h 14m 20s", "loss_scale": 1.0, "consumed_samples": 756736, "global_step/max_steps": "2956/12700"}
{"lm loss": 2.19267964, "grad_norm": 0.41809648, "learning_rate": 9.14e-05, "elapsed_time_per_iteration": 4.90662003, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 3s", "remaining_time": "13h 14m 15s", "loss_scale": 1.0, "consumed_samples": 756992, "global_step/max_steps": "2957/12700"}
{"lm loss": 2.13857818, "grad_norm": 0.45157304, "learning_rate": 9.139e-05, "elapsed_time_per_iteration": 4.91861057, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 8s", "remaining_time": "13h 14m 10s", "loss_scale": 1.0, "consumed_samples": 757248, "global_step/max_steps": "2958/12700"}
{"lm loss": 2.1434145, "grad_norm": 0.39837602, "learning_rate": 9.139e-05, "elapsed_time_per_iteration": 4.87286663, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 13s", "remaining_time": "13h 14m 5s", "loss_scale": 1.0, "consumed_samples": 757504, "global_step/max_steps": "2959/12700"}
{"lm loss": 2.17136502, "grad_norm": 0.42542782, "learning_rate": 9.138e-05, "elapsed_time_per_iteration": 4.97346568, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 18s", "remaining_time": "13h 14m 0s", "loss_scale": 1.0, "consumed_samples": 757760, "global_step/max_steps": "2960/12700"}
{"lm loss": 2.14700937, "grad_norm": 0.43869594, "learning_rate": 9.137e-05, "elapsed_time_per_iteration": 4.9418962, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 23s", "remaining_time": "13h 13m 56s", "loss_scale": 1.0, "consumed_samples": 758016, "global_step/max_steps": "2961/12700"}
{"lm loss": 2.16750836, "grad_norm": 0.44251972, "learning_rate": 9.137e-05, "elapsed_time_per_iteration": 4.83180904, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 27s", "remaining_time": "13h 13m 51s", "loss_scale": 1.0, "consumed_samples": 758272, "global_step/max_steps": "2962/12700"}
{"lm loss": 2.17393184, "grad_norm": 0.45108724, "learning_rate": 9.136e-05, "elapsed_time_per_iteration": 4.85391116, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 32s", "remaining_time": "13h 13m 45s", "loss_scale": 1.0, "consumed_samples": 758528, "global_step/max_steps": "2963/12700"}
{"lm loss": 2.185256, "grad_norm": 0.39242104, "learning_rate": 9.135e-05, "elapsed_time_per_iteration": 4.84336019, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 37s", "remaining_time": "13h 13m 40s", "loss_scale": 1.0, "consumed_samples": 758784, "global_step/max_steps": "2964/12700"}
{"lm loss": 2.16731644, "grad_norm": 0.45014259, "learning_rate": 9.134e-05, "elapsed_time_per_iteration": 4.87551618, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 42s", "remaining_time": "13h 13m 36s", "loss_scale": 1.0, "consumed_samples": 759040, "global_step/max_steps": "2965/12700"}
{"lm loss": 2.16873121, "grad_norm": 0.40793297, "learning_rate": 9.134e-05, "elapsed_time_per_iteration": 4.90885162, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 47s", "remaining_time": "13h 13m 31s", "loss_scale": 1.0, "consumed_samples": 759296, "global_step/max_steps": "2966/12700"}
{"lm loss": 2.17018199, "grad_norm": 0.42264751, "learning_rate": 9.133e-05, "elapsed_time_per_iteration": 4.75141931, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 52s", "remaining_time": "13h 13m 25s", "loss_scale": 1.0, "consumed_samples": 759552, "global_step/max_steps": "2967/12700"}
{"lm loss": 2.18759608, "grad_norm": 0.40542492, "learning_rate": 9.132e-05, "elapsed_time_per_iteration": 4.95961118, "memory(GiB)": 28.98, "elapsed_time": "4h 1m 57s", "remaining_time": "13h 13m 21s", "loss_scale": 1.0, "consumed_samples": 759808, "global_step/max_steps": "2968/12700"}
{"lm loss": 2.13101602, "grad_norm": 0.43466508, "learning_rate": 9.132e-05, "elapsed_time_per_iteration": 4.85232759, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 1s", "remaining_time": "13h 13m 16s", "loss_scale": 1.0, "consumed_samples": 760064, "global_step/max_steps": "2969/12700"}
{"lm loss": 2.16708589, "grad_norm": 0.4115454, "learning_rate": 9.131e-05, "elapsed_time_per_iteration": 4.79152298, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 6s", "remaining_time": "13h 13m 10s", "loss_scale": 1.0, "consumed_samples": 760320, "global_step/max_steps": "2970/12700"}
{"lm loss": 2.15153003, "grad_norm": 0.47784212, "learning_rate": 9.13e-05, "elapsed_time_per_iteration": 4.91603994, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 11s", "remaining_time": "13h 13m 6s", "loss_scale": 1.0, "consumed_samples": 760576, "global_step/max_steps": "2971/12700"}
{"lm loss": 2.14620948, "grad_norm": 0.4010736, "learning_rate": 9.129e-05, "elapsed_time_per_iteration": 4.90870333, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 16s", "remaining_time": "13h 13m 1s", "loss_scale": 1.0, "consumed_samples": 760832, "global_step/max_steps": "2972/12700"}
{"lm loss": 2.18140578, "grad_norm": 0.40682656, "learning_rate": 9.129e-05, "elapsed_time_per_iteration": 4.99783254, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 21s", "remaining_time": "13h 12m 56s", "loss_scale": 1.0, "consumed_samples": 761088, "global_step/max_steps": "2973/12700"}
{"lm loss": 2.19070506, "grad_norm": 0.38774055, "learning_rate": 9.128e-05, "elapsed_time_per_iteration": 4.82824993, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 26s", "remaining_time": "13h 12m 51s", "loss_scale": 1.0, "consumed_samples": 761344, "global_step/max_steps": "2974/12700"}
{"lm loss": 2.19201994, "grad_norm": 0.39155382, "learning_rate": 9.127e-05, "elapsed_time_per_iteration": 5.00737596, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 31s", "remaining_time": "13h 12m 47s", "loss_scale": 1.0, "consumed_samples": 761600, "global_step/max_steps": "2975/12700"}
{"lm loss": 2.17156196, "grad_norm": 0.37583002, "learning_rate": 9.126e-05, "elapsed_time_per_iteration": 4.92119622, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 36s", "remaining_time": "13h 12m 42s", "loss_scale": 1.0, "consumed_samples": 761856, "global_step/max_steps": "2976/12700"}
{"lm loss": 2.20110178, "grad_norm": 0.41087294, "learning_rate": 9.126e-05, "elapsed_time_per_iteration": 4.84446096, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 41s", "remaining_time": "13h 12m 37s", "loss_scale": 1.0, "consumed_samples": 762112, "global_step/max_steps": "2977/12700"}
{"lm loss": 2.15301561, "grad_norm": 0.38506263, "learning_rate": 9.125e-05, "elapsed_time_per_iteration": 4.96792006, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 46s", "remaining_time": "13h 12m 32s", "loss_scale": 1.0, "consumed_samples": 762368, "global_step/max_steps": "2978/12700"}
{"lm loss": 2.1625433, "grad_norm": 0.40954456, "learning_rate": 9.124e-05, "elapsed_time_per_iteration": 4.92000246, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 51s", "remaining_time": "13h 12m 27s", "loss_scale": 1.0, "consumed_samples": 762624, "global_step/max_steps": "2979/12700"}
{"lm loss": 2.12648845, "grad_norm": 0.39509276, "learning_rate": 9.124e-05, "elapsed_time_per_iteration": 4.88028121, "memory(GiB)": 28.98, "elapsed_time": "4h 2m 55s", "remaining_time": "13h 12m 22s", "loss_scale": 1.0, "consumed_samples": 762880, "global_step/max_steps": "2980/12700"}
{"lm loss": 2.15719128, "grad_norm": 0.40458593, "learning_rate": 9.123e-05, "elapsed_time_per_iteration": 4.85774899, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 0s", "remaining_time": "13h 12m 17s", "loss_scale": 1.0, "consumed_samples": 763136, "global_step/max_steps": "2981/12700"}
{"lm loss": 2.16984272, "grad_norm": 0.40028062, "learning_rate": 9.122e-05, "elapsed_time_per_iteration": 4.78428197, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 5s", "remaining_time": "13h 12m 12s", "loss_scale": 1.0, "consumed_samples": 763392, "global_step/max_steps": "2982/12700"}
{"lm loss": 2.14096618, "grad_norm": 0.39995494, "learning_rate": 9.121e-05, "elapsed_time_per_iteration": 4.80062246, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 10s", "remaining_time": "13h 12m 7s", "loss_scale": 1.0, "consumed_samples": 763648, "global_step/max_steps": "2983/12700"}
{"lm loss": 2.16773343, "grad_norm": 0.42395729, "learning_rate": 9.121e-05, "elapsed_time_per_iteration": 4.89019775, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 15s", "remaining_time": "13h 12m 2s", "loss_scale": 1.0, "consumed_samples": 763904, "global_step/max_steps": "2984/12700"}
{"lm loss": 2.16650462, "grad_norm": 0.41622964, "learning_rate": 9.12e-05, "elapsed_time_per_iteration": 4.87489653, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 20s", "remaining_time": "13h 11m 57s", "loss_scale": 1.0, "consumed_samples": 764160, "global_step/max_steps": "2985/12700"}
{"lm loss": 2.143538, "grad_norm": 0.4603979, "learning_rate": 9.119e-05, "elapsed_time_per_iteration": 4.88389683, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 25s", "remaining_time": "13h 11m 52s", "loss_scale": 1.0, "consumed_samples": 764416, "global_step/max_steps": "2986/12700"}
{"lm loss": 2.17094445, "grad_norm": 0.4838374, "learning_rate": 9.119e-05, "elapsed_time_per_iteration": 4.83171344, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 29s", "remaining_time": "13h 11m 47s", "loss_scale": 1.0, "consumed_samples": 764672, "global_step/max_steps": "2987/12700"}
{"lm loss": 2.1546092, "grad_norm": 0.38871822, "learning_rate": 9.118e-05, "elapsed_time_per_iteration": 4.94926643, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 34s", "remaining_time": "13h 11m 42s", "loss_scale": 1.0, "consumed_samples": 764928, "global_step/max_steps": "2988/12700"}
{"lm loss": 2.13346148, "grad_norm": 0.4737896, "learning_rate": 9.117e-05, "elapsed_time_per_iteration": 4.86979651, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 39s", "remaining_time": "13h 11m 37s", "loss_scale": 1.0, "consumed_samples": 765184, "global_step/max_steps": "2989/12700"}
{"lm loss": 2.15056109, "grad_norm": 0.4369365, "learning_rate": 9.116e-05, "elapsed_time_per_iteration": 4.8743031, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 44s", "remaining_time": "13h 11m 33s", "loss_scale": 1.0, "consumed_samples": 765440, "global_step/max_steps": "2990/12700"}
{"lm loss": 2.17519879, "grad_norm": 0.44290736, "learning_rate": 9.116e-05, "elapsed_time_per_iteration": 4.89743495, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 49s", "remaining_time": "13h 11m 28s", "loss_scale": 1.0, "consumed_samples": 765696, "global_step/max_steps": "2991/12700"}
{"lm loss": 2.16662431, "grad_norm": 0.46576181, "learning_rate": 9.115e-05, "elapsed_time_per_iteration": 4.85577774, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 54s", "remaining_time": "13h 11m 23s", "loss_scale": 1.0, "consumed_samples": 765952, "global_step/max_steps": "2992/12700"}
{"lm loss": 2.15318942, "grad_norm": 0.4182606, "learning_rate": 9.114e-05, "elapsed_time_per_iteration": 4.85921884, "memory(GiB)": 28.98, "elapsed_time": "4h 3m 59s", "remaining_time": "13h 11m 18s", "loss_scale": 1.0, "consumed_samples": 766208, "global_step/max_steps": "2993/12700"}
{"lm loss": 2.13923144, "grad_norm": 0.41786844, "learning_rate": 9.113e-05, "elapsed_time_per_iteration": 4.91132975, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 4s", "remaining_time": "13h 11m 13s", "loss_scale": 1.0, "consumed_samples": 766464, "global_step/max_steps": "2994/12700"}
{"lm loss": 2.14944196, "grad_norm": 0.4614616, "learning_rate": 9.113e-05, "elapsed_time_per_iteration": 4.91037393, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 8s", "remaining_time": "13h 11m 8s", "loss_scale": 1.0, "consumed_samples": 766720, "global_step/max_steps": "2995/12700"}
{"lm loss": 2.15124083, "grad_norm": 0.42807496, "learning_rate": 9.112e-05, "elapsed_time_per_iteration": 4.92505479, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 13s", "remaining_time": "13h 11m 3s", "loss_scale": 1.0, "consumed_samples": 766976, "global_step/max_steps": "2996/12700"}
{"lm loss": 2.16346765, "grad_norm": 0.44520405, "learning_rate": 9.111e-05, "elapsed_time_per_iteration": 4.99354482, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 18s", "remaining_time": "13h 10m 59s", "loss_scale": 1.0, "consumed_samples": 767232, "global_step/max_steps": "2997/12700"}
{"lm loss": 2.14983225, "grad_norm": 0.54469705, "learning_rate": 9.111e-05, "elapsed_time_per_iteration": 4.87846994, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 23s", "remaining_time": "13h 10m 54s", "loss_scale": 1.0, "consumed_samples": 767488, "global_step/max_steps": "2998/12700"}
{"lm loss": 2.16495943, "grad_norm": 0.40925789, "learning_rate": 9.11e-05, "elapsed_time_per_iteration": 4.8579092, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 28s", "remaining_time": "13h 10m 49s", "loss_scale": 1.0, "consumed_samples": 767744, "global_step/max_steps": "2999/12700"}
{"lm loss": 2.18384886, "grad_norm": 0.50049537, "learning_rate": 9.109e-05, "elapsed_time_per_iteration": 4.94166803, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 33s", "remaining_time": "13h 10m 44s", "loss_scale": 1.0, "consumed_samples": 768000, "global_step/max_steps": "3000/12700"}
{"lm loss": 2.15181804, "grad_norm": 0.45956576, "learning_rate": 9.108e-05, "elapsed_time_per_iteration": 4.94317317, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 38s", "remaining_time": "13h 10m 39s", "loss_scale": 1.0, "consumed_samples": 768256, "global_step/max_steps": "3001/12700"}
{"lm loss": 2.17434287, "grad_norm": 0.41671821, "learning_rate": 9.108e-05, "elapsed_time_per_iteration": 4.88841438, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 43s", "remaining_time": "13h 10m 34s", "loss_scale": 1.0, "consumed_samples": 768512, "global_step/max_steps": "3002/12700"}
{"lm loss": 2.16517854, "grad_norm": 0.49783009, "learning_rate": 9.107e-05, "elapsed_time_per_iteration": 4.87188196, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 48s", "remaining_time": "13h 10m 29s", "loss_scale": 1.0, "consumed_samples": 768768, "global_step/max_steps": "3003/12700"}
{"lm loss": 2.17539859, "grad_norm": 0.47382498, "learning_rate": 9.106e-05, "elapsed_time_per_iteration": 4.82639575, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 53s", "remaining_time": "13h 10m 24s", "loss_scale": 1.0, "consumed_samples": 769024, "global_step/max_steps": "3004/12700"}
{"lm loss": 2.15401888, "grad_norm": 0.44262049, "learning_rate": 9.105e-05, "elapsed_time_per_iteration": 4.91290379, "memory(GiB)": 28.98, "elapsed_time": "4h 4m 58s", "remaining_time": "13h 10m 20s", "loss_scale": 1.0, "consumed_samples": 769280, "global_step/max_steps": "3005/12700"}
{"lm loss": 2.13308954, "grad_norm": 0.42807037, "learning_rate": 9.105e-05, "elapsed_time_per_iteration": 4.8767941, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 2s", "remaining_time": "13h 10m 15s", "loss_scale": 1.0, "consumed_samples": 769536, "global_step/max_steps": "3006/12700"}
{"lm loss": 2.17519045, "grad_norm": 0.44210961, "learning_rate": 9.104e-05, "elapsed_time_per_iteration": 4.93943954, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 7s", "remaining_time": "13h 10m 10s", "loss_scale": 1.0, "consumed_samples": 769792, "global_step/max_steps": "3007/12700"}
{"lm loss": 2.17662191, "grad_norm": 0.46403122, "learning_rate": 9.103e-05, "elapsed_time_per_iteration": 4.86735225, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 12s", "remaining_time": "13h 10m 5s", "loss_scale": 1.0, "consumed_samples": 770048, "global_step/max_steps": "3008/12700"}
{"lm loss": 2.20670867, "grad_norm": 0.43738392, "learning_rate": 9.102e-05, "elapsed_time_per_iteration": 4.83324981, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 17s", "remaining_time": "13h 10m 0s", "loss_scale": 1.0, "consumed_samples": 770304, "global_step/max_steps": "3009/12700"}
{"lm loss": 2.16383195, "grad_norm": 0.43375909, "learning_rate": 9.102e-05, "elapsed_time_per_iteration": 4.97224593, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 22s", "remaining_time": "13h 9m 55s", "loss_scale": 1.0, "consumed_samples": 770560, "global_step/max_steps": "3010/12700"}
{"lm loss": 2.1351161, "grad_norm": 0.47138688, "learning_rate": 9.101e-05, "elapsed_time_per_iteration": 4.91427398, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 27s", "remaining_time": "13h 9m 50s", "loss_scale": 1.0, "consumed_samples": 770816, "global_step/max_steps": "3011/12700"}
{"lm loss": 2.16089535, "grad_norm": 0.44927925, "learning_rate": 9.1e-05, "elapsed_time_per_iteration": 4.86041451, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 32s", "remaining_time": "13h 9m 45s", "loss_scale": 1.0, "consumed_samples": 771072, "global_step/max_steps": "3012/12700"}
{"lm loss": 2.16738677, "grad_norm": 0.45612657, "learning_rate": 9.1e-05, "elapsed_time_per_iteration": 4.87695289, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 37s", "remaining_time": "13h 9m 40s", "loss_scale": 1.0, "consumed_samples": 771328, "global_step/max_steps": "3013/12700"}
{"lm loss": 2.15391636, "grad_norm": 0.44021505, "learning_rate": 9.099e-05, "elapsed_time_per_iteration": 4.87585473, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 42s", "remaining_time": "13h 9m 35s", "loss_scale": 1.0, "consumed_samples": 771584, "global_step/max_steps": "3014/12700"}
{"lm loss": 2.12858272, "grad_norm": 0.44002703, "learning_rate": 9.098e-05, "elapsed_time_per_iteration": 4.86069536, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 46s", "remaining_time": "13h 9m 31s", "loss_scale": 1.0, "consumed_samples": 771840, "global_step/max_steps": "3015/12700"}
{"lm loss": 2.18436623, "grad_norm": 0.4337866, "learning_rate": 9.097e-05, "elapsed_time_per_iteration": 4.89448714, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 51s", "remaining_time": "13h 9m 26s", "loss_scale": 1.0, "consumed_samples": 772096, "global_step/max_steps": "3016/12700"}
{"lm loss": 2.17837095, "grad_norm": 0.46563658, "learning_rate": 9.097e-05, "elapsed_time_per_iteration": 4.7755518, "memory(GiB)": 28.98, "elapsed_time": "4h 5m 56s", "remaining_time": "13h 9m 20s", "loss_scale": 1.0, "consumed_samples": 772352, "global_step/max_steps": "3017/12700"}
{"lm loss": 2.1961782, "grad_norm": 0.40518084, "learning_rate": 9.096e-05, "elapsed_time_per_iteration": 4.8914547, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 1s", "remaining_time": "13h 9m 15s", "loss_scale": 1.0, "consumed_samples": 772608, "global_step/max_steps": "3018/12700"}
{"lm loss": 2.15659928, "grad_norm": 0.45068774, "learning_rate": 9.095e-05, "elapsed_time_per_iteration": 4.97130632, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 6s", "remaining_time": "13h 9m 11s", "loss_scale": 1.0, "consumed_samples": 772864, "global_step/max_steps": "3019/12700"}
{"lm loss": 2.16235876, "grad_norm": 0.39276192, "learning_rate": 9.094e-05, "elapsed_time_per_iteration": 4.95024729, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 11s", "remaining_time": "13h 9m 6s", "loss_scale": 1.0, "consumed_samples": 773120, "global_step/max_steps": "3020/12700"}
{"lm loss": 2.19978595, "grad_norm": 0.42515743, "learning_rate": 9.094e-05, "elapsed_time_per_iteration": 4.84365773, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 16s", "remaining_time": "13h 9m 1s", "loss_scale": 1.0, "consumed_samples": 773376, "global_step/max_steps": "3021/12700"}
{"lm loss": 2.17318654, "grad_norm": 0.43791154, "learning_rate": 9.093e-05, "elapsed_time_per_iteration": 4.95481133, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 21s", "remaining_time": "13h 8m 56s", "loss_scale": 1.0, "consumed_samples": 773632, "global_step/max_steps": "3022/12700"}
{"lm loss": 2.16566682, "grad_norm": 0.40406916, "learning_rate": 9.092e-05, "elapsed_time_per_iteration": 4.97971678, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 26s", "remaining_time": "13h 8m 52s", "loss_scale": 1.0, "consumed_samples": 773888, "global_step/max_steps": "3023/12700"}
{"lm loss": 2.16748786, "grad_norm": 0.42834365, "learning_rate": 9.091e-05, "elapsed_time_per_iteration": 4.81843376, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 30s", "remaining_time": "13h 8m 47s", "loss_scale": 1.0, "consumed_samples": 774144, "global_step/max_steps": "3024/12700"}
{"lm loss": 2.18869829, "grad_norm": 0.3940731, "learning_rate": 9.091e-05, "elapsed_time_per_iteration": 4.84942532, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 35s", "remaining_time": "13h 8m 42s", "loss_scale": 1.0, "consumed_samples": 774400, "global_step/max_steps": "3025/12700"}
{"lm loss": 2.12539768, "grad_norm": 0.40352437, "learning_rate": 9.09e-05, "elapsed_time_per_iteration": 4.98262143, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 40s", "remaining_time": "13h 8m 37s", "loss_scale": 1.0, "consumed_samples": 774656, "global_step/max_steps": "3026/12700"}
{"lm loss": 2.14862037, "grad_norm": 0.4168711, "learning_rate": 9.089e-05, "elapsed_time_per_iteration": 4.85339689, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 45s", "remaining_time": "13h 8m 32s", "loss_scale": 1.0, "consumed_samples": 774912, "global_step/max_steps": "3027/12700"}
{"lm loss": 2.17479181, "grad_norm": 0.41453299, "learning_rate": 9.089e-05, "elapsed_time_per_iteration": 4.91693258, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 50s", "remaining_time": "13h 8m 27s", "loss_scale": 1.0, "consumed_samples": 775168, "global_step/max_steps": "3028/12700"}
{"lm loss": 2.15820217, "grad_norm": 0.38370904, "learning_rate": 9.088e-05, "elapsed_time_per_iteration": 4.9044466, "memory(GiB)": 28.98, "elapsed_time": "4h 6m 55s", "remaining_time": "13h 8m 22s", "loss_scale": 1.0, "consumed_samples": 775424, "global_step/max_steps": "3029/12700"}
{"lm loss": 2.19480014, "grad_norm": 0.41272107, "learning_rate": 9.087e-05, "elapsed_time_per_iteration": 4.86411929, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 0s", "remaining_time": "13h 8m 17s", "loss_scale": 1.0, "consumed_samples": 775680, "global_step/max_steps": "3030/12700"}
{"lm loss": 2.15545964, "grad_norm": 0.39316487, "learning_rate": 9.086e-05, "elapsed_time_per_iteration": 4.98731041, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 5s", "remaining_time": "13h 8m 13s", "loss_scale": 1.0, "consumed_samples": 775936, "global_step/max_steps": "3031/12700"}
{"lm loss": 2.14892936, "grad_norm": 0.40125114, "learning_rate": 9.086e-05, "elapsed_time_per_iteration": 4.92195916, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 10s", "remaining_time": "13h 8m 8s", "loss_scale": 1.0, "consumed_samples": 776192, "global_step/max_steps": "3032/12700"}
{"lm loss": 2.16184139, "grad_norm": 0.38543853, "learning_rate": 9.085e-05, "elapsed_time_per_iteration": 4.86856794, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 15s", "remaining_time": "13h 8m 3s", "loss_scale": 1.0, "consumed_samples": 776448, "global_step/max_steps": "3033/12700"}
{"lm loss": 2.17310286, "grad_norm": 0.40077025, "learning_rate": 9.084e-05, "elapsed_time_per_iteration": 4.83331108, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 19s", "remaining_time": "13h 7m 58s", "loss_scale": 1.0, "consumed_samples": 776704, "global_step/max_steps": "3034/12700"}
{"lm loss": 2.17014766, "grad_norm": 0.41572246, "learning_rate": 9.083e-05, "elapsed_time_per_iteration": 4.91879582, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 24s", "remaining_time": "13h 7m 53s", "loss_scale": 1.0, "consumed_samples": 776960, "global_step/max_steps": "3035/12700"}
{"lm loss": 2.17256641, "grad_norm": 0.40400317, "learning_rate": 9.083e-05, "elapsed_time_per_iteration": 4.81450963, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 29s", "remaining_time": "13h 7m 48s", "loss_scale": 1.0, "consumed_samples": 777216, "global_step/max_steps": "3036/12700"}
{"lm loss": 2.1579771, "grad_norm": 0.39357761, "learning_rate": 9.082e-05, "elapsed_time_per_iteration": 4.86564541, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 34s", "remaining_time": "13h 7m 43s", "loss_scale": 1.0, "consumed_samples": 777472, "global_step/max_steps": "3037/12700"}
{"lm loss": 2.12811089, "grad_norm": 0.40076706, "learning_rate": 9.081e-05, "elapsed_time_per_iteration": 4.82716608, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 39s", "remaining_time": "13h 7m 38s", "loss_scale": 1.0, "consumed_samples": 777728, "global_step/max_steps": "3038/12700"}
{"lm loss": 2.14070702, "grad_norm": 0.48869184, "learning_rate": 9.08e-05, "elapsed_time_per_iteration": 4.80312824, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 44s", "remaining_time": "13h 7m 33s", "loss_scale": 1.0, "consumed_samples": 777984, "global_step/max_steps": "3039/12700"}
{"lm loss": 2.14134526, "grad_norm": 0.42427057, "learning_rate": 9.08e-05, "elapsed_time_per_iteration": 4.89139414, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 49s", "remaining_time": "13h 7m 28s", "loss_scale": 1.0, "consumed_samples": 778240, "global_step/max_steps": "3040/12700"}
{"lm loss": 2.15501428, "grad_norm": 0.40199825, "learning_rate": 9.079e-05, "elapsed_time_per_iteration": 4.81188917, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 53s", "remaining_time": "13h 7m 23s", "loss_scale": 1.0, "consumed_samples": 778496, "global_step/max_steps": "3041/12700"}
{"lm loss": 2.1486659, "grad_norm": 0.448073, "learning_rate": 9.078e-05, "elapsed_time_per_iteration": 4.87644935, "memory(GiB)": 28.98, "elapsed_time": "4h 7m 58s", "remaining_time": "13h 7m 18s", "loss_scale": 1.0, "consumed_samples": 778752, "global_step/max_steps": "3042/12700"}
{"lm loss": 2.15972304, "grad_norm": 0.44171372, "learning_rate": 9.077e-05, "elapsed_time_per_iteration": 4.86627316, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 3s", "remaining_time": "13h 7m 13s", "loss_scale": 1.0, "consumed_samples": 779008, "global_step/max_steps": "3043/12700"}
{"lm loss": 2.16520262, "grad_norm": 0.41074097, "learning_rate": 9.077e-05, "elapsed_time_per_iteration": 4.91014576, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 8s", "remaining_time": "13h 7m 8s", "loss_scale": 1.0, "consumed_samples": 779264, "global_step/max_steps": "3044/12700"}
{"lm loss": 2.15276742, "grad_norm": 0.37612247, "learning_rate": 9.076e-05, "elapsed_time_per_iteration": 4.89062834, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 13s", "remaining_time": "13h 7m 3s", "loss_scale": 1.0, "consumed_samples": 779520, "global_step/max_steps": "3045/12700"}
{"lm loss": 2.15920472, "grad_norm": 0.38734448, "learning_rate": 9.075e-05, "elapsed_time_per_iteration": 4.83371401, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 18s", "remaining_time": "13h 6m 58s", "loss_scale": 1.0, "consumed_samples": 779776, "global_step/max_steps": "3046/12700"}
{"lm loss": 2.16320968, "grad_norm": 0.4048855, "learning_rate": 9.074e-05, "elapsed_time_per_iteration": 4.77957225, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 23s", "remaining_time": "13h 6m 53s", "loss_scale": 1.0, "consumed_samples": 780032, "global_step/max_steps": "3047/12700"}
{"lm loss": 2.15054679, "grad_norm": 0.39208961, "learning_rate": 9.074e-05, "elapsed_time_per_iteration": 4.92522025, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 27s", "remaining_time": "13h 6m 48s", "loss_scale": 1.0, "consumed_samples": 780288, "global_step/max_steps": "3048/12700"}
{"lm loss": 2.14914966, "grad_norm": 0.42676824, "learning_rate": 9.073e-05, "elapsed_time_per_iteration": 4.92002273, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 32s", "remaining_time": "13h 6m 43s", "loss_scale": 1.0, "consumed_samples": 780544, "global_step/max_steps": "3049/12700"}
{"lm loss": 2.16667652, "grad_norm": 0.41350189, "learning_rate": 9.072e-05, "elapsed_time_per_iteration": 4.8479495, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 37s", "remaining_time": "13h 6m 38s", "loss_scale": 1.0, "consumed_samples": 780800, "global_step/max_steps": "3050/12700"}
{"lm loss": 2.12158418, "grad_norm": 0.36677334, "learning_rate": 9.072e-05, "elapsed_time_per_iteration": 4.81183386, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 42s", "remaining_time": "13h 6m 33s", "loss_scale": 1.0, "consumed_samples": 781056, "global_step/max_steps": "3051/12700"}
{"lm loss": 2.14968395, "grad_norm": 0.41964912, "learning_rate": 9.071e-05, "elapsed_time_per_iteration": 4.83208251, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 47s", "remaining_time": "13h 6m 28s", "loss_scale": 1.0, "consumed_samples": 781312, "global_step/max_steps": "3052/12700"}
{"lm loss": 2.1793108, "grad_norm": 0.3908191, "learning_rate": 9.07e-05, "elapsed_time_per_iteration": 4.94944715, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 52s", "remaining_time": "13h 6m 23s", "loss_scale": 1.0, "consumed_samples": 781568, "global_step/max_steps": "3053/12700"}
{"lm loss": 2.17264891, "grad_norm": 0.4014, "learning_rate": 9.069e-05, "elapsed_time_per_iteration": 4.85225677, "memory(GiB)": 28.98, "elapsed_time": "4h 8m 57s", "remaining_time": "13h 6m 18s", "loss_scale": 1.0, "consumed_samples": 781824, "global_step/max_steps": "3054/12700"}
{"lm loss": 2.15235424, "grad_norm": 0.38470566, "learning_rate": 9.069e-05, "elapsed_time_per_iteration": 4.97296715, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 2s", "remaining_time": "13h 6m 14s", "loss_scale": 1.0, "consumed_samples": 782080, "global_step/max_steps": "3055/12700"}
{"lm loss": 2.12101173, "grad_norm": 0.42298329, "learning_rate": 9.068e-05, "elapsed_time_per_iteration": 4.83336759, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 6s", "remaining_time": "13h 6m 9s", "loss_scale": 1.0, "consumed_samples": 782336, "global_step/max_steps": "3056/12700"}
{"lm loss": 2.16012263, "grad_norm": 0.38500521, "learning_rate": 9.067e-05, "elapsed_time_per_iteration": 4.91410112, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 11s", "remaining_time": "13h 6m 4s", "loss_scale": 1.0, "consumed_samples": 782592, "global_step/max_steps": "3057/12700"}
{"lm loss": 2.14659405, "grad_norm": 0.37304449, "learning_rate": 9.066e-05, "elapsed_time_per_iteration": 4.89938235, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 16s", "remaining_time": "13h 5m 59s", "loss_scale": 1.0, "consumed_samples": 782848, "global_step/max_steps": "3058/12700"}
{"lm loss": 2.13205528, "grad_norm": 0.37451372, "learning_rate": 9.066e-05, "elapsed_time_per_iteration": 4.90266705, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 21s", "remaining_time": "13h 5m 54s", "loss_scale": 1.0, "consumed_samples": 783104, "global_step/max_steps": "3059/12700"}
{"lm loss": 2.18173337, "grad_norm": 0.36936796, "learning_rate": 9.065e-05, "elapsed_time_per_iteration": 4.87909269, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 26s", "remaining_time": "13h 5m 49s", "loss_scale": 1.0, "consumed_samples": 783360, "global_step/max_steps": "3060/12700"}
{"lm loss": 2.14686346, "grad_norm": 0.39165324, "learning_rate": 9.064e-05, "elapsed_time_per_iteration": 4.93378711, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 31s", "remaining_time": "13h 5m 44s", "loss_scale": 1.0, "consumed_samples": 783616, "global_step/max_steps": "3061/12700"}
{"lm loss": 2.17303157, "grad_norm": 0.38030961, "learning_rate": 9.063e-05, "elapsed_time_per_iteration": 4.953655, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 36s", "remaining_time": "13h 5m 40s", "loss_scale": 1.0, "consumed_samples": 783872, "global_step/max_steps": "3062/12700"}
{"lm loss": 2.15642357, "grad_norm": 0.37357497, "learning_rate": 9.063e-05, "elapsed_time_per_iteration": 4.8816278, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 41s", "remaining_time": "13h 5m 35s", "loss_scale": 1.0, "consumed_samples": 784128, "global_step/max_steps": "3063/12700"}
{"lm loss": 2.16824913, "grad_norm": 0.38327616, "learning_rate": 9.062e-05, "elapsed_time_per_iteration": 4.78749204, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 46s", "remaining_time": "13h 5m 30s", "loss_scale": 1.0, "consumed_samples": 784384, "global_step/max_steps": "3064/12700"}
{"lm loss": 2.13143468, "grad_norm": 0.36641625, "learning_rate": 9.061e-05, "elapsed_time_per_iteration": 4.94590139, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 51s", "remaining_time": "13h 5m 25s", "loss_scale": 1.0, "consumed_samples": 784640, "global_step/max_steps": "3065/12700"}
{"lm loss": 2.17736053, "grad_norm": 0.43931395, "learning_rate": 9.06e-05, "elapsed_time_per_iteration": 4.9047718, "memory(GiB)": 28.98, "elapsed_time": "4h 9m 55s", "remaining_time": "13h 5m 20s", "loss_scale": 1.0, "consumed_samples": 784896, "global_step/max_steps": "3066/12700"}
{"lm loss": 2.14773464, "grad_norm": 0.42776573, "learning_rate": 9.06e-05, "elapsed_time_per_iteration": 4.84328175, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 0s", "remaining_time": "13h 5m 15s", "loss_scale": 1.0, "consumed_samples": 785152, "global_step/max_steps": "3067/12700"}
{"lm loss": 2.14846611, "grad_norm": 0.47703144, "learning_rate": 9.059e-05, "elapsed_time_per_iteration": 4.89320946, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 5s", "remaining_time": "13h 5m 10s", "loss_scale": 1.0, "consumed_samples": 785408, "global_step/max_steps": "3068/12700"}
{"lm loss": 2.13056374, "grad_norm": 0.43246514, "learning_rate": 9.058e-05, "elapsed_time_per_iteration": 4.87966919, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 10s", "remaining_time": "13h 5m 5s", "loss_scale": 1.0, "consumed_samples": 785664, "global_step/max_steps": "3069/12700"}
{"lm loss": 2.13421011, "grad_norm": 0.41623148, "learning_rate": 9.057e-05, "elapsed_time_per_iteration": 4.89142704, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 15s", "remaining_time": "13h 5m 0s", "loss_scale": 1.0, "consumed_samples": 785920, "global_step/max_steps": "3070/12700"}
{"lm loss": 2.16956377, "grad_norm": 0.45668879, "learning_rate": 9.057e-05, "elapsed_time_per_iteration": 4.88831115, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 20s", "remaining_time": "13h 4m 55s", "loss_scale": 1.0, "consumed_samples": 786176, "global_step/max_steps": "3071/12700"}
{"lm loss": 2.18664479, "grad_norm": 0.47646269, "learning_rate": 9.056e-05, "elapsed_time_per_iteration": 4.86623955, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 25s", "remaining_time": "13h 4m 50s", "loss_scale": 1.0, "consumed_samples": 786432, "global_step/max_steps": "3072/12700"}
{"lm loss": 2.14063525, "grad_norm": 0.39232841, "learning_rate": 9.055e-05, "elapsed_time_per_iteration": 4.85447907, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 30s", "remaining_time": "13h 4m 45s", "loss_scale": 1.0, "consumed_samples": 786688, "global_step/max_steps": "3073/12700"}
{"lm loss": 2.15585613, "grad_norm": 0.42204317, "learning_rate": 9.054e-05, "elapsed_time_per_iteration": 4.96391249, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 35s", "remaining_time": "13h 4m 41s", "loss_scale": 1.0, "consumed_samples": 786944, "global_step/max_steps": "3074/12700"}
{"lm loss": 2.16860557, "grad_norm": 0.44726607, "learning_rate": 9.054e-05, "elapsed_time_per_iteration": 4.85097456, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 39s", "remaining_time": "13h 4m 36s", "loss_scale": 1.0, "consumed_samples": 787200, "global_step/max_steps": "3075/12700"}
{"lm loss": 2.153754, "grad_norm": 0.41593796, "learning_rate": 9.053e-05, "elapsed_time_per_iteration": 4.93191123, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 44s", "remaining_time": "13h 4m 31s", "loss_scale": 1.0, "consumed_samples": 787456, "global_step/max_steps": "3076/12700"}
{"lm loss": 2.15754938, "grad_norm": 0.38424999, "learning_rate": 9.052e-05, "elapsed_time_per_iteration": 4.91823697, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 49s", "remaining_time": "13h 4m 26s", "loss_scale": 1.0, "consumed_samples": 787712, "global_step/max_steps": "3077/12700"}
{"lm loss": 2.17286682, "grad_norm": 0.45691422, "learning_rate": 9.051e-05, "elapsed_time_per_iteration": 4.79449224, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 54s", "remaining_time": "13h 4m 21s", "loss_scale": 1.0, "consumed_samples": 787968, "global_step/max_steps": "3078/12700"}
{"lm loss": 2.16547966, "grad_norm": 0.41116598, "learning_rate": 9.051e-05, "elapsed_time_per_iteration": 4.89952707, "memory(GiB)": 28.98, "elapsed_time": "4h 10m 59s", "remaining_time": "13h 4m 16s", "loss_scale": 1.0, "consumed_samples": 788224, "global_step/max_steps": "3079/12700"}
{"lm loss": 2.16928887, "grad_norm": 0.4659037, "learning_rate": 9.05e-05, "elapsed_time_per_iteration": 4.8390615, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 4s", "remaining_time": "13h 4m 11s", "loss_scale": 1.0, "consumed_samples": 788480, "global_step/max_steps": "3080/12700"}
{"lm loss": 2.14889407, "grad_norm": 0.47058177, "learning_rate": 9.049e-05, "elapsed_time_per_iteration": 4.90171361, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 9s", "remaining_time": "13h 4m 6s", "loss_scale": 1.0, "consumed_samples": 788736, "global_step/max_steps": "3081/12700"}
{"lm loss": 2.17015076, "grad_norm": 0.45002648, "learning_rate": 9.048e-05, "elapsed_time_per_iteration": 4.84177947, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 14s", "remaining_time": "13h 4m 1s", "loss_scale": 1.0, "consumed_samples": 788992, "global_step/max_steps": "3082/12700"}
{"lm loss": 2.18377399, "grad_norm": 0.4496026, "learning_rate": 9.048e-05, "elapsed_time_per_iteration": 4.86556196, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 18s", "remaining_time": "13h 3m 56s", "loss_scale": 1.0, "consumed_samples": 789248, "global_step/max_steps": "3083/12700"}
{"lm loss": 2.16076517, "grad_norm": 0.4253571, "learning_rate": 9.047e-05, "elapsed_time_per_iteration": 4.7984488, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 23s", "remaining_time": "13h 3m 51s", "loss_scale": 1.0, "consumed_samples": 789504, "global_step/max_steps": "3084/12700"}
{"lm loss": 2.15186453, "grad_norm": 0.43337166, "learning_rate": 9.046e-05, "elapsed_time_per_iteration": 4.77333188, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 28s", "remaining_time": "13h 3m 46s", "loss_scale": 1.0, "consumed_samples": 789760, "global_step/max_steps": "3085/12700"}
{"lm loss": 2.15786433, "grad_norm": 0.42958689, "learning_rate": 9.045e-05, "elapsed_time_per_iteration": 4.82657599, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 33s", "remaining_time": "13h 3m 41s", "loss_scale": 1.0, "consumed_samples": 790016, "global_step/max_steps": "3086/12700"}
{"lm loss": 2.1661725, "grad_norm": 0.42213881, "learning_rate": 9.045e-05, "elapsed_time_per_iteration": 4.85616016, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 38s", "remaining_time": "13h 3m 36s", "loss_scale": 1.0, "consumed_samples": 790272, "global_step/max_steps": "3087/12700"}
{"lm loss": 2.18529224, "grad_norm": 0.43495271, "learning_rate": 9.044e-05, "elapsed_time_per_iteration": 4.88451695, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 43s", "remaining_time": "13h 3m 31s", "loss_scale": 1.0, "consumed_samples": 790528, "global_step/max_steps": "3088/12700"}
{"lm loss": 2.18180943, "grad_norm": 0.39590484, "learning_rate": 9.043e-05, "elapsed_time_per_iteration": 4.83308434, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 47s", "remaining_time": "13h 3m 26s", "loss_scale": 1.0, "consumed_samples": 790784, "global_step/max_steps": "3089/12700"}
{"lm loss": 2.14600921, "grad_norm": 0.46731484, "learning_rate": 9.042e-05, "elapsed_time_per_iteration": 4.86181259, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 52s", "remaining_time": "13h 3m 21s", "loss_scale": 1.0, "consumed_samples": 791040, "global_step/max_steps": "3090/12700"}
{"lm loss": 2.16796422, "grad_norm": 0.39839664, "learning_rate": 9.042e-05, "elapsed_time_per_iteration": 4.85605121, "memory(GiB)": 28.98, "elapsed_time": "4h 11m 57s", "remaining_time": "13h 3m 16s", "loss_scale": 1.0, "consumed_samples": 791296, "global_step/max_steps": "3091/12700"}
{"lm loss": 2.1575048, "grad_norm": 0.43811992, "learning_rate": 9.041e-05, "elapsed_time_per_iteration": 4.91729927, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 2s", "remaining_time": "13h 3m 11s", "loss_scale": 1.0, "consumed_samples": 791552, "global_step/max_steps": "3092/12700"}
{"lm loss": 2.12684441, "grad_norm": 0.41831711, "learning_rate": 9.04e-05, "elapsed_time_per_iteration": 4.9694376, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 7s", "remaining_time": "13h 3m 6s", "loss_scale": 1.0, "consumed_samples": 791808, "global_step/max_steps": "3093/12700"}
{"lm loss": 2.13409781, "grad_norm": 0.40217081, "learning_rate": 9.039e-05, "elapsed_time_per_iteration": 4.98353124, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 12s", "remaining_time": "13h 3m 2s", "loss_scale": 1.0, "consumed_samples": 792064, "global_step/max_steps": "3094/12700"}
{"lm loss": 2.16933012, "grad_norm": 0.39675626, "learning_rate": 9.039e-05, "elapsed_time_per_iteration": 4.96728396, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 17s", "remaining_time": "13h 2m 57s", "loss_scale": 1.0, "consumed_samples": 792320, "global_step/max_steps": "3095/12700"}
{"lm loss": 2.13006759, "grad_norm": 0.39436197, "learning_rate": 9.038e-05, "elapsed_time_per_iteration": 4.84375501, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 22s", "remaining_time": "13h 2m 52s", "loss_scale": 1.0, "consumed_samples": 792576, "global_step/max_steps": "3096/12700"}
{"lm loss": 2.16870379, "grad_norm": 0.39130336, "learning_rate": 9.037e-05, "elapsed_time_per_iteration": 4.91462231, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 27s", "remaining_time": "13h 2m 47s", "loss_scale": 1.0, "consumed_samples": 792832, "global_step/max_steps": "3097/12700"}
{"lm loss": 2.14886737, "grad_norm": 0.3854048, "learning_rate": 9.036e-05, "elapsed_time_per_iteration": 4.77716899, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 31s", "remaining_time": "13h 2m 42s", "loss_scale": 1.0, "consumed_samples": 793088, "global_step/max_steps": "3098/12700"}
{"lm loss": 2.16535211, "grad_norm": 0.40093702, "learning_rate": 9.036e-05, "elapsed_time_per_iteration": 4.79640889, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 36s", "remaining_time": "13h 2m 37s", "loss_scale": 1.0, "consumed_samples": 793344, "global_step/max_steps": "3099/12700"}
{"lm loss": 2.1563251, "grad_norm": 0.36656332, "learning_rate": 9.035e-05, "elapsed_time_per_iteration": 4.92388391, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 41s", "remaining_time": "13h 2m 32s", "loss_scale": 1.0, "consumed_samples": 793600, "global_step/max_steps": "3100/12700"}
{"lm loss": 2.18746591, "grad_norm": 0.44075799, "learning_rate": 9.034e-05, "elapsed_time_per_iteration": 4.81516171, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 46s", "remaining_time": "13h 2m 27s", "loss_scale": 1.0, "consumed_samples": 793856, "global_step/max_steps": "3101/12700"}
{"lm loss": 2.13917685, "grad_norm": 0.41565531, "learning_rate": 9.033e-05, "elapsed_time_per_iteration": 4.88771391, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 51s", "remaining_time": "13h 2m 22s", "loss_scale": 1.0, "consumed_samples": 794112, "global_step/max_steps": "3102/12700"}
{"lm loss": 2.11474943, "grad_norm": 0.39660424, "learning_rate": 9.033e-05, "elapsed_time_per_iteration": 4.88348985, "memory(GiB)": 28.98, "elapsed_time": "4h 12m 56s", "remaining_time": "13h 2m 17s", "loss_scale": 1.0, "consumed_samples": 794368, "global_step/max_steps": "3103/12700"}
{"lm loss": 2.16084075, "grad_norm": 0.46320203, "learning_rate": 9.032e-05, "elapsed_time_per_iteration": 4.84980607, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 1s", "remaining_time": "13h 2m 12s", "loss_scale": 1.0, "consumed_samples": 794624, "global_step/max_steps": "3104/12700"}
{"lm loss": 2.15395904, "grad_norm": 0.46816286, "learning_rate": 9.031e-05, "elapsed_time_per_iteration": 4.85836554, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 5s", "remaining_time": "13h 2m 7s", "loss_scale": 1.0, "consumed_samples": 794880, "global_step/max_steps": "3105/12700"}
{"lm loss": 2.16867518, "grad_norm": 0.40658912, "learning_rate": 9.03e-05, "elapsed_time_per_iteration": 4.78521943, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 10s", "remaining_time": "13h 2m 2s", "loss_scale": 1.0, "consumed_samples": 795136, "global_step/max_steps": "3106/12700"}
{"lm loss": 2.18103433, "grad_norm": 0.4014723, "learning_rate": 9.029e-05, "elapsed_time_per_iteration": 4.85626101, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 15s", "remaining_time": "13h 1m 57s", "loss_scale": 1.0, "consumed_samples": 795392, "global_step/max_steps": "3107/12700"}
{"lm loss": 2.13513684, "grad_norm": 0.42968044, "learning_rate": 9.029e-05, "elapsed_time_per_iteration": 4.86502075, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 20s", "remaining_time": "13h 1m 52s", "loss_scale": 1.0, "consumed_samples": 795648, "global_step/max_steps": "3108/12700"}
{"lm loss": 2.13529921, "grad_norm": 0.40094984, "learning_rate": 9.028e-05, "elapsed_time_per_iteration": 4.84406734, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 25s", "remaining_time": "13h 1m 47s", "loss_scale": 1.0, "consumed_samples": 795904, "global_step/max_steps": "3109/12700"}
{"lm loss": 2.14269686, "grad_norm": 0.45140362, "learning_rate": 9.027e-05, "elapsed_time_per_iteration": 4.80636835, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 30s", "remaining_time": "13h 1m 42s", "loss_scale": 1.0, "consumed_samples": 796160, "global_step/max_steps": "3110/12700"}
{"lm loss": 2.16309381, "grad_norm": 0.44577566, "learning_rate": 9.026e-05, "elapsed_time_per_iteration": 4.85429549, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 34s", "remaining_time": "13h 1m 37s", "loss_scale": 1.0, "consumed_samples": 796416, "global_step/max_steps": "3111/12700"}
{"lm loss": 2.1559937, "grad_norm": 0.44005367, "learning_rate": 9.026e-05, "elapsed_time_per_iteration": 4.9079802, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 39s", "remaining_time": "13h 1m 32s", "loss_scale": 1.0, "consumed_samples": 796672, "global_step/max_steps": "3112/12700"}
{"lm loss": 2.15633297, "grad_norm": 0.40107346, "learning_rate": 9.025e-05, "elapsed_time_per_iteration": 4.86496091, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 44s", "remaining_time": "13h 1m 27s", "loss_scale": 1.0, "consumed_samples": 796928, "global_step/max_steps": "3113/12700"}
{"lm loss": 2.15103769, "grad_norm": 0.43243292, "learning_rate": 9.024e-05, "elapsed_time_per_iteration": 4.87764502, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 49s", "remaining_time": "13h 1m 22s", "loss_scale": 1.0, "consumed_samples": 797184, "global_step/max_steps": "3114/12700"}
{"lm loss": 2.13632464, "grad_norm": 0.40754494, "learning_rate": 9.023e-05, "elapsed_time_per_iteration": 4.821527, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 54s", "remaining_time": "13h 1m 17s", "loss_scale": 1.0, "consumed_samples": 797440, "global_step/max_steps": "3115/12700"}
{"lm loss": 2.11949611, "grad_norm": 0.40980765, "learning_rate": 9.023e-05, "elapsed_time_per_iteration": 4.80090261, "memory(GiB)": 28.98, "elapsed_time": "4h 13m 59s", "remaining_time": "13h 1m 11s", "loss_scale": 1.0, "consumed_samples": 797696, "global_step/max_steps": "3116/12700"}
{"lm loss": 2.13903117, "grad_norm": 0.38621467, "learning_rate": 9.022e-05, "elapsed_time_per_iteration": 4.82721186, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 4s", "remaining_time": "13h 1m 6s", "loss_scale": 1.0, "consumed_samples": 797952, "global_step/max_steps": "3117/12700"}
{"lm loss": 2.14734173, "grad_norm": 0.43446338, "learning_rate": 9.021e-05, "elapsed_time_per_iteration": 4.83400297, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 8s", "remaining_time": "13h 1m 1s", "loss_scale": 1.0, "consumed_samples": 798208, "global_step/max_steps": "3118/12700"}
{"lm loss": 2.16988492, "grad_norm": 0.3882013, "learning_rate": 9.02e-05, "elapsed_time_per_iteration": 4.87749982, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 13s", "remaining_time": "13h 0m 56s", "loss_scale": 1.0, "consumed_samples": 798464, "global_step/max_steps": "3119/12700"}
{"lm loss": 2.16087985, "grad_norm": 0.40779388, "learning_rate": 9.02e-05, "elapsed_time_per_iteration": 4.90013957, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 18s", "remaining_time": "13h 0m 52s", "loss_scale": 1.0, "consumed_samples": 798720, "global_step/max_steps": "3120/12700"}
{"lm loss": 2.18345928, "grad_norm": 0.39272168, "learning_rate": 9.019e-05, "elapsed_time_per_iteration": 4.90191388, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 23s", "remaining_time": "13h 0m 47s", "loss_scale": 1.0, "consumed_samples": 798976, "global_step/max_steps": "3121/12700"}
{"lm loss": 2.1334691, "grad_norm": 0.39591014, "learning_rate": 9.018e-05, "elapsed_time_per_iteration": 4.98271656, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 28s", "remaining_time": "13h 0m 42s", "loss_scale": 1.0, "consumed_samples": 799232, "global_step/max_steps": "3122/12700"}
{"lm loss": 2.16660953, "grad_norm": 0.43212259, "learning_rate": 9.017e-05, "elapsed_time_per_iteration": 4.89054489, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 33s", "remaining_time": "13h 0m 37s", "loss_scale": 1.0, "consumed_samples": 799488, "global_step/max_steps": "3123/12700"}
{"lm loss": 2.1571815, "grad_norm": 0.41618526, "learning_rate": 9.017e-05, "elapsed_time_per_iteration": 4.89990687, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 38s", "remaining_time": "13h 0m 32s", "loss_scale": 1.0, "consumed_samples": 799744, "global_step/max_steps": "3124/12700"}
{"lm loss": 2.14037085, "grad_norm": 0.40978032, "learning_rate": 9.016e-05, "elapsed_time_per_iteration": 4.97890949, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 43s", "remaining_time": "13h 0m 28s", "loss_scale": 1.0, "consumed_samples": 800000, "global_step/max_steps": "3125/12700"}
{"lm loss": 2.18348885, "grad_norm": 0.45095113, "learning_rate": 9.015e-05, "elapsed_time_per_iteration": 4.83971429, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 48s", "remaining_time": "13h 0m 23s", "loss_scale": 1.0, "consumed_samples": 800256, "global_step/max_steps": "3126/12700"}
{"lm loss": 2.15434885, "grad_norm": 0.43686563, "learning_rate": 9.014e-05, "elapsed_time_per_iteration": 4.94523191, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 53s", "remaining_time": "13h 0m 18s", "loss_scale": 1.0, "consumed_samples": 800512, "global_step/max_steps": "3127/12700"}
{"lm loss": 2.14249182, "grad_norm": 0.45427111, "learning_rate": 9.014e-05, "elapsed_time_per_iteration": 4.80243492, "memory(GiB)": 28.98, "elapsed_time": "4h 14m 57s", "remaining_time": "13h 0m 13s", "loss_scale": 1.0, "consumed_samples": 800768, "global_step/max_steps": "3128/12700"}
{"lm loss": 2.16845942, "grad_norm": 0.42094415, "learning_rate": 9.013e-05, "elapsed_time_per_iteration": 4.85378408, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 2s", "remaining_time": "13h 0m 8s", "loss_scale": 1.0, "consumed_samples": 801024, "global_step/max_steps": "3129/12700"}
{"lm loss": 2.166677, "grad_norm": 0.40637872, "learning_rate": 9.012e-05, "elapsed_time_per_iteration": 4.77780509, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 7s", "remaining_time": "13h 0m 3s", "loss_scale": 1.0, "consumed_samples": 801280, "global_step/max_steps": "3130/12700"}
{"lm loss": 2.17407608, "grad_norm": 0.41912553, "learning_rate": 9.011e-05, "elapsed_time_per_iteration": 4.91784477, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 12s", "remaining_time": "12h 59m 58s", "loss_scale": 1.0, "consumed_samples": 801536, "global_step/max_steps": "3131/12700"}
{"lm loss": 2.14122772, "grad_norm": 0.39966857, "learning_rate": 9.01e-05, "elapsed_time_per_iteration": 4.96411347, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 17s", "remaining_time": "12h 59m 53s", "loss_scale": 1.0, "consumed_samples": 801792, "global_step/max_steps": "3132/12700"}
{"lm loss": 2.17393517, "grad_norm": 0.43168885, "learning_rate": 9.01e-05, "elapsed_time_per_iteration": 4.90467024, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 22s", "remaining_time": "12h 59m 48s", "loss_scale": 1.0, "consumed_samples": 802048, "global_step/max_steps": "3133/12700"}
{"lm loss": 2.14805293, "grad_norm": 0.42184731, "learning_rate": 9.009e-05, "elapsed_time_per_iteration": 4.79928613, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 27s", "remaining_time": "12h 59m 43s", "loss_scale": 1.0, "consumed_samples": 802304, "global_step/max_steps": "3134/12700"}
{"lm loss": 2.1227622, "grad_norm": 0.4117794, "learning_rate": 9.008e-05, "elapsed_time_per_iteration": 5.07183194, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 32s", "remaining_time": "12h 59m 39s", "loss_scale": 1.0, "consumed_samples": 802560, "global_step/max_steps": "3135/12700"}
{"lm loss": 2.11582184, "grad_norm": 0.40907985, "learning_rate": 9.007e-05, "elapsed_time_per_iteration": 4.91409278, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 37s", "remaining_time": "12h 59m 34s", "loss_scale": 1.0, "consumed_samples": 802816, "global_step/max_steps": "3136/12700"}
{"lm loss": 2.17377424, "grad_norm": 0.39489609, "learning_rate": 9.007e-05, "elapsed_time_per_iteration": 4.79847264, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 41s", "remaining_time": "12h 59m 29s", "loss_scale": 1.0, "consumed_samples": 803072, "global_step/max_steps": "3137/12700"}
{"lm loss": 2.14709783, "grad_norm": 0.3975651, "learning_rate": 9.006e-05, "elapsed_time_per_iteration": 4.89989638, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 46s", "remaining_time": "12h 59m 24s", "loss_scale": 1.0, "consumed_samples": 803328, "global_step/max_steps": "3138/12700"}
{"lm loss": 2.17083669, "grad_norm": 0.41288996, "learning_rate": 9.005e-05, "elapsed_time_per_iteration": 4.95443082, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 51s", "remaining_time": "12h 59m 19s", "loss_scale": 1.0, "consumed_samples": 803584, "global_step/max_steps": "3139/12700"}
{"lm loss": 2.18614841, "grad_norm": 0.38506392, "learning_rate": 9.004e-05, "elapsed_time_per_iteration": 4.90473247, "memory(GiB)": 28.98, "elapsed_time": "4h 15m 56s", "remaining_time": "12h 59m 14s", "loss_scale": 1.0, "consumed_samples": 803840, "global_step/max_steps": "3140/12700"}
{"lm loss": 2.13982415, "grad_norm": 0.43181288, "learning_rate": 9.004e-05, "elapsed_time_per_iteration": 4.84993124, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 1s", "remaining_time": "12h 59m 9s", "loss_scale": 1.0, "consumed_samples": 804096, "global_step/max_steps": "3141/12700"}
{"lm loss": 2.1357305, "grad_norm": 0.47502139, "learning_rate": 9.003e-05, "elapsed_time_per_iteration": 4.97160983, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 6s", "remaining_time": "12h 59m 5s", "loss_scale": 1.0, "consumed_samples": 804352, "global_step/max_steps": "3142/12700"}
{"lm loss": 2.16946983, "grad_norm": 0.4216195, "learning_rate": 9.002e-05, "elapsed_time_per_iteration": 4.95251107, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 11s", "remaining_time": "12h 59m 0s", "loss_scale": 1.0, "consumed_samples": 804608, "global_step/max_steps": "3143/12700"}
{"lm loss": 2.13800311, "grad_norm": 0.36501163, "learning_rate": 9.001e-05, "elapsed_time_per_iteration": 4.89297938, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 16s", "remaining_time": "12h 58m 55s", "loss_scale": 1.0, "consumed_samples": 804864, "global_step/max_steps": "3144/12700"}
{"lm loss": 2.13495517, "grad_norm": 0.3823739, "learning_rate": 9e-05, "elapsed_time_per_iteration": 5.08444953, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 21s", "remaining_time": "12h 58m 51s", "loss_scale": 1.0, "consumed_samples": 805120, "global_step/max_steps": "3145/12700"}
{"lm loss": 2.15306973, "grad_norm": 0.41391954, "learning_rate": 9e-05, "elapsed_time_per_iteration": 4.87978268, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 26s", "remaining_time": "12h 58m 46s", "loss_scale": 1.0, "consumed_samples": 805376, "global_step/max_steps": "3146/12700"}
{"lm loss": 2.12695932, "grad_norm": 0.37418428, "learning_rate": 8.999e-05, "elapsed_time_per_iteration": 4.99146843, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 31s", "remaining_time": "12h 58m 41s", "loss_scale": 1.0, "consumed_samples": 805632, "global_step/max_steps": "3147/12700"}
{"lm loss": 2.15025878, "grad_norm": 0.378858, "learning_rate": 8.998e-05, "elapsed_time_per_iteration": 5.0085423, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 36s", "remaining_time": "12h 58m 37s", "loss_scale": 1.0, "consumed_samples": 805888, "global_step/max_steps": "3148/12700"}
{"lm loss": 2.1813786, "grad_norm": 0.43160355, "learning_rate": 8.997e-05, "elapsed_time_per_iteration": 4.99124432, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 41s", "remaining_time": "12h 58m 32s", "loss_scale": 1.0, "consumed_samples": 806144, "global_step/max_steps": "3149/12700"}
{"lm loss": 2.15851021, "grad_norm": 0.42390499, "learning_rate": 8.997e-05, "elapsed_time_per_iteration": 4.83904982, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 46s", "remaining_time": "12h 58m 27s", "loss_scale": 1.0, "consumed_samples": 806400, "global_step/max_steps": "3150/12700"}
{"lm loss": 2.12906146, "grad_norm": 0.41652399, "learning_rate": 8.996e-05, "elapsed_time_per_iteration": 4.89870787, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 51s", "remaining_time": "12h 58m 22s", "loss_scale": 1.0, "consumed_samples": 806656, "global_step/max_steps": "3151/12700"}
{"lm loss": 2.16957879, "grad_norm": 0.38159338, "learning_rate": 8.995e-05, "elapsed_time_per_iteration": 4.91040254, "memory(GiB)": 28.98, "elapsed_time": "4h 16m 55s", "remaining_time": "12h 58m 17s", "loss_scale": 1.0, "consumed_samples": 806912, "global_step/max_steps": "3152/12700"}
{"lm loss": 2.14936304, "grad_norm": 0.43267861, "learning_rate": 8.994e-05, "elapsed_time_per_iteration": 4.83919764, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 0s", "remaining_time": "12h 58m 12s", "loss_scale": 1.0, "consumed_samples": 807168, "global_step/max_steps": "3153/12700"}
{"lm loss": 2.14237022, "grad_norm": 0.41457671, "learning_rate": 8.994e-05, "elapsed_time_per_iteration": 4.9453001, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 5s", "remaining_time": "12h 58m 8s", "loss_scale": 1.0, "consumed_samples": 807424, "global_step/max_steps": "3154/12700"}
{"lm loss": 2.15816188, "grad_norm": 0.39973769, "learning_rate": 8.993e-05, "elapsed_time_per_iteration": 4.92144227, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 10s", "remaining_time": "12h 58m 3s", "loss_scale": 1.0, "consumed_samples": 807680, "global_step/max_steps": "3155/12700"}
{"lm loss": 2.1572392, "grad_norm": 0.39557055, "learning_rate": 8.992e-05, "elapsed_time_per_iteration": 4.89706278, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 15s", "remaining_time": "12h 57m 58s", "loss_scale": 1.0, "consumed_samples": 807936, "global_step/max_steps": "3156/12700"}
{"lm loss": 2.17746758, "grad_norm": 0.39424217, "learning_rate": 8.991e-05, "elapsed_time_per_iteration": 4.91854644, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 20s", "remaining_time": "12h 57m 53s", "loss_scale": 1.0, "consumed_samples": 808192, "global_step/max_steps": "3157/12700"}
{"lm loss": 2.13242126, "grad_norm": 0.39958063, "learning_rate": 8.99e-05, "elapsed_time_per_iteration": 4.98078752, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 25s", "remaining_time": "12h 57m 49s", "loss_scale": 1.0, "consumed_samples": 808448, "global_step/max_steps": "3158/12700"}
{"lm loss": 2.1556232, "grad_norm": 0.38386711, "learning_rate": 8.99e-05, "elapsed_time_per_iteration": 4.91192722, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 30s", "remaining_time": "12h 57m 44s", "loss_scale": 1.0, "consumed_samples": 808704, "global_step/max_steps": "3159/12700"}
{"lm loss": 2.12328982, "grad_norm": 0.4065187, "learning_rate": 8.989e-05, "elapsed_time_per_iteration": 4.88698864, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 35s", "remaining_time": "12h 57m 39s", "loss_scale": 1.0, "consumed_samples": 808960, "global_step/max_steps": "3160/12700"}
{"lm loss": 2.18176222, "grad_norm": 0.43466437, "learning_rate": 8.988e-05, "elapsed_time_per_iteration": 4.88982964, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 40s", "remaining_time": "12h 57m 34s", "loss_scale": 1.0, "consumed_samples": 809216, "global_step/max_steps": "3161/12700"}
{"lm loss": 2.18788457, "grad_norm": 0.4084073, "learning_rate": 8.987e-05, "elapsed_time_per_iteration": 4.81565237, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 44s", "remaining_time": "12h 57m 29s", "loss_scale": 1.0, "consumed_samples": 809472, "global_step/max_steps": "3162/12700"}
{"lm loss": 2.15560102, "grad_norm": 0.43258053, "learning_rate": 8.987e-05, "elapsed_time_per_iteration": 4.90355539, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 49s", "remaining_time": "12h 57m 24s", "loss_scale": 1.0, "consumed_samples": 809728, "global_step/max_steps": "3163/12700"}
{"lm loss": 2.14902091, "grad_norm": 0.37875515, "learning_rate": 8.986e-05, "elapsed_time_per_iteration": 4.84251809, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 54s", "remaining_time": "12h 57m 19s", "loss_scale": 1.0, "consumed_samples": 809984, "global_step/max_steps": "3164/12700"}
{"lm loss": 2.13679624, "grad_norm": 0.40008843, "learning_rate": 8.985e-05, "elapsed_time_per_iteration": 4.89746046, "memory(GiB)": 28.98, "elapsed_time": "4h 17m 59s", "remaining_time": "12h 57m 14s", "loss_scale": 1.0, "consumed_samples": 810240, "global_step/max_steps": "3165/12700"}
{"lm loss": 2.16548252, "grad_norm": 0.43616083, "learning_rate": 8.984e-05, "elapsed_time_per_iteration": 4.91989779, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 4s", "remaining_time": "12h 57m 9s", "loss_scale": 1.0, "consumed_samples": 810496, "global_step/max_steps": "3166/12700"}
{"lm loss": 2.16055775, "grad_norm": 0.37058422, "learning_rate": 8.984e-05, "elapsed_time_per_iteration": 4.78800535, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 9s", "remaining_time": "12h 57m 4s", "loss_scale": 1.0, "consumed_samples": 810752, "global_step/max_steps": "3167/12700"}
{"lm loss": 2.17257762, "grad_norm": 0.42298114, "learning_rate": 8.983e-05, "elapsed_time_per_iteration": 4.89681363, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 14s", "remaining_time": "12h 56m 59s", "loss_scale": 1.0, "consumed_samples": 811008, "global_step/max_steps": "3168/12700"}
{"lm loss": 2.17997241, "grad_norm": 0.40605259, "learning_rate": 8.982e-05, "elapsed_time_per_iteration": 4.83191895, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 19s", "remaining_time": "12h 56m 54s", "loss_scale": 1.0, "consumed_samples": 811264, "global_step/max_steps": "3169/12700"}
{"lm loss": 2.12106204, "grad_norm": 0.38257721, "learning_rate": 8.981e-05, "elapsed_time_per_iteration": 5.09088945, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 24s", "remaining_time": "12h 56m 50s", "loss_scale": 1.0, "consumed_samples": 811520, "global_step/max_steps": "3170/12700"}
{"lm loss": 2.13687873, "grad_norm": 0.4389807, "learning_rate": 8.98e-05, "elapsed_time_per_iteration": 4.8660531, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 29s", "remaining_time": "12h 56m 45s", "loss_scale": 1.0, "consumed_samples": 811776, "global_step/max_steps": "3171/12700"}
{"lm loss": 2.17055702, "grad_norm": 0.37637511, "learning_rate": 8.98e-05, "elapsed_time_per_iteration": 5.06223345, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 34s", "remaining_time": "12h 56m 40s", "loss_scale": 1.0, "consumed_samples": 812032, "global_step/max_steps": "3172/12700"}
{"lm loss": 2.14084697, "grad_norm": 0.40930918, "learning_rate": 8.979e-05, "elapsed_time_per_iteration": 4.83233738, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 38s", "remaining_time": "12h 56m 35s", "loss_scale": 1.0, "consumed_samples": 812288, "global_step/max_steps": "3173/12700"}
{"lm loss": 2.18502498, "grad_norm": 0.42881089, "learning_rate": 8.978e-05, "elapsed_time_per_iteration": 4.72507429, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 43s", "remaining_time": "12h 56m 30s", "loss_scale": 1.0, "consumed_samples": 812544, "global_step/max_steps": "3174/12700"}
{"lm loss": 2.16383219, "grad_norm": 0.39322689, "learning_rate": 8.977e-05, "elapsed_time_per_iteration": 4.85095167, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 48s", "remaining_time": "12h 56m 25s", "loss_scale": 1.0, "consumed_samples": 812800, "global_step/max_steps": "3175/12700"}
{"lm loss": 2.17333746, "grad_norm": 0.3978202, "learning_rate": 8.977e-05, "elapsed_time_per_iteration": 4.78592396, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 53s", "remaining_time": "12h 56m 20s", "loss_scale": 1.0, "consumed_samples": 813056, "global_step/max_steps": "3176/12700"}
{"lm loss": 2.13195801, "grad_norm": 0.43397829, "learning_rate": 8.976e-05, "elapsed_time_per_iteration": 4.77274704, "memory(GiB)": 28.98, "elapsed_time": "4h 18m 58s", "remaining_time": "12h 56m 15s", "loss_scale": 1.0, "consumed_samples": 813312, "global_step/max_steps": "3177/12700"}
{"lm loss": 2.14187837, "grad_norm": 0.43641359, "learning_rate": 8.975e-05, "elapsed_time_per_iteration": 4.90698457, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 2s", "remaining_time": "12h 56m 10s", "loss_scale": 1.0, "consumed_samples": 813568, "global_step/max_steps": "3178/12700"}
{"lm loss": 2.12484479, "grad_norm": 0.37751386, "learning_rate": 8.974e-05, "elapsed_time_per_iteration": 4.82306004, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 7s", "remaining_time": "12h 56m 5s", "loss_scale": 1.0, "consumed_samples": 813824, "global_step/max_steps": "3179/12700"}
{"lm loss": 2.15168071, "grad_norm": 0.41259781, "learning_rate": 8.973e-05, "elapsed_time_per_iteration": 4.90295458, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 12s", "remaining_time": "12h 56m 0s", "loss_scale": 1.0, "consumed_samples": 814080, "global_step/max_steps": "3180/12700"}
{"lm loss": 2.16252089, "grad_norm": 0.40946481, "learning_rate": 8.973e-05, "elapsed_time_per_iteration": 4.88865709, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 17s", "remaining_time": "12h 55m 55s", "loss_scale": 1.0, "consumed_samples": 814336, "global_step/max_steps": "3181/12700"}
{"lm loss": 2.14806819, "grad_norm": 0.41394022, "learning_rate": 8.972e-05, "elapsed_time_per_iteration": 4.98922396, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 22s", "remaining_time": "12h 55m 50s", "loss_scale": 1.0, "consumed_samples": 814592, "global_step/max_steps": "3182/12700"}
{"lm loss": 2.16186857, "grad_norm": 0.39629135, "learning_rate": 8.971e-05, "elapsed_time_per_iteration": 4.85291243, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 27s", "remaining_time": "12h 55m 45s", "loss_scale": 1.0, "consumed_samples": 814848, "global_step/max_steps": "3183/12700"}
{"lm loss": 2.18762875, "grad_norm": 0.38038084, "learning_rate": 8.97e-05, "elapsed_time_per_iteration": 4.97641253, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 32s", "remaining_time": "12h 55m 41s", "loss_scale": 1.0, "consumed_samples": 815104, "global_step/max_steps": "3184/12700"}
{"lm loss": 2.15807366, "grad_norm": 0.4387016, "learning_rate": 8.97e-05, "elapsed_time_per_iteration": 4.81942463, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 37s", "remaining_time": "12h 55m 36s", "loss_scale": 1.0, "consumed_samples": 815360, "global_step/max_steps": "3185/12700"}
{"lm loss": 2.13377547, "grad_norm": 0.38591361, "learning_rate": 8.969e-05, "elapsed_time_per_iteration": 4.84256196, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 42s", "remaining_time": "12h 55m 30s", "loss_scale": 1.0, "consumed_samples": 815616, "global_step/max_steps": "3186/12700"}
{"lm loss": 2.15618348, "grad_norm": 0.39387909, "learning_rate": 8.968e-05, "elapsed_time_per_iteration": 4.76274347, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 46s", "remaining_time": "12h 55m 25s", "loss_scale": 1.0, "consumed_samples": 815872, "global_step/max_steps": "3187/12700"}
{"lm loss": 2.14788818, "grad_norm": 0.37995097, "learning_rate": 8.967e-05, "elapsed_time_per_iteration": 4.85835934, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 51s", "remaining_time": "12h 55m 20s", "loss_scale": 1.0, "consumed_samples": 816128, "global_step/max_steps": "3188/12700"}
{"lm loss": 2.13371277, "grad_norm": 0.41955501, "learning_rate": 8.966e-05, "elapsed_time_per_iteration": 4.90751338, "memory(GiB)": 28.98, "elapsed_time": "4h 19m 56s", "remaining_time": "12h 55m 15s", "loss_scale": 1.0, "consumed_samples": 816384, "global_step/max_steps": "3189/12700"}
{"lm loss": 2.16804457, "grad_norm": 0.40170348, "learning_rate": 8.966e-05, "elapsed_time_per_iteration": 4.84865332, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 1s", "remaining_time": "12h 55m 10s", "loss_scale": 1.0, "consumed_samples": 816640, "global_step/max_steps": "3190/12700"}
{"lm loss": 2.17054152, "grad_norm": 0.41281199, "learning_rate": 8.965e-05, "elapsed_time_per_iteration": 4.76152802, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 6s", "remaining_time": "12h 55m 5s", "loss_scale": 1.0, "consumed_samples": 816896, "global_step/max_steps": "3191/12700"}
{"lm loss": 2.16796494, "grad_norm": 0.38659155, "learning_rate": 8.964e-05, "elapsed_time_per_iteration": 4.94703293, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 11s", "remaining_time": "12h 55m 0s", "loss_scale": 1.0, "consumed_samples": 817152, "global_step/max_steps": "3192/12700"}
{"lm loss": 2.15473247, "grad_norm": 0.38505265, "learning_rate": 8.963e-05, "elapsed_time_per_iteration": 5.09637618, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 16s", "remaining_time": "12h 54m 56s", "loss_scale": 1.0, "consumed_samples": 817408, "global_step/max_steps": "3193/12700"}
{"lm loss": 2.15058708, "grad_norm": 0.39899299, "learning_rate": 8.963e-05, "elapsed_time_per_iteration": 4.89766812, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 21s", "remaining_time": "12h 54m 51s", "loss_scale": 1.0, "consumed_samples": 817664, "global_step/max_steps": "3194/12700"}
{"lm loss": 2.16220665, "grad_norm": 0.42475489, "learning_rate": 8.962e-05, "elapsed_time_per_iteration": 4.79551911, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 25s", "remaining_time": "12h 54m 46s", "loss_scale": 1.0, "consumed_samples": 817920, "global_step/max_steps": "3195/12700"}
{"lm loss": 2.17292571, "grad_norm": 0.41189262, "learning_rate": 8.961e-05, "elapsed_time_per_iteration": 4.80489492, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 30s", "remaining_time": "12h 54m 41s", "loss_scale": 1.0, "consumed_samples": 818176, "global_step/max_steps": "3196/12700"}
{"lm loss": 2.14590311, "grad_norm": 0.44949475, "learning_rate": 8.96e-05, "elapsed_time_per_iteration": 4.8126657, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 35s", "remaining_time": "12h 54m 36s", "loss_scale": 1.0, "consumed_samples": 818432, "global_step/max_steps": "3197/12700"}
{"lm loss": 2.13612461, "grad_norm": 0.42614692, "learning_rate": 8.959e-05, "elapsed_time_per_iteration": 4.99321485, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 40s", "remaining_time": "12h 54m 31s", "loss_scale": 1.0, "consumed_samples": 818688, "global_step/max_steps": "3198/12700"}
{"lm loss": 2.18874502, "grad_norm": 0.4559018, "learning_rate": 8.959e-05, "elapsed_time_per_iteration": 4.85264969, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 45s", "remaining_time": "12h 54m 26s", "loss_scale": 1.0, "consumed_samples": 818944, "global_step/max_steps": "3199/12700"}
{"lm loss": 2.14432454, "grad_norm": 0.3880136, "learning_rate": 8.958e-05, "elapsed_time_per_iteration": 4.87359285, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 50s", "remaining_time": "12h 54m 21s", "loss_scale": 1.0, "consumed_samples": 819200, "global_step/max_steps": "3200/12700"}
{"lm loss": 2.16033077, "grad_norm": 0.46236575, "learning_rate": 8.957e-05, "elapsed_time_per_iteration": 4.89060593, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 55s", "remaining_time": "12h 54m 16s", "loss_scale": 1.0, "consumed_samples": 819456, "global_step/max_steps": "3201/12700"}
{"lm loss": 2.15988588, "grad_norm": 0.43073949, "learning_rate": 8.956e-05, "elapsed_time_per_iteration": 4.80862641, "memory(GiB)": 28.98, "elapsed_time": "4h 20m 59s", "remaining_time": "12h 54m 11s", "loss_scale": 1.0, "consumed_samples": 819712, "global_step/max_steps": "3202/12700"}
{"lm loss": 2.15647912, "grad_norm": 0.42751136, "learning_rate": 8.956e-05, "elapsed_time_per_iteration": 4.97745967, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 4s", "remaining_time": "12h 54m 7s", "loss_scale": 1.0, "consumed_samples": 819968, "global_step/max_steps": "3203/12700"}
{"lm loss": 2.17295909, "grad_norm": 0.42073119, "learning_rate": 8.955e-05, "elapsed_time_per_iteration": 4.75648332, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 9s", "remaining_time": "12h 54m 1s", "loss_scale": 1.0, "consumed_samples": 820224, "global_step/max_steps": "3204/12700"}
{"lm loss": 2.19580173, "grad_norm": 0.39855653, "learning_rate": 8.954e-05, "elapsed_time_per_iteration": 4.83653998, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 14s", "remaining_time": "12h 53m 56s", "loss_scale": 1.0, "consumed_samples": 820480, "global_step/max_steps": "3205/12700"}
{"lm loss": 2.17372251, "grad_norm": 0.44733334, "learning_rate": 8.953e-05, "elapsed_time_per_iteration": 4.83828211, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 19s", "remaining_time": "12h 53m 51s", "loss_scale": 1.0, "consumed_samples": 820736, "global_step/max_steps": "3206/12700"}
{"lm loss": 2.15405965, "grad_norm": 0.43044102, "learning_rate": 8.952e-05, "elapsed_time_per_iteration": 4.96181893, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 24s", "remaining_time": "12h 53m 47s", "loss_scale": 1.0, "consumed_samples": 820992, "global_step/max_steps": "3207/12700"}
{"lm loss": 2.16864777, "grad_norm": 0.44027823, "learning_rate": 8.952e-05, "elapsed_time_per_iteration": 4.80684781, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 29s", "remaining_time": "12h 53m 41s", "loss_scale": 1.0, "consumed_samples": 821248, "global_step/max_steps": "3208/12700"}
{"lm loss": 2.15242577, "grad_norm": 0.4156591, "learning_rate": 8.951e-05, "elapsed_time_per_iteration": 4.97426033, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 34s", "remaining_time": "12h 53m 37s", "loss_scale": 1.0, "consumed_samples": 821504, "global_step/max_steps": "3209/12700"}
{"lm loss": 2.16443181, "grad_norm": 0.44544485, "learning_rate": 8.95e-05, "elapsed_time_per_iteration": 4.861902, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 38s", "remaining_time": "12h 53m 32s", "loss_scale": 1.0, "consumed_samples": 821760, "global_step/max_steps": "3210/12700"}
{"lm loss": 2.194767, "grad_norm": 0.45074394, "learning_rate": 8.949e-05, "elapsed_time_per_iteration": 4.81954885, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 43s", "remaining_time": "12h 53m 27s", "loss_scale": 1.0, "consumed_samples": 822016, "global_step/max_steps": "3211/12700"}
{"lm loss": 2.1106658, "grad_norm": 0.41862124, "learning_rate": 8.948e-05, "elapsed_time_per_iteration": 4.89115906, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 48s", "remaining_time": "12h 53m 22s", "loss_scale": 1.0, "consumed_samples": 822272, "global_step/max_steps": "3212/12700"}
{"lm loss": 2.15775752, "grad_norm": 0.41086671, "learning_rate": 8.948e-05, "elapsed_time_per_iteration": 4.80828524, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 53s", "remaining_time": "12h 53m 17s", "loss_scale": 1.0, "consumed_samples": 822528, "global_step/max_steps": "3213/12700"}
{"lm loss": 2.14718103, "grad_norm": 0.42743409, "learning_rate": 8.947e-05, "elapsed_time_per_iteration": 4.85748911, "memory(GiB)": 28.98, "elapsed_time": "4h 21m 58s", "remaining_time": "12h 53m 12s", "loss_scale": 1.0, "consumed_samples": 822784, "global_step/max_steps": "3214/12700"}
{"lm loss": 2.15183115, "grad_norm": 0.39684355, "learning_rate": 8.946e-05, "elapsed_time_per_iteration": 4.91971445, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 3s", "remaining_time": "12h 53m 7s", "loss_scale": 1.0, "consumed_samples": 823040, "global_step/max_steps": "3215/12700"}
{"lm loss": 2.14214206, "grad_norm": 0.38802451, "learning_rate": 8.945e-05, "elapsed_time_per_iteration": 4.82995439, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 8s", "remaining_time": "12h 53m 2s", "loss_scale": 1.0, "consumed_samples": 823296, "global_step/max_steps": "3216/12700"}
{"lm loss": 2.15142655, "grad_norm": 0.4373726, "learning_rate": 8.945e-05, "elapsed_time_per_iteration": 5.01730084, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 13s", "remaining_time": "12h 52m 57s", "loss_scale": 1.0, "consumed_samples": 823552, "global_step/max_steps": "3217/12700"}
{"lm loss": 2.15319204, "grad_norm": 0.40493664, "learning_rate": 8.944e-05, "elapsed_time_per_iteration": 4.93740869, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 18s", "remaining_time": "12h 52m 52s", "loss_scale": 1.0, "consumed_samples": 823808, "global_step/max_steps": "3218/12700"}
{"lm loss": 2.17373562, "grad_norm": 0.48993692, "learning_rate": 8.943e-05, "elapsed_time_per_iteration": 4.87228084, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 22s", "remaining_time": "12h 52m 48s", "loss_scale": 1.0, "consumed_samples": 824064, "global_step/max_steps": "3219/12700"}
{"lm loss": 2.15000463, "grad_norm": 0.43452144, "learning_rate": 8.942e-05, "elapsed_time_per_iteration": 4.86564708, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 27s", "remaining_time": "12h 52m 43s", "loss_scale": 1.0, "consumed_samples": 824320, "global_step/max_steps": "3220/12700"}
{"lm loss": 2.11146736, "grad_norm": 0.4688862, "learning_rate": 8.941e-05, "elapsed_time_per_iteration": 4.94111347, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 32s", "remaining_time": "12h 52m 38s", "loss_scale": 1.0, "consumed_samples": 824576, "global_step/max_steps": "3221/12700"}
{"lm loss": 2.14793825, "grad_norm": 0.40296403, "learning_rate": 8.941e-05, "elapsed_time_per_iteration": 4.85946345, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 37s", "remaining_time": "12h 52m 33s", "loss_scale": 1.0, "consumed_samples": 824832, "global_step/max_steps": "3222/12700"}
{"lm loss": 2.14483142, "grad_norm": 0.45066845, "learning_rate": 8.94e-05, "elapsed_time_per_iteration": 4.89822674, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 42s", "remaining_time": "12h 52m 28s", "loss_scale": 1.0, "consumed_samples": 825088, "global_step/max_steps": "3223/12700"}
{"lm loss": 2.15730953, "grad_norm": 0.40225601, "learning_rate": 8.939e-05, "elapsed_time_per_iteration": 4.817873, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 47s", "remaining_time": "12h 52m 23s", "loss_scale": 1.0, "consumed_samples": 825344, "global_step/max_steps": "3224/12700"}
{"lm loss": 2.18349123, "grad_norm": 0.43552235, "learning_rate": 8.938e-05, "elapsed_time_per_iteration": 4.86386633, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 52s", "remaining_time": "12h 52m 18s", "loss_scale": 1.0, "consumed_samples": 825600, "global_step/max_steps": "3225/12700"}
{"lm loss": 2.18168855, "grad_norm": 0.42951596, "learning_rate": 8.937e-05, "elapsed_time_per_iteration": 4.81707478, "memory(GiB)": 28.98, "elapsed_time": "4h 22m 56s", "remaining_time": "12h 52m 13s", "loss_scale": 1.0, "consumed_samples": 825856, "global_step/max_steps": "3226/12700"}
{"lm loss": 2.15931916, "grad_norm": 0.48049963, "learning_rate": 8.937e-05, "elapsed_time_per_iteration": 4.84498549, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 1s", "remaining_time": "12h 52m 8s", "loss_scale": 1.0, "consumed_samples": 826112, "global_step/max_steps": "3227/12700"}
{"lm loss": 2.13596201, "grad_norm": 0.40975615, "learning_rate": 8.936e-05, "elapsed_time_per_iteration": 4.81526256, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 6s", "remaining_time": "12h 52m 3s", "loss_scale": 1.0, "consumed_samples": 826368, "global_step/max_steps": "3228/12700"}
{"lm loss": 2.18223381, "grad_norm": 0.4564665, "learning_rate": 8.935e-05, "elapsed_time_per_iteration": 4.79291677, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 11s", "remaining_time": "12h 51m 58s", "loss_scale": 1.0, "consumed_samples": 826624, "global_step/max_steps": "3229/12700"}
{"lm loss": 2.16758585, "grad_norm": 0.41424125, "learning_rate": 8.934e-05, "elapsed_time_per_iteration": 4.87488174, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 16s", "remaining_time": "12h 51m 53s", "loss_scale": 1.0, "consumed_samples": 826880, "global_step/max_steps": "3230/12700"}
{"lm loss": 2.14408374, "grad_norm": 0.42165497, "learning_rate": 8.933e-05, "elapsed_time_per_iteration": 4.90012383, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 21s", "remaining_time": "12h 51m 48s", "loss_scale": 1.0, "consumed_samples": 827136, "global_step/max_steps": "3231/12700"}
{"lm loss": 2.18064094, "grad_norm": 0.47123373, "learning_rate": 8.933e-05, "elapsed_time_per_iteration": 4.90111923, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 26s", "remaining_time": "12h 51m 43s", "loss_scale": 1.0, "consumed_samples": 827392, "global_step/max_steps": "3232/12700"}
{"lm loss": 2.14637208, "grad_norm": 0.48395458, "learning_rate": 8.932e-05, "elapsed_time_per_iteration": 4.90313315, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 31s", "remaining_time": "12h 51m 38s", "loss_scale": 1.0, "consumed_samples": 827648, "global_step/max_steps": "3233/12700"}
{"lm loss": 2.14384937, "grad_norm": 0.38806656, "learning_rate": 8.931e-05, "elapsed_time_per_iteration": 4.91473818, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 35s", "remaining_time": "12h 51m 33s", "loss_scale": 1.0, "consumed_samples": 827904, "global_step/max_steps": "3234/12700"}
{"lm loss": 2.17754364, "grad_norm": 0.46759367, "learning_rate": 8.93e-05, "elapsed_time_per_iteration": 4.93495011, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 40s", "remaining_time": "12h 51m 28s", "loss_scale": 1.0, "consumed_samples": 828160, "global_step/max_steps": "3235/12700"}
{"lm loss": 2.17329812, "grad_norm": 0.39483216, "learning_rate": 8.93e-05, "elapsed_time_per_iteration": 4.88526201, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 45s", "remaining_time": "12h 51m 24s", "loss_scale": 1.0, "consumed_samples": 828416, "global_step/max_steps": "3236/12700"}
{"lm loss": 2.14740944, "grad_norm": 0.45887256, "learning_rate": 8.929e-05, "elapsed_time_per_iteration": 4.86605811, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 50s", "remaining_time": "12h 51m 19s", "loss_scale": 1.0, "consumed_samples": 828672, "global_step/max_steps": "3237/12700"}
{"lm loss": 2.1700573, "grad_norm": 0.54238605, "learning_rate": 8.928e-05, "elapsed_time_per_iteration": 4.81651974, "memory(GiB)": 28.98, "elapsed_time": "4h 23m 55s", "remaining_time": "12h 51m 13s", "loss_scale": 1.0, "consumed_samples": 828928, "global_step/max_steps": "3238/12700"}
{"lm loss": 2.154356, "grad_norm": 0.46106383, "learning_rate": 8.927e-05, "elapsed_time_per_iteration": 4.86065245, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 0s", "remaining_time": "12h 51m 8s", "loss_scale": 1.0, "consumed_samples": 829184, "global_step/max_steps": "3239/12700"}
{"lm loss": 2.17724061, "grad_norm": 0.47099903, "learning_rate": 8.926e-05, "elapsed_time_per_iteration": 4.89049315, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 5s", "remaining_time": "12h 51m 4s", "loss_scale": 1.0, "consumed_samples": 829440, "global_step/max_steps": "3240/12700"}
{"lm loss": 2.15046525, "grad_norm": 0.52744085, "learning_rate": 8.926e-05, "elapsed_time_per_iteration": 4.94231033, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 10s", "remaining_time": "12h 50m 59s", "loss_scale": 1.0, "consumed_samples": 829696, "global_step/max_steps": "3241/12700"}
{"lm loss": 2.14675283, "grad_norm": 0.38660511, "learning_rate": 8.925e-05, "elapsed_time_per_iteration": 5.05973053, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 15s", "remaining_time": "12h 50m 54s", "loss_scale": 1.0, "consumed_samples": 829952, "global_step/max_steps": "3242/12700"}
{"lm loss": 2.16177416, "grad_norm": 0.51719308, "learning_rate": 8.924e-05, "elapsed_time_per_iteration": 4.97251749, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 20s", "remaining_time": "12h 50m 50s", "loss_scale": 1.0, "consumed_samples": 830208, "global_step/max_steps": "3243/12700"}
{"lm loss": 2.15596128, "grad_norm": 0.42852318, "learning_rate": 8.923e-05, "elapsed_time_per_iteration": 5.057482, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 25s", "remaining_time": "12h 50m 45s", "loss_scale": 1.0, "consumed_samples": 830464, "global_step/max_steps": "3244/12700"}
{"lm loss": 2.16006088, "grad_norm": 0.43253452, "learning_rate": 8.922e-05, "elapsed_time_per_iteration": 4.92991972, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 30s", "remaining_time": "12h 50m 41s", "loss_scale": 1.0, "consumed_samples": 830720, "global_step/max_steps": "3245/12700"}
{"lm loss": 2.16025114, "grad_norm": 0.44220939, "learning_rate": 8.922e-05, "elapsed_time_per_iteration": 4.87822533, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 35s", "remaining_time": "12h 50m 36s", "loss_scale": 1.0, "consumed_samples": 830976, "global_step/max_steps": "3246/12700"}
{"lm loss": 2.12970185, "grad_norm": 0.39803225, "learning_rate": 8.921e-05, "elapsed_time_per_iteration": 4.92718387, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 39s", "remaining_time": "12h 50m 31s", "loss_scale": 1.0, "consumed_samples": 831232, "global_step/max_steps": "3247/12700"}
{"lm loss": 2.1431036, "grad_norm": 0.4607769, "learning_rate": 8.92e-05, "elapsed_time_per_iteration": 5.05710912, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 45s", "remaining_time": "12h 50m 26s", "loss_scale": 1.0, "consumed_samples": 831488, "global_step/max_steps": "3248/12700"}
{"lm loss": 2.16853666, "grad_norm": 0.38986123, "learning_rate": 8.919e-05, "elapsed_time_per_iteration": 4.79734182, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 49s", "remaining_time": "12h 50m 21s", "loss_scale": 1.0, "consumed_samples": 831744, "global_step/max_steps": "3249/12700"}
{"lm loss": 2.15908313, "grad_norm": 0.44515458, "learning_rate": 8.918e-05, "elapsed_time_per_iteration": 4.8844676, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 54s", "remaining_time": "12h 50m 16s", "loss_scale": 1.0, "consumed_samples": 832000, "global_step/max_steps": "3250/12700"}
{"lm loss": 2.16554308, "grad_norm": 0.42144209, "learning_rate": 8.918e-05, "elapsed_time_per_iteration": 4.79503798, "memory(GiB)": 28.98, "elapsed_time": "4h 24m 59s", "remaining_time": "12h 50m 11s", "loss_scale": 1.0, "consumed_samples": 832256, "global_step/max_steps": "3251/12700"}
{"lm loss": 2.18276238, "grad_norm": 0.40672249, "learning_rate": 8.917e-05, "elapsed_time_per_iteration": 4.94751668, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 4s", "remaining_time": "12h 50m 7s", "loss_scale": 1.0, "consumed_samples": 832512, "global_step/max_steps": "3252/12700"}
{"lm loss": 2.13971066, "grad_norm": 0.38577053, "learning_rate": 8.916e-05, "elapsed_time_per_iteration": 4.90954614, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 9s", "remaining_time": "12h 50m 2s", "loss_scale": 1.0, "consumed_samples": 832768, "global_step/max_steps": "3253/12700"}
{"lm loss": 2.16896534, "grad_norm": 0.38592553, "learning_rate": 8.915e-05, "elapsed_time_per_iteration": 4.91462851, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 14s", "remaining_time": "12h 49m 57s", "loss_scale": 1.0, "consumed_samples": 833024, "global_step/max_steps": "3254/12700"}
{"lm loss": 2.1433754, "grad_norm": 0.43015435, "learning_rate": 8.914e-05, "elapsed_time_per_iteration": 4.88692641, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 19s", "remaining_time": "12h 49m 52s", "loss_scale": 1.0, "consumed_samples": 833280, "global_step/max_steps": "3255/12700"}
{"lm loss": 2.19415116, "grad_norm": 0.39444599, "learning_rate": 8.914e-05, "elapsed_time_per_iteration": 4.83909702, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 23s", "remaining_time": "12h 49m 47s", "loss_scale": 1.0, "consumed_samples": 833536, "global_step/max_steps": "3256/12700"}
{"lm loss": 2.14083052, "grad_norm": 0.39321622, "learning_rate": 8.913e-05, "elapsed_time_per_iteration": 4.84620881, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 28s", "remaining_time": "12h 49m 42s", "loss_scale": 1.0, "consumed_samples": 833792, "global_step/max_steps": "3257/12700"}
{"lm loss": 2.12835956, "grad_norm": 0.43098897, "learning_rate": 8.912e-05, "elapsed_time_per_iteration": 4.79872441, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 33s", "remaining_time": "12h 49m 37s", "loss_scale": 1.0, "consumed_samples": 834048, "global_step/max_steps": "3258/12700"}
{"lm loss": 2.14038825, "grad_norm": 0.42924041, "learning_rate": 8.911e-05, "elapsed_time_per_iteration": 4.85457563, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 38s", "remaining_time": "12h 49m 32s", "loss_scale": 1.0, "consumed_samples": 834304, "global_step/max_steps": "3259/12700"}
{"lm loss": 2.1341083, "grad_norm": 0.38367695, "learning_rate": 8.91e-05, "elapsed_time_per_iteration": 4.97326231, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 43s", "remaining_time": "12h 49m 27s", "loss_scale": 1.0, "consumed_samples": 834560, "global_step/max_steps": "3260/12700"}
{"lm loss": 2.1197927, "grad_norm": 0.46175289, "learning_rate": 8.91e-05, "elapsed_time_per_iteration": 4.86526465, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 48s", "remaining_time": "12h 49m 22s", "loss_scale": 1.0, "consumed_samples": 834816, "global_step/max_steps": "3261/12700"}
{"lm loss": 2.13861609, "grad_norm": 0.43338937, "learning_rate": 8.909e-05, "elapsed_time_per_iteration": 4.85212016, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 53s", "remaining_time": "12h 49m 17s", "loss_scale": 1.0, "consumed_samples": 835072, "global_step/max_steps": "3262/12700"}
{"lm loss": 2.15557551, "grad_norm": 0.41651744, "learning_rate": 8.908e-05, "elapsed_time_per_iteration": 4.91042233, "memory(GiB)": 28.98, "elapsed_time": "4h 25m 58s", "remaining_time": "12h 49m 12s", "loss_scale": 1.0, "consumed_samples": 835328, "global_step/max_steps": "3263/12700"}
{"lm loss": 2.15323639, "grad_norm": 0.42752793, "learning_rate": 8.907e-05, "elapsed_time_per_iteration": 4.88727522, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 2s", "remaining_time": "12h 49m 7s", "loss_scale": 1.0, "consumed_samples": 835584, "global_step/max_steps": "3264/12700"}
{"lm loss": 2.16071558, "grad_norm": 0.45439452, "learning_rate": 8.906e-05, "elapsed_time_per_iteration": 4.90635872, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 7s", "remaining_time": "12h 49m 3s", "loss_scale": 1.0, "consumed_samples": 835840, "global_step/max_steps": "3265/12700"}
{"lm loss": 2.13010168, "grad_norm": 0.39412314, "learning_rate": 8.906e-05, "elapsed_time_per_iteration": 4.8273468, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 12s", "remaining_time": "12h 48m 57s", "loss_scale": 1.0, "consumed_samples": 836096, "global_step/max_steps": "3266/12700"}
{"lm loss": 2.16486001, "grad_norm": 0.46363831, "learning_rate": 8.905e-05, "elapsed_time_per_iteration": 4.98156619, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 17s", "remaining_time": "12h 48m 53s", "loss_scale": 1.0, "consumed_samples": 836352, "global_step/max_steps": "3267/12700"}
{"lm loss": 2.1550262, "grad_norm": 0.4440735, "learning_rate": 8.904e-05, "elapsed_time_per_iteration": 4.90538073, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 22s", "remaining_time": "12h 48m 48s", "loss_scale": 1.0, "consumed_samples": 836608, "global_step/max_steps": "3268/12700"}
{"lm loss": 2.15644193, "grad_norm": 0.42923751, "learning_rate": 8.903e-05, "elapsed_time_per_iteration": 4.78342295, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 27s", "remaining_time": "12h 48m 43s", "loss_scale": 1.0, "consumed_samples": 836864, "global_step/max_steps": "3269/12700"}
{"lm loss": 2.12863946, "grad_norm": 0.47050115, "learning_rate": 8.902e-05, "elapsed_time_per_iteration": 4.87821364, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 32s", "remaining_time": "12h 48m 38s", "loss_scale": 1.0, "consumed_samples": 837120, "global_step/max_steps": "3270/12700"}
{"lm loss": 2.15538263, "grad_norm": 0.40473664, "learning_rate": 8.902e-05, "elapsed_time_per_iteration": 4.80650282, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 37s", "remaining_time": "12h 48m 33s", "loss_scale": 1.0, "consumed_samples": 837376, "global_step/max_steps": "3271/12700"}
{"lm loss": 2.1629777, "grad_norm": 0.47865474, "learning_rate": 8.901e-05, "elapsed_time_per_iteration": 4.92962909, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 42s", "remaining_time": "12h 48m 28s", "loss_scale": 1.0, "consumed_samples": 837632, "global_step/max_steps": "3272/12700"}
{"lm loss": 2.16818976, "grad_norm": 0.41255426, "learning_rate": 8.9e-05, "elapsed_time_per_iteration": 4.82438517, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 46s", "remaining_time": "12h 48m 23s", "loss_scale": 1.0, "consumed_samples": 837888, "global_step/max_steps": "3273/12700"}
{"lm loss": 2.14475513, "grad_norm": 0.44775808, "learning_rate": 8.899e-05, "elapsed_time_per_iteration": 4.90175343, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 51s", "remaining_time": "12h 48m 18s", "loss_scale": 1.0, "consumed_samples": 838144, "global_step/max_steps": "3274/12700"}
{"lm loss": 2.12756944, "grad_norm": 0.39721739, "learning_rate": 8.898e-05, "elapsed_time_per_iteration": 4.92713308, "memory(GiB)": 28.98, "elapsed_time": "4h 26m 56s", "remaining_time": "12h 48m 13s", "loss_scale": 1.0, "consumed_samples": 838400, "global_step/max_steps": "3275/12700"}
{"lm loss": 2.13720036, "grad_norm": 0.41853815, "learning_rate": 8.898e-05, "elapsed_time_per_iteration": 5.02576876, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 1s", "remaining_time": "12h 48m 9s", "loss_scale": 1.0, "consumed_samples": 838656, "global_step/max_steps": "3276/12700"}
{"lm loss": 2.1451149, "grad_norm": 0.40662289, "learning_rate": 8.897e-05, "elapsed_time_per_iteration": 4.88875461, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 6s", "remaining_time": "12h 48m 4s", "loss_scale": 1.0, "consumed_samples": 838912, "global_step/max_steps": "3277/12700"}
{"lm loss": 2.13800073, "grad_norm": 0.42319059, "learning_rate": 8.896e-05, "elapsed_time_per_iteration": 4.81779265, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 11s", "remaining_time": "12h 47m 59s", "loss_scale": 1.0, "consumed_samples": 839168, "global_step/max_steps": "3278/12700"}
{"lm loss": 2.14546609, "grad_norm": 0.40641433, "learning_rate": 8.895e-05, "elapsed_time_per_iteration": 4.79195285, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 16s", "remaining_time": "12h 47m 54s", "loss_scale": 1.0, "consumed_samples": 839424, "global_step/max_steps": "3279/12700"}
{"lm loss": 2.12946606, "grad_norm": 0.37358603, "learning_rate": 8.894e-05, "elapsed_time_per_iteration": 4.95308208, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 21s", "remaining_time": "12h 47m 49s", "loss_scale": 1.0, "consumed_samples": 839680, "global_step/max_steps": "3280/12700"}
{"lm loss": 2.14904046, "grad_norm": 0.41068393, "learning_rate": 8.894e-05, "elapsed_time_per_iteration": 4.85853004, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 25s", "remaining_time": "12h 47m 44s", "loss_scale": 1.0, "consumed_samples": 839936, "global_step/max_steps": "3281/12700"}
{"lm loss": 2.15091991, "grad_norm": 0.38827825, "learning_rate": 8.893e-05, "elapsed_time_per_iteration": 4.81543732, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 30s", "remaining_time": "12h 47m 39s", "loss_scale": 1.0, "consumed_samples": 840192, "global_step/max_steps": "3282/12700"}
{"lm loss": 2.16663098, "grad_norm": 0.40553325, "learning_rate": 8.892e-05, "elapsed_time_per_iteration": 4.91743016, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 35s", "remaining_time": "12h 47m 34s", "loss_scale": 1.0, "consumed_samples": 840448, "global_step/max_steps": "3283/12700"}
{"lm loss": 2.18454552, "grad_norm": 0.40243605, "learning_rate": 8.891e-05, "elapsed_time_per_iteration": 4.9511714, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 40s", "remaining_time": "12h 47m 29s", "loss_scale": 1.0, "consumed_samples": 840704, "global_step/max_steps": "3284/12700"}
{"lm loss": 2.13282776, "grad_norm": 0.41191459, "learning_rate": 8.89e-05, "elapsed_time_per_iteration": 4.88051128, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 45s", "remaining_time": "12h 47m 24s", "loss_scale": 1.0, "consumed_samples": 840960, "global_step/max_steps": "3285/12700"}
{"lm loss": 2.1705339, "grad_norm": 0.37571844, "learning_rate": 8.89e-05, "elapsed_time_per_iteration": 4.88538551, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 50s", "remaining_time": "12h 47m 19s", "loss_scale": 1.0, "consumed_samples": 841216, "global_step/max_steps": "3286/12700"}
{"lm loss": 2.15307975, "grad_norm": 0.40479645, "learning_rate": 8.889e-05, "elapsed_time_per_iteration": 4.92728925, "memory(GiB)": 28.98, "elapsed_time": "4h 27m 55s", "remaining_time": "12h 47m 15s", "loss_scale": 1.0, "consumed_samples": 841472, "global_step/max_steps": "3287/12700"}
{"lm loss": 2.17306423, "grad_norm": 0.39976808, "learning_rate": 8.888e-05, "elapsed_time_per_iteration": 4.88570905, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 0s", "remaining_time": "12h 47m 10s", "loss_scale": 1.0, "consumed_samples": 841728, "global_step/max_steps": "3288/12700"}
{"lm loss": 2.13344145, "grad_norm": 0.38579121, "learning_rate": 8.887e-05, "elapsed_time_per_iteration": 4.84519315, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 5s", "remaining_time": "12h 47m 5s", "loss_scale": 1.0, "consumed_samples": 841984, "global_step/max_steps": "3289/12700"}
{"lm loss": 2.16773844, "grad_norm": 0.41027781, "learning_rate": 8.886e-05, "elapsed_time_per_iteration": 4.83486342, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 9s", "remaining_time": "12h 47m 0s", "loss_scale": 1.0, "consumed_samples": 842240, "global_step/max_steps": "3290/12700"}
{"lm loss": 2.14677572, "grad_norm": 0.3944312, "learning_rate": 8.886e-05, "elapsed_time_per_iteration": 4.83347631, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 14s", "remaining_time": "12h 46m 55s", "loss_scale": 1.0, "consumed_samples": 842496, "global_step/max_steps": "3291/12700"}
{"lm loss": 2.13954377, "grad_norm": 0.41748643, "learning_rate": 8.885e-05, "elapsed_time_per_iteration": 4.9704082, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 19s", "remaining_time": "12h 46m 50s", "loss_scale": 1.0, "consumed_samples": 842752, "global_step/max_steps": "3292/12700"}
{"lm loss": 2.1733129, "grad_norm": 0.39686912, "learning_rate": 8.884e-05, "elapsed_time_per_iteration": 4.96298647, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 24s", "remaining_time": "12h 46m 45s", "loss_scale": 1.0, "consumed_samples": 843008, "global_step/max_steps": "3293/12700"}
{"lm loss": 2.16667271, "grad_norm": 0.41939402, "learning_rate": 8.883e-05, "elapsed_time_per_iteration": 4.99592113, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 29s", "remaining_time": "12h 46m 41s", "loss_scale": 1.0, "consumed_samples": 843264, "global_step/max_steps": "3294/12700"}
{"lm loss": 2.16427898, "grad_norm": 0.40758353, "learning_rate": 8.882e-05, "elapsed_time_per_iteration": 4.95297384, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 34s", "remaining_time": "12h 46m 36s", "loss_scale": 1.0, "consumed_samples": 843520, "global_step/max_steps": "3295/12700"}
{"lm loss": 2.11557722, "grad_norm": 0.40786761, "learning_rate": 8.882e-05, "elapsed_time_per_iteration": 4.88719153, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 39s", "remaining_time": "12h 46m 31s", "loss_scale": 1.0, "consumed_samples": 843776, "global_step/max_steps": "3296/12700"}
{"lm loss": 2.12596416, "grad_norm": 0.43652794, "learning_rate": 8.881e-05, "elapsed_time_per_iteration": 4.97819066, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 44s", "remaining_time": "12h 46m 26s", "loss_scale": 1.0, "consumed_samples": 844032, "global_step/max_steps": "3297/12700"}
{"lm loss": 2.14476895, "grad_norm": 0.42541364, "learning_rate": 8.88e-05, "elapsed_time_per_iteration": 4.83047175, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 49s", "remaining_time": "12h 46m 21s", "loss_scale": 1.0, "consumed_samples": 844288, "global_step/max_steps": "3298/12700"}
{"lm loss": 2.12754703, "grad_norm": 0.39449659, "learning_rate": 8.879e-05, "elapsed_time_per_iteration": 4.89401174, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 54s", "remaining_time": "12h 46m 16s", "loss_scale": 1.0, "consumed_samples": 844544, "global_step/max_steps": "3299/12700"}
{"lm loss": 2.13334584, "grad_norm": 0.46108758, "learning_rate": 8.878e-05, "elapsed_time_per_iteration": 4.83967757, "memory(GiB)": 28.98, "elapsed_time": "4h 28m 59s", "remaining_time": "12h 46m 11s", "loss_scale": 1.0, "consumed_samples": 844800, "global_step/max_steps": "3300/12700"}
{"lm loss": 2.15534139, "grad_norm": 0.41218865, "learning_rate": 8.878e-05, "elapsed_time_per_iteration": 4.90188026, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 3s", "remaining_time": "12h 46m 7s", "loss_scale": 1.0, "consumed_samples": 845056, "global_step/max_steps": "3301/12700"}
{"lm loss": 2.1461823, "grad_norm": 0.4771488, "learning_rate": 8.877e-05, "elapsed_time_per_iteration": 4.81333756, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 8s", "remaining_time": "12h 46m 1s", "loss_scale": 1.0, "consumed_samples": 845312, "global_step/max_steps": "3302/12700"}
{"lm loss": 2.13882661, "grad_norm": 0.43283704, "learning_rate": 8.876e-05, "elapsed_time_per_iteration": 4.8437326, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 13s", "remaining_time": "12h 45m 56s", "loss_scale": 1.0, "consumed_samples": 845568, "global_step/max_steps": "3303/12700"}
{"lm loss": 2.16374922, "grad_norm": 0.44409999, "learning_rate": 8.875e-05, "elapsed_time_per_iteration": 4.88802195, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 18s", "remaining_time": "12h 45m 52s", "loss_scale": 1.0, "consumed_samples": 845824, "global_step/max_steps": "3304/12700"}
{"lm loss": 2.14421391, "grad_norm": 0.42836097, "learning_rate": 8.874e-05, "elapsed_time_per_iteration": 4.9370656, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 23s", "remaining_time": "12h 45m 47s", "loss_scale": 1.0, "consumed_samples": 846080, "global_step/max_steps": "3305/12700"}
{"lm loss": 2.18863058, "grad_norm": 0.39958811, "learning_rate": 8.874e-05, "elapsed_time_per_iteration": 4.87346268, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 28s", "remaining_time": "12h 45m 42s", "loss_scale": 1.0, "consumed_samples": 846336, "global_step/max_steps": "3306/12700"}
{"lm loss": 2.16309977, "grad_norm": 0.42489219, "learning_rate": 8.873e-05, "elapsed_time_per_iteration": 4.89145541, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 33s", "remaining_time": "12h 45m 37s", "loss_scale": 1.0, "consumed_samples": 846592, "global_step/max_steps": "3307/12700"}
{"lm loss": 2.1622231, "grad_norm": 0.43714017, "learning_rate": 8.872e-05, "elapsed_time_per_iteration": 4.87312007, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 38s", "remaining_time": "12h 45m 32s", "loss_scale": 1.0, "consumed_samples": 846848, "global_step/max_steps": "3308/12700"}
{"lm loss": 2.11666799, "grad_norm": 0.39053202, "learning_rate": 8.871e-05, "elapsed_time_per_iteration": 4.86247826, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 42s", "remaining_time": "12h 45m 27s", "loss_scale": 1.0, "consumed_samples": 847104, "global_step/max_steps": "3309/12700"}
{"lm loss": 2.12231851, "grad_norm": 0.43003827, "learning_rate": 8.87e-05, "elapsed_time_per_iteration": 4.85078025, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 47s", "remaining_time": "12h 45m 22s", "loss_scale": 1.0, "consumed_samples": 847360, "global_step/max_steps": "3310/12700"}
{"lm loss": 2.1259017, "grad_norm": 0.43621635, "learning_rate": 8.869e-05, "elapsed_time_per_iteration": 4.94261336, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 52s", "remaining_time": "12h 45m 17s", "loss_scale": 1.0, "consumed_samples": 847616, "global_step/max_steps": "3311/12700"}
{"lm loss": 2.10953665, "grad_norm": 0.40908805, "learning_rate": 8.869e-05, "elapsed_time_per_iteration": 4.92678165, "memory(GiB)": 28.98, "elapsed_time": "4h 29m 57s", "remaining_time": "12h 45m 13s", "loss_scale": 1.0, "consumed_samples": 847872, "global_step/max_steps": "3312/12700"}
{"lm loss": 2.17216635, "grad_norm": 0.39829978, "learning_rate": 8.868e-05, "elapsed_time_per_iteration": 4.85388064, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 2s", "remaining_time": "12h 45m 8s", "loss_scale": 1.0, "consumed_samples": 848128, "global_step/max_steps": "3313/12700"}
{"lm loss": 2.16222835, "grad_norm": 0.4617027, "learning_rate": 8.867e-05, "elapsed_time_per_iteration": 4.83675432, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 7s", "remaining_time": "12h 45m 2s", "loss_scale": 1.0, "consumed_samples": 848384, "global_step/max_steps": "3314/12700"}
{"lm loss": 2.14665723, "grad_norm": 0.41766229, "learning_rate": 8.866e-05, "elapsed_time_per_iteration": 4.92930532, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 12s", "remaining_time": "12h 44m 58s", "loss_scale": 1.0, "consumed_samples": 848640, "global_step/max_steps": "3315/12700"}
{"lm loss": 2.13446927, "grad_norm": 0.41957062, "learning_rate": 8.865e-05, "elapsed_time_per_iteration": 4.87245131, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 17s", "remaining_time": "12h 44m 53s", "loss_scale": 1.0, "consumed_samples": 848896, "global_step/max_steps": "3316/12700"}
{"lm loss": 2.14024377, "grad_norm": 0.44865954, "learning_rate": 8.865e-05, "elapsed_time_per_iteration": 5.0450964, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 22s", "remaining_time": "12h 44m 48s", "loss_scale": 1.0, "consumed_samples": 849152, "global_step/max_steps": "3317/12700"}
{"lm loss": 2.14886212, "grad_norm": 0.41959423, "learning_rate": 8.864e-05, "elapsed_time_per_iteration": 4.94046402, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 27s", "remaining_time": "12h 44m 44s", "loss_scale": 1.0, "consumed_samples": 849408, "global_step/max_steps": "3318/12700"}
{"lm loss": 2.13762951, "grad_norm": 0.45169815, "learning_rate": 8.863e-05, "elapsed_time_per_iteration": 4.85237551, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 32s", "remaining_time": "12h 44m 39s", "loss_scale": 1.0, "consumed_samples": 849664, "global_step/max_steps": "3319/12700"}
{"lm loss": 2.15362263, "grad_norm": 0.41874936, "learning_rate": 8.862e-05, "elapsed_time_per_iteration": 4.85519433, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 36s", "remaining_time": "12h 44m 34s", "loss_scale": 1.0, "consumed_samples": 849920, "global_step/max_steps": "3320/12700"}
{"lm loss": 2.14532137, "grad_norm": 0.43805966, "learning_rate": 8.861e-05, "elapsed_time_per_iteration": 4.75495911, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 41s", "remaining_time": "12h 44m 28s", "loss_scale": 1.0, "consumed_samples": 850176, "global_step/max_steps": "3321/12700"}
{"lm loss": 2.16660929, "grad_norm": 0.39414626, "learning_rate": 8.861e-05, "elapsed_time_per_iteration": 4.81117225, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 46s", "remaining_time": "12h 44m 23s", "loss_scale": 1.0, "consumed_samples": 850432, "global_step/max_steps": "3322/12700"}
{"lm loss": 2.16539741, "grad_norm": 0.42996261, "learning_rate": 8.86e-05, "elapsed_time_per_iteration": 4.88288999, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 51s", "remaining_time": "12h 44m 18s", "loss_scale": 1.0, "consumed_samples": 850688, "global_step/max_steps": "3323/12700"}
{"lm loss": 2.17367887, "grad_norm": 0.40378922, "learning_rate": 8.859e-05, "elapsed_time_per_iteration": 4.88655782, "memory(GiB)": 28.98, "elapsed_time": "4h 30m 56s", "remaining_time": "12h 44m 13s", "loss_scale": 1.0, "consumed_samples": 850944, "global_step/max_steps": "3324/12700"}
{"lm loss": 2.12765622, "grad_norm": 0.42300642, "learning_rate": 8.858e-05, "elapsed_time_per_iteration": 4.78571248, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 0s", "remaining_time": "12h 44m 8s", "loss_scale": 1.0, "consumed_samples": 851200, "global_step/max_steps": "3325/12700"}
{"lm loss": 2.19019032, "grad_norm": 0.42105073, "learning_rate": 8.857e-05, "elapsed_time_per_iteration": 4.92091632, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 5s", "remaining_time": "12h 44m 3s", "loss_scale": 1.0, "consumed_samples": 851456, "global_step/max_steps": "3326/12700"}
{"lm loss": 2.12890053, "grad_norm": 0.38704944, "learning_rate": 8.856e-05, "elapsed_time_per_iteration": 4.89107537, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 10s", "remaining_time": "12h 43m 58s", "loss_scale": 1.0, "consumed_samples": 851712, "global_step/max_steps": "3327/12700"}
{"lm loss": 2.11649942, "grad_norm": 0.40948057, "learning_rate": 8.856e-05, "elapsed_time_per_iteration": 4.96323419, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 15s", "remaining_time": "12h 43m 54s", "loss_scale": 1.0, "consumed_samples": 851968, "global_step/max_steps": "3328/12700"}
{"lm loss": 2.13583159, "grad_norm": 0.44344783, "learning_rate": 8.855e-05, "elapsed_time_per_iteration": 4.81443286, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 20s", "remaining_time": "12h 43m 49s", "loss_scale": 1.0, "consumed_samples": 852224, "global_step/max_steps": "3329/12700"}
{"lm loss": 2.14497042, "grad_norm": 0.38281885, "learning_rate": 8.854e-05, "elapsed_time_per_iteration": 4.94670486, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 25s", "remaining_time": "12h 43m 44s", "loss_scale": 1.0, "consumed_samples": 852480, "global_step/max_steps": "3330/12700"}
{"lm loss": 2.15963435, "grad_norm": 0.39228675, "learning_rate": 8.853e-05, "elapsed_time_per_iteration": 4.84157991, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 30s", "remaining_time": "12h 43m 39s", "loss_scale": 1.0, "consumed_samples": 852736, "global_step/max_steps": "3331/12700"}
{"lm loss": 2.1546154, "grad_norm": 0.40902817, "learning_rate": 8.852e-05, "elapsed_time_per_iteration": 4.84729218, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 35s", "remaining_time": "12h 43m 34s", "loss_scale": 1.0, "consumed_samples": 852992, "global_step/max_steps": "3332/12700"}
{"lm loss": 2.18072176, "grad_norm": 0.41741872, "learning_rate": 8.852e-05, "elapsed_time_per_iteration": 4.89540482, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 40s", "remaining_time": "12h 43m 29s", "loss_scale": 1.0, "consumed_samples": 853248, "global_step/max_steps": "3333/12700"}
{"lm loss": 2.16039944, "grad_norm": 0.41158009, "learning_rate": 8.851e-05, "elapsed_time_per_iteration": 4.83644247, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 44s", "remaining_time": "12h 43m 24s", "loss_scale": 1.0, "consumed_samples": 853504, "global_step/max_steps": "3334/12700"}
{"lm loss": 2.13825941, "grad_norm": 0.42115167, "learning_rate": 8.85e-05, "elapsed_time_per_iteration": 4.7652514, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 49s", "remaining_time": "12h 43m 19s", "loss_scale": 1.0, "consumed_samples": 853760, "global_step/max_steps": "3335/12700"}
{"lm loss": 2.15115047, "grad_norm": 0.42389941, "learning_rate": 8.849e-05, "elapsed_time_per_iteration": 4.84122419, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 54s", "remaining_time": "12h 43m 14s", "loss_scale": 1.0, "consumed_samples": 854016, "global_step/max_steps": "3336/12700"}
{"lm loss": 2.16249752, "grad_norm": 0.40878874, "learning_rate": 8.848e-05, "elapsed_time_per_iteration": 4.79200983, "memory(GiB)": 28.98, "elapsed_time": "4h 31m 59s", "remaining_time": "12h 43m 9s", "loss_scale": 1.0, "consumed_samples": 854272, "global_step/max_steps": "3337/12700"}
{"lm loss": 2.18564463, "grad_norm": 0.38552287, "learning_rate": 8.847e-05, "elapsed_time_per_iteration": 4.80428648, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 4s", "remaining_time": "12h 43m 3s", "loss_scale": 1.0, "consumed_samples": 854528, "global_step/max_steps": "3338/12700"}
{"lm loss": 2.15258861, "grad_norm": 0.41523674, "learning_rate": 8.847e-05, "elapsed_time_per_iteration": 4.76486731, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 8s", "remaining_time": "12h 42m 58s", "loss_scale": 1.0, "consumed_samples": 854784, "global_step/max_steps": "3339/12700"}
{"lm loss": 2.15659714, "grad_norm": 0.39475936, "learning_rate": 8.846e-05, "elapsed_time_per_iteration": 4.96376038, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 13s", "remaining_time": "12h 42m 53s", "loss_scale": 1.0, "consumed_samples": 855040, "global_step/max_steps": "3340/12700"}
{"lm loss": 2.17216611, "grad_norm": 0.39868447, "learning_rate": 8.845e-05, "elapsed_time_per_iteration": 4.9324019, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 18s", "remaining_time": "12h 42m 49s", "loss_scale": 1.0, "consumed_samples": 855296, "global_step/max_steps": "3341/12700"}
{"lm loss": 2.15124846, "grad_norm": 0.4516702, "learning_rate": 8.844e-05, "elapsed_time_per_iteration": 4.95174813, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 23s", "remaining_time": "12h 42m 44s", "loss_scale": 1.0, "consumed_samples": 855552, "global_step/max_steps": "3342/12700"}
{"lm loss": 2.13161182, "grad_norm": 0.43297401, "learning_rate": 8.843e-05, "elapsed_time_per_iteration": 4.82429385, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 28s", "remaining_time": "12h 42m 39s", "loss_scale": 1.0, "consumed_samples": 855808, "global_step/max_steps": "3343/12700"}
{"lm loss": 2.137007, "grad_norm": 0.40148288, "learning_rate": 8.843e-05, "elapsed_time_per_iteration": 4.90545511, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 33s", "remaining_time": "12h 42m 34s", "loss_scale": 1.0, "consumed_samples": 856064, "global_step/max_steps": "3344/12700"}
{"lm loss": 2.14996409, "grad_norm": 0.40192103, "learning_rate": 8.842e-05, "elapsed_time_per_iteration": 4.91277528, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 38s", "remaining_time": "12h 42m 29s", "loss_scale": 1.0, "consumed_samples": 856320, "global_step/max_steps": "3345/12700"}
{"lm loss": 2.16333342, "grad_norm": 0.40773317, "learning_rate": 8.841e-05, "elapsed_time_per_iteration": 4.84778142, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 43s", "remaining_time": "12h 42m 24s", "loss_scale": 1.0, "consumed_samples": 856576, "global_step/max_steps": "3346/12700"}
{"lm loss": 2.17332125, "grad_norm": 0.40750873, "learning_rate": 8.84e-05, "elapsed_time_per_iteration": 4.86734796, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 48s", "remaining_time": "12h 42m 19s", "loss_scale": 1.0, "consumed_samples": 856832, "global_step/max_steps": "3347/12700"}
{"lm loss": 2.16245461, "grad_norm": 0.4261646, "learning_rate": 8.839e-05, "elapsed_time_per_iteration": 4.84697843, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 52s", "remaining_time": "12h 42m 14s", "loss_scale": 1.0, "consumed_samples": 857088, "global_step/max_steps": "3348/12700"}
{"lm loss": 2.13025403, "grad_norm": 0.35648948, "learning_rate": 8.838e-05, "elapsed_time_per_iteration": 4.84949827, "memory(GiB)": 28.98, "elapsed_time": "4h 32m 57s", "remaining_time": "12h 42m 9s", "loss_scale": 1.0, "consumed_samples": 857344, "global_step/max_steps": "3349/12700"}
{"lm loss": 2.15284061, "grad_norm": 0.44916224, "learning_rate": 8.838e-05, "elapsed_time_per_iteration": 4.96858096, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 2s", "remaining_time": "12h 42m 5s", "loss_scale": 1.0, "consumed_samples": 857600, "global_step/max_steps": "3350/12700"}
{"lm loss": 2.14112329, "grad_norm": 0.42102426, "learning_rate": 8.837e-05, "elapsed_time_per_iteration": 4.89064932, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 7s", "remaining_time": "12h 42m 0s", "loss_scale": 1.0, "consumed_samples": 857856, "global_step/max_steps": "3351/12700"}
{"lm loss": 2.14101863, "grad_norm": 0.42289197, "learning_rate": 8.836e-05, "elapsed_time_per_iteration": 4.86575937, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 12s", "remaining_time": "12h 41m 55s", "loss_scale": 1.0, "consumed_samples": 858112, "global_step/max_steps": "3352/12700"}
{"lm loss": 2.1760726, "grad_norm": 0.41872513, "learning_rate": 8.835e-05, "elapsed_time_per_iteration": 4.95161176, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 17s", "remaining_time": "12h 41m 50s", "loss_scale": 1.0, "consumed_samples": 858368, "global_step/max_steps": "3353/12700"}
{"lm loss": 2.14496732, "grad_norm": 0.4123711, "learning_rate": 8.834e-05, "elapsed_time_per_iteration": 4.98526883, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 22s", "remaining_time": "12h 41m 45s", "loss_scale": 1.0, "consumed_samples": 858624, "global_step/max_steps": "3354/12700"}
{"lm loss": 2.12218666, "grad_norm": 0.39891821, "learning_rate": 8.834e-05, "elapsed_time_per_iteration": 4.86726809, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 27s", "remaining_time": "12h 41m 40s", "loss_scale": 1.0, "consumed_samples": 858880, "global_step/max_steps": "3355/12700"}
{"lm loss": 2.17556405, "grad_norm": 0.42318988, "learning_rate": 8.833e-05, "elapsed_time_per_iteration": 4.83672023, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 32s", "remaining_time": "12h 41m 35s", "loss_scale": 1.0, "consumed_samples": 859136, "global_step/max_steps": "3356/12700"}
{"lm loss": 2.163517, "grad_norm": 0.41217831, "learning_rate": 8.832e-05, "elapsed_time_per_iteration": 4.83665872, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 37s", "remaining_time": "12h 41m 30s", "loss_scale": 1.0, "consumed_samples": 859392, "global_step/max_steps": "3357/12700"}
{"lm loss": 2.12410522, "grad_norm": 0.40936616, "learning_rate": 8.831e-05, "elapsed_time_per_iteration": 4.79913545, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 41s", "remaining_time": "12h 41m 25s", "loss_scale": 1.0, "consumed_samples": 859648, "global_step/max_steps": "3358/12700"}
{"lm loss": 2.10731149, "grad_norm": 0.43958256, "learning_rate": 8.83e-05, "elapsed_time_per_iteration": 4.87719893, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 46s", "remaining_time": "12h 41m 20s", "loss_scale": 1.0, "consumed_samples": 859904, "global_step/max_steps": "3359/12700"}
{"lm loss": 2.13522077, "grad_norm": 0.40500835, "learning_rate": 8.829e-05, "elapsed_time_per_iteration": 4.95957184, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 51s", "remaining_time": "12h 41m 16s", "loss_scale": 1.0, "consumed_samples": 860160, "global_step/max_steps": "3360/12700"}
{"lm loss": 2.12504196, "grad_norm": 0.38960817, "learning_rate": 8.829e-05, "elapsed_time_per_iteration": 4.85604072, "memory(GiB)": 28.98, "elapsed_time": "4h 33m 56s", "remaining_time": "12h 41m 11s", "loss_scale": 1.0, "consumed_samples": 860416, "global_step/max_steps": "3361/12700"}
{"lm loss": 2.13831377, "grad_norm": 0.4560996, "learning_rate": 8.828e-05, "elapsed_time_per_iteration": 4.85967016, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 1s", "remaining_time": "12h 41m 6s", "loss_scale": 1.0, "consumed_samples": 860672, "global_step/max_steps": "3362/12700"}
{"lm loss": 2.18616152, "grad_norm": 0.41075203, "learning_rate": 8.827e-05, "elapsed_time_per_iteration": 4.90319943, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 6s", "remaining_time": "12h 41m 1s", "loss_scale": 1.0, "consumed_samples": 860928, "global_step/max_steps": "3363/12700"}
{"lm loss": 2.14782548, "grad_norm": 0.45840129, "learning_rate": 8.826e-05, "elapsed_time_per_iteration": 4.89227796, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 11s", "remaining_time": "12h 40m 56s", "loss_scale": 1.0, "consumed_samples": 861184, "global_step/max_steps": "3364/12700"}
{"lm loss": 2.16540504, "grad_norm": 0.43949065, "learning_rate": 8.825e-05, "elapsed_time_per_iteration": 4.88968134, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 16s", "remaining_time": "12h 40m 51s", "loss_scale": 1.0, "consumed_samples": 861440, "global_step/max_steps": "3365/12700"}
{"lm loss": 2.14001513, "grad_norm": 0.40395847, "learning_rate": 8.825e-05, "elapsed_time_per_iteration": 4.95635676, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 21s", "remaining_time": "12h 40m 46s", "loss_scale": 1.0, "consumed_samples": 861696, "global_step/max_steps": "3366/12700"}
{"lm loss": 2.15799356, "grad_norm": 0.42434776, "learning_rate": 8.824e-05, "elapsed_time_per_iteration": 4.83824134, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 25s", "remaining_time": "12h 40m 41s", "loss_scale": 1.0, "consumed_samples": 861952, "global_step/max_steps": "3367/12700"}
{"lm loss": 2.14937949, "grad_norm": 0.42610151, "learning_rate": 8.823e-05, "elapsed_time_per_iteration": 4.84158349, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 30s", "remaining_time": "12h 40m 36s", "loss_scale": 1.0, "consumed_samples": 862208, "global_step/max_steps": "3368/12700"}
{"lm loss": 2.14683509, "grad_norm": 0.4087508, "learning_rate": 8.822e-05, "elapsed_time_per_iteration": 4.87503886, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 35s", "remaining_time": "12h 40m 31s", "loss_scale": 1.0, "consumed_samples": 862464, "global_step/max_steps": "3369/12700"}
{"lm loss": 2.16086531, "grad_norm": 0.40528986, "learning_rate": 8.821e-05, "elapsed_time_per_iteration": 4.82483602, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 40s", "remaining_time": "12h 40m 26s", "loss_scale": 1.0, "consumed_samples": 862720, "global_step/max_steps": "3370/12700"}
{"lm loss": 2.1415906, "grad_norm": 0.42589793, "learning_rate": 8.82e-05, "elapsed_time_per_iteration": 4.86897469, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 45s", "remaining_time": "12h 40m 21s", "loss_scale": 1.0, "consumed_samples": 862976, "global_step/max_steps": "3371/12700"}
{"lm loss": 2.14758062, "grad_norm": 0.43853247, "learning_rate": 8.82e-05, "elapsed_time_per_iteration": 4.76181078, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 50s", "remaining_time": "12h 40m 16s", "loss_scale": 1.0, "consumed_samples": 863232, "global_step/max_steps": "3372/12700"}
{"lm loss": 2.175488, "grad_norm": 0.38548383, "learning_rate": 8.819e-05, "elapsed_time_per_iteration": 4.9160161, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 54s", "remaining_time": "12h 40m 11s", "loss_scale": 1.0, "consumed_samples": 863488, "global_step/max_steps": "3373/12700"}
{"lm loss": 2.14545035, "grad_norm": 0.41360599, "learning_rate": 8.818e-05, "elapsed_time_per_iteration": 4.80069661, "memory(GiB)": 28.98, "elapsed_time": "4h 34m 59s", "remaining_time": "12h 40m 6s", "loss_scale": 1.0, "consumed_samples": 863744, "global_step/max_steps": "3374/12700"}
{"lm loss": 2.16837764, "grad_norm": 0.39916974, "learning_rate": 8.817e-05, "elapsed_time_per_iteration": 4.86193204, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 4s", "remaining_time": "12h 40m 1s", "loss_scale": 1.0, "consumed_samples": 864000, "global_step/max_steps": "3375/12700"}
{"lm loss": 2.185148, "grad_norm": 0.43934515, "learning_rate": 8.816e-05, "elapsed_time_per_iteration": 4.803936, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 9s", "remaining_time": "12h 39m 56s", "loss_scale": 1.0, "consumed_samples": 864256, "global_step/max_steps": "3376/12700"}
{"lm loss": 2.1324017, "grad_norm": 0.39526719, "learning_rate": 8.815e-05, "elapsed_time_per_iteration": 4.95493007, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 14s", "remaining_time": "12h 39m 51s", "loss_scale": 1.0, "consumed_samples": 864512, "global_step/max_steps": "3377/12700"}
{"lm loss": 2.11900377, "grad_norm": 0.41257748, "learning_rate": 8.815e-05, "elapsed_time_per_iteration": 4.90122581, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 19s", "remaining_time": "12h 39m 46s", "loss_scale": 1.0, "consumed_samples": 864768, "global_step/max_steps": "3378/12700"}
{"lm loss": 2.15030813, "grad_norm": 0.3942841, "learning_rate": 8.814e-05, "elapsed_time_per_iteration": 4.88290572, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 24s", "remaining_time": "12h 39m 41s", "loss_scale": 1.0, "consumed_samples": 865024, "global_step/max_steps": "3379/12700"}
{"lm loss": 2.14290547, "grad_norm": 0.40134937, "learning_rate": 8.813e-05, "elapsed_time_per_iteration": 4.88209939, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 29s", "remaining_time": "12h 39m 37s", "loss_scale": 1.0, "consumed_samples": 865280, "global_step/max_steps": "3380/12700"}
{"lm loss": 2.15996242, "grad_norm": 0.35093203, "learning_rate": 8.812e-05, "elapsed_time_per_iteration": 4.8702836, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 33s", "remaining_time": "12h 39m 32s", "loss_scale": 1.0, "consumed_samples": 865536, "global_step/max_steps": "3381/12700"}
{"lm loss": 2.16879225, "grad_norm": 0.39823684, "learning_rate": 8.811e-05, "elapsed_time_per_iteration": 4.87807798, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 38s", "remaining_time": "12h 39m 27s", "loss_scale": 1.0, "consumed_samples": 865792, "global_step/max_steps": "3382/12700"}
{"lm loss": 2.1129353, "grad_norm": 0.41606835, "learning_rate": 8.81e-05, "elapsed_time_per_iteration": 4.89846706, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 43s", "remaining_time": "12h 39m 22s", "loss_scale": 1.0, "consumed_samples": 866048, "global_step/max_steps": "3383/12700"}
{"lm loss": 2.13588047, "grad_norm": 0.41254237, "learning_rate": 8.81e-05, "elapsed_time_per_iteration": 4.90901375, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 48s", "remaining_time": "12h 39m 17s", "loss_scale": 1.0, "consumed_samples": 866304, "global_step/max_steps": "3384/12700"}
{"lm loss": 2.14781165, "grad_norm": 0.42618069, "learning_rate": 8.809e-05, "elapsed_time_per_iteration": 4.83386135, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 53s", "remaining_time": "12h 39m 12s", "loss_scale": 1.0, "consumed_samples": 866560, "global_step/max_steps": "3385/12700"}
{"lm loss": 2.15840673, "grad_norm": 0.41653368, "learning_rate": 8.808e-05, "elapsed_time_per_iteration": 4.85346222, "memory(GiB)": 28.98, "elapsed_time": "4h 35m 58s", "remaining_time": "12h 39m 7s", "loss_scale": 1.0, "consumed_samples": 866816, "global_step/max_steps": "3386/12700"}
{"lm loss": 2.18350005, "grad_norm": 0.42388859, "learning_rate": 8.807e-05, "elapsed_time_per_iteration": 4.84141421, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 3s", "remaining_time": "12h 39m 2s", "loss_scale": 1.0, "consumed_samples": 867072, "global_step/max_steps": "3387/12700"}
{"lm loss": 2.16734529, "grad_norm": 0.44030491, "learning_rate": 8.806e-05, "elapsed_time_per_iteration": 4.80324364, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 7s", "remaining_time": "12h 38m 57s", "loss_scale": 1.0, "consumed_samples": 867328, "global_step/max_steps": "3388/12700"}
{"lm loss": 2.16747665, "grad_norm": 0.41132918, "learning_rate": 8.805e-05, "elapsed_time_per_iteration": 4.81384206, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 12s", "remaining_time": "12h 38m 52s", "loss_scale": 1.0, "consumed_samples": 867584, "global_step/max_steps": "3389/12700"}
{"lm loss": 2.19180465, "grad_norm": 0.43075022, "learning_rate": 8.805e-05, "elapsed_time_per_iteration": 4.84053516, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 17s", "remaining_time": "12h 38m 47s", "loss_scale": 1.0, "consumed_samples": 867840, "global_step/max_steps": "3390/12700"}
{"lm loss": 2.16508818, "grad_norm": 0.43171993, "learning_rate": 8.804e-05, "elapsed_time_per_iteration": 4.90015435, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 22s", "remaining_time": "12h 38m 42s", "loss_scale": 1.0, "consumed_samples": 868096, "global_step/max_steps": "3391/12700"}
{"lm loss": 2.19233036, "grad_norm": 0.37816468, "learning_rate": 8.803e-05, "elapsed_time_per_iteration": 4.87573743, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 27s", "remaining_time": "12h 38m 37s", "loss_scale": 1.0, "consumed_samples": 868352, "global_step/max_steps": "3392/12700"}
{"lm loss": 2.15216231, "grad_norm": 0.42332098, "learning_rate": 8.802e-05, "elapsed_time_per_iteration": 4.89712143, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 32s", "remaining_time": "12h 38m 32s", "loss_scale": 1.0, "consumed_samples": 868608, "global_step/max_steps": "3393/12700"}
{"lm loss": 2.14770103, "grad_norm": 0.3976256, "learning_rate": 8.801e-05, "elapsed_time_per_iteration": 4.98803115, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 37s", "remaining_time": "12h 38m 27s", "loss_scale": 1.0, "consumed_samples": 868864, "global_step/max_steps": "3394/12700"}
{"lm loss": 2.141258, "grad_norm": 0.44807112, "learning_rate": 8.8e-05, "elapsed_time_per_iteration": 4.8187294, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 42s", "remaining_time": "12h 38m 22s", "loss_scale": 1.0, "consumed_samples": 869120, "global_step/max_steps": "3395/12700"}
{"lm loss": 2.12377453, "grad_norm": 0.37274152, "learning_rate": 8.8e-05, "elapsed_time_per_iteration": 4.85588717, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 46s", "remaining_time": "12h 38m 17s", "loss_scale": 1.0, "consumed_samples": 869376, "global_step/max_steps": "3396/12700"}
{"lm loss": 2.15790296, "grad_norm": 0.45307919, "learning_rate": 8.799e-05, "elapsed_time_per_iteration": 4.8765254, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 51s", "remaining_time": "12h 38m 12s", "loss_scale": 1.0, "consumed_samples": 869632, "global_step/max_steps": "3397/12700"}
{"lm loss": 2.14601254, "grad_norm": 0.41742203, "learning_rate": 8.798e-05, "elapsed_time_per_iteration": 4.87217736, "memory(GiB)": 28.98, "elapsed_time": "4h 36m 56s", "remaining_time": "12h 38m 7s", "loss_scale": 1.0, "consumed_samples": 869888, "global_step/max_steps": "3398/12700"}
{"lm loss": 2.14445877, "grad_norm": 0.40337873, "learning_rate": 8.797e-05, "elapsed_time_per_iteration": 4.96935868, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 1s", "remaining_time": "12h 38m 3s", "loss_scale": 1.0, "consumed_samples": 870144, "global_step/max_steps": "3399/12700"}
{"lm loss": 2.12340808, "grad_norm": 0.38419327, "learning_rate": 8.796e-05, "elapsed_time_per_iteration": 4.87541652, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 6s", "remaining_time": "12h 37m 58s", "loss_scale": 1.0, "consumed_samples": 870400, "global_step/max_steps": "3400/12700"}
{"lm loss": 2.15804148, "grad_norm": 0.39522639, "learning_rate": 8.796e-05, "elapsed_time_per_iteration": 4.8153522, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 11s", "remaining_time": "12h 37m 53s", "loss_scale": 1.0, "consumed_samples": 870656, "global_step/max_steps": "3401/12700"}
{"lm loss": 2.14787936, "grad_norm": 0.39543992, "learning_rate": 8.795e-05, "elapsed_time_per_iteration": 4.87046862, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 16s", "remaining_time": "12h 37m 48s", "loss_scale": 1.0, "consumed_samples": 870912, "global_step/max_steps": "3402/12700"}
{"lm loss": 2.15778017, "grad_norm": 0.36176202, "learning_rate": 8.794e-05, "elapsed_time_per_iteration": 4.84835863, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 21s", "remaining_time": "12h 37m 43s", "loss_scale": 1.0, "consumed_samples": 871168, "global_step/max_steps": "3403/12700"}
{"lm loss": 2.15492463, "grad_norm": 0.40600571, "learning_rate": 8.793e-05, "elapsed_time_per_iteration": 4.86314368, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 25s", "remaining_time": "12h 37m 38s", "loss_scale": 1.0, "consumed_samples": 871424, "global_step/max_steps": "3404/12700"}
{"lm loss": 2.15220094, "grad_norm": 0.45520216, "learning_rate": 8.792e-05, "elapsed_time_per_iteration": 4.84889531, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 30s", "remaining_time": "12h 37m 33s", "loss_scale": 1.0, "consumed_samples": 871680, "global_step/max_steps": "3405/12700"}
{"lm loss": 2.13101625, "grad_norm": 0.4024308, "learning_rate": 8.791e-05, "elapsed_time_per_iteration": 4.88830996, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 35s", "remaining_time": "12h 37m 28s", "loss_scale": 1.0, "consumed_samples": 871936, "global_step/max_steps": "3406/12700"}
{"lm loss": 2.12881207, "grad_norm": 0.41313693, "learning_rate": 8.791e-05, "elapsed_time_per_iteration": 4.8400588, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 40s", "remaining_time": "12h 37m 23s", "loss_scale": 1.0, "consumed_samples": 872192, "global_step/max_steps": "3407/12700"}
{"lm loss": 2.15140033, "grad_norm": 0.46805605, "learning_rate": 8.79e-05, "elapsed_time_per_iteration": 4.90334392, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 45s", "remaining_time": "12h 37m 18s", "loss_scale": 1.0, "consumed_samples": 872448, "global_step/max_steps": "3408/12700"}
{"lm loss": 2.13314652, "grad_norm": 0.40795797, "learning_rate": 8.789e-05, "elapsed_time_per_iteration": 4.90493369, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 50s", "remaining_time": "12h 37m 13s", "loss_scale": 1.0, "consumed_samples": 872704, "global_step/max_steps": "3409/12700"}
{"lm loss": 2.17271709, "grad_norm": 0.42215151, "learning_rate": 8.788e-05, "elapsed_time_per_iteration": 4.97096133, "memory(GiB)": 28.98, "elapsed_time": "4h 37m 55s", "remaining_time": "12h 37m 9s", "loss_scale": 1.0, "consumed_samples": 872960, "global_step/max_steps": "3410/12700"}
{"lm loss": 2.17234778, "grad_norm": 0.39085785, "learning_rate": 8.787e-05, "elapsed_time_per_iteration": 4.82014036, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 0s", "remaining_time": "12h 37m 3s", "loss_scale": 1.0, "consumed_samples": 873216, "global_step/max_steps": "3411/12700"}
{"lm loss": 2.1716733, "grad_norm": 0.39460593, "learning_rate": 8.786e-05, "elapsed_time_per_iteration": 4.82122946, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 4s", "remaining_time": "12h 36m 58s", "loss_scale": 1.0, "consumed_samples": 873472, "global_step/max_steps": "3412/12700"}
{"lm loss": 2.16821599, "grad_norm": 0.39872307, "learning_rate": 8.785e-05, "elapsed_time_per_iteration": 4.91772723, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 9s", "remaining_time": "12h 36m 54s", "loss_scale": 1.0, "consumed_samples": 873728, "global_step/max_steps": "3413/12700"}
{"lm loss": 2.14719796, "grad_norm": 0.37442109, "learning_rate": 8.785e-05, "elapsed_time_per_iteration": 4.82774734, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 14s", "remaining_time": "12h 36m 49s", "loss_scale": 1.0, "consumed_samples": 873984, "global_step/max_steps": "3414/12700"}
{"lm loss": 2.1492269, "grad_norm": 0.44691634, "learning_rate": 8.784e-05, "elapsed_time_per_iteration": 4.80331516, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 19s", "remaining_time": "12h 36m 43s", "loss_scale": 1.0, "consumed_samples": 874240, "global_step/max_steps": "3415/12700"}
{"lm loss": 2.19465661, "grad_norm": 0.45702997, "learning_rate": 8.783e-05, "elapsed_time_per_iteration": 5.0081563, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 24s", "remaining_time": "12h 36m 39s", "loss_scale": 1.0, "consumed_samples": 874496, "global_step/max_steps": "3416/12700"}
{"lm loss": 2.14458704, "grad_norm": 0.43785897, "learning_rate": 8.782e-05, "elapsed_time_per_iteration": 4.80317831, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 29s", "remaining_time": "12h 36m 34s", "loss_scale": 1.0, "consumed_samples": 874752, "global_step/max_steps": "3417/12700"}
{"lm loss": 2.14282513, "grad_norm": 0.41583058, "learning_rate": 8.781e-05, "elapsed_time_per_iteration": 4.87798572, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 34s", "remaining_time": "12h 36m 29s", "loss_scale": 1.0, "consumed_samples": 875008, "global_step/max_steps": "3418/12700"}
{"lm loss": 2.1276257, "grad_norm": 0.43301889, "learning_rate": 8.78e-05, "elapsed_time_per_iteration": 4.92179942, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 39s", "remaining_time": "12h 36m 24s", "loss_scale": 1.0, "consumed_samples": 875264, "global_step/max_steps": "3419/12700"}
{"lm loss": 2.18985963, "grad_norm": 0.39669523, "learning_rate": 8.78e-05, "elapsed_time_per_iteration": 4.83603454, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 43s", "remaining_time": "12h 36m 19s", "loss_scale": 1.0, "consumed_samples": 875520, "global_step/max_steps": "3420/12700"}
{"lm loss": 2.1551199, "grad_norm": 0.42909026, "learning_rate": 8.779e-05, "elapsed_time_per_iteration": 4.82181382, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 48s", "remaining_time": "12h 36m 14s", "loss_scale": 1.0, "consumed_samples": 875776, "global_step/max_steps": "3421/12700"}
{"lm loss": 2.16390252, "grad_norm": 0.4474681, "learning_rate": 8.778e-05, "elapsed_time_per_iteration": 4.9040978, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 53s", "remaining_time": "12h 36m 9s", "loss_scale": 1.0, "consumed_samples": 876032, "global_step/max_steps": "3422/12700"}
{"lm loss": 2.1347065, "grad_norm": 0.39149851, "learning_rate": 8.777e-05, "elapsed_time_per_iteration": 4.89861107, "memory(GiB)": 28.98, "elapsed_time": "4h 38m 58s", "remaining_time": "12h 36m 4s", "loss_scale": 1.0, "consumed_samples": 876288, "global_step/max_steps": "3423/12700"}
{"lm loss": 2.11124945, "grad_norm": 0.42075768, "learning_rate": 8.776e-05, "elapsed_time_per_iteration": 4.88697839, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 3s", "remaining_time": "12h 35m 59s", "loss_scale": 1.0, "consumed_samples": 876544, "global_step/max_steps": "3424/12700"}
{"lm loss": 2.15724301, "grad_norm": 0.39735207, "learning_rate": 8.775e-05, "elapsed_time_per_iteration": 4.84605861, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 8s", "remaining_time": "12h 35m 54s", "loss_scale": 1.0, "consumed_samples": 876800, "global_step/max_steps": "3425/12700"}
{"lm loss": 2.15746403, "grad_norm": 0.43744874, "learning_rate": 8.775e-05, "elapsed_time_per_iteration": 4.85895991, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 13s", "remaining_time": "12h 35m 49s", "loss_scale": 1.0, "consumed_samples": 877056, "global_step/max_steps": "3426/12700"}
{"lm loss": 2.13716412, "grad_norm": 0.39706132, "learning_rate": 8.774e-05, "elapsed_time_per_iteration": 4.92939711, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 18s", "remaining_time": "12h 35m 44s", "loss_scale": 1.0, "consumed_samples": 877312, "global_step/max_steps": "3427/12700"}
{"lm loss": 2.13128591, "grad_norm": 0.45908791, "learning_rate": 8.773e-05, "elapsed_time_per_iteration": 4.76075912, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 22s", "remaining_time": "12h 35m 39s", "loss_scale": 1.0, "consumed_samples": 877568, "global_step/max_steps": "3428/12700"}
{"lm loss": 2.15866852, "grad_norm": 0.40987983, "learning_rate": 8.772e-05, "elapsed_time_per_iteration": 4.89461255, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 27s", "remaining_time": "12h 35m 34s", "loss_scale": 1.0, "consumed_samples": 877824, "global_step/max_steps": "3429/12700"}
{"lm loss": 2.14062357, "grad_norm": 0.38417435, "learning_rate": 8.771e-05, "elapsed_time_per_iteration": 4.8355248, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 32s", "remaining_time": "12h 35m 29s", "loss_scale": 1.0, "consumed_samples": 878080, "global_step/max_steps": "3430/12700"}
{"lm loss": 2.14981103, "grad_norm": 0.4214626, "learning_rate": 8.77e-05, "elapsed_time_per_iteration": 4.82590151, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 37s", "remaining_time": "12h 35m 24s", "loss_scale": 1.0, "consumed_samples": 878336, "global_step/max_steps": "3431/12700"}
{"lm loss": 2.12375355, "grad_norm": 0.39049703, "learning_rate": 8.77e-05, "elapsed_time_per_iteration": 4.81880546, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 42s", "remaining_time": "12h 35m 19s", "loss_scale": 1.0, "consumed_samples": 878592, "global_step/max_steps": "3432/12700"}
{"lm loss": 2.10733962, "grad_norm": 0.4043586, "learning_rate": 8.769e-05, "elapsed_time_per_iteration": 4.94517827, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 47s", "remaining_time": "12h 35m 14s", "loss_scale": 1.0, "consumed_samples": 878848, "global_step/max_steps": "3433/12700"}
{"lm loss": 2.13344312, "grad_norm": 0.38712353, "learning_rate": 8.768e-05, "elapsed_time_per_iteration": 4.78981256, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 51s", "remaining_time": "12h 35m 9s", "loss_scale": 1.0, "consumed_samples": 879104, "global_step/max_steps": "3434/12700"}
{"lm loss": 2.16452265, "grad_norm": 0.38508508, "learning_rate": 8.767e-05, "elapsed_time_per_iteration": 4.84987545, "memory(GiB)": 28.98, "elapsed_time": "4h 39m 56s", "remaining_time": "12h 35m 4s", "loss_scale": 1.0, "consumed_samples": 879360, "global_step/max_steps": "3435/12700"}
{"lm loss": 2.17156577, "grad_norm": 0.39284605, "learning_rate": 8.766e-05, "elapsed_time_per_iteration": 4.90148592, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 1s", "remaining_time": "12h 34m 59s", "loss_scale": 1.0, "consumed_samples": 879616, "global_step/max_steps": "3436/12700"}
{"lm loss": 2.16757703, "grad_norm": 0.40887004, "learning_rate": 8.765e-05, "elapsed_time_per_iteration": 4.89096165, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 6s", "remaining_time": "12h 34m 55s", "loss_scale": 1.0, "consumed_samples": 879872, "global_step/max_steps": "3437/12700"}
{"lm loss": 2.12499738, "grad_norm": 0.40106776, "learning_rate": 8.765e-05, "elapsed_time_per_iteration": 5.00776958, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 11s", "remaining_time": "12h 34m 50s", "loss_scale": 1.0, "consumed_samples": 880128, "global_step/max_steps": "3438/12700"}
{"lm loss": 2.15935373, "grad_norm": 0.39241266, "learning_rate": 8.764e-05, "elapsed_time_per_iteration": 4.88656378, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 16s", "remaining_time": "12h 34m 45s", "loss_scale": 1.0, "consumed_samples": 880384, "global_step/max_steps": "3439/12700"}
{"lm loss": 2.15840006, "grad_norm": 0.37240785, "learning_rate": 8.763e-05, "elapsed_time_per_iteration": 4.94146466, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 21s", "remaining_time": "12h 34m 40s", "loss_scale": 1.0, "consumed_samples": 880640, "global_step/max_steps": "3440/12700"}
{"lm loss": 2.17886877, "grad_norm": 0.41343647, "learning_rate": 8.762e-05, "elapsed_time_per_iteration": 4.87279391, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 26s", "remaining_time": "12h 34m 35s", "loss_scale": 1.0, "consumed_samples": 880896, "global_step/max_steps": "3441/12700"}
{"lm loss": 2.11942935, "grad_norm": 0.39466771, "learning_rate": 8.761e-05, "elapsed_time_per_iteration": 5.03708673, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 31s", "remaining_time": "12h 34m 31s", "loss_scale": 1.0, "consumed_samples": 881152, "global_step/max_steps": "3442/12700"}
{"lm loss": 2.12976575, "grad_norm": 0.41349307, "learning_rate": 8.76e-05, "elapsed_time_per_iteration": 4.79654956, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 36s", "remaining_time": "12h 34m 26s", "loss_scale": 1.0, "consumed_samples": 881408, "global_step/max_steps": "3443/12700"}
{"lm loss": 2.13669753, "grad_norm": 0.41166085, "learning_rate": 8.759e-05, "elapsed_time_per_iteration": 4.90019631, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 40s", "remaining_time": "12h 34m 21s", "loss_scale": 1.0, "consumed_samples": 881664, "global_step/max_steps": "3444/12700"}
{"lm loss": 2.10380554, "grad_norm": 0.38933071, "learning_rate": 8.759e-05, "elapsed_time_per_iteration": 4.91907287, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 45s", "remaining_time": "12h 34m 16s", "loss_scale": 1.0, "consumed_samples": 881920, "global_step/max_steps": "3445/12700"}
{"lm loss": 2.15423775, "grad_norm": 0.41161624, "learning_rate": 8.758e-05, "elapsed_time_per_iteration": 4.96445131, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 50s", "remaining_time": "12h 34m 11s", "loss_scale": 1.0, "consumed_samples": 882176, "global_step/max_steps": "3446/12700"}
{"lm loss": 2.16824031, "grad_norm": 0.43021894, "learning_rate": 8.757e-05, "elapsed_time_per_iteration": 4.8509717, "memory(GiB)": 28.98, "elapsed_time": "4h 40m 55s", "remaining_time": "12h 34m 6s", "loss_scale": 1.0, "consumed_samples": 882432, "global_step/max_steps": "3447/12700"}
{"lm loss": 2.11524892, "grad_norm": 0.37909693, "learning_rate": 8.756e-05, "elapsed_time_per_iteration": 4.82471538, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 0s", "remaining_time": "12h 34m 1s", "loss_scale": 1.0, "consumed_samples": 882688, "global_step/max_steps": "3448/12700"}
{"lm loss": 2.1624825, "grad_norm": 0.41218942, "learning_rate": 8.755e-05, "elapsed_time_per_iteration": 4.84560704, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 5s", "remaining_time": "12h 33m 56s", "loss_scale": 1.0, "consumed_samples": 882944, "global_step/max_steps": "3449/12700"}
{"lm loss": 2.15611672, "grad_norm": 0.42391685, "learning_rate": 8.754e-05, "elapsed_time_per_iteration": 4.97745275, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 10s", "remaining_time": "12h 33m 52s", "loss_scale": 1.0, "consumed_samples": 883200, "global_step/max_steps": "3450/12700"}
{"lm loss": 2.2107451, "grad_norm": 0.3838765, "learning_rate": 8.754e-05, "elapsed_time_per_iteration": 4.81754827, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 15s", "remaining_time": "12h 33m 47s", "loss_scale": 1.0, "consumed_samples": 883456, "global_step/max_steps": "3451/12700"}
{"lm loss": 2.14226246, "grad_norm": 0.42087957, "learning_rate": 8.753e-05, "elapsed_time_per_iteration": 4.83850598, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 20s", "remaining_time": "12h 33m 42s", "loss_scale": 1.0, "consumed_samples": 883712, "global_step/max_steps": "3452/12700"}
{"lm loss": 2.17186475, "grad_norm": 0.39388514, "learning_rate": 8.752e-05, "elapsed_time_per_iteration": 4.88976598, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 24s", "remaining_time": "12h 33m 37s", "loss_scale": 1.0, "consumed_samples": 883968, "global_step/max_steps": "3453/12700"}
{"lm loss": 2.14433789, "grad_norm": 0.39365652, "learning_rate": 8.751e-05, "elapsed_time_per_iteration": 4.82560539, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 29s", "remaining_time": "12h 33m 32s", "loss_scale": 1.0, "consumed_samples": 884224, "global_step/max_steps": "3454/12700"}
{"lm loss": 2.19693255, "grad_norm": 0.45097002, "learning_rate": 8.75e-05, "elapsed_time_per_iteration": 4.89611435, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 34s", "remaining_time": "12h 33m 27s", "loss_scale": 1.0, "consumed_samples": 884480, "global_step/max_steps": "3455/12700"}
{"lm loss": 2.14784288, "grad_norm": 0.38810501, "learning_rate": 8.749e-05, "elapsed_time_per_iteration": 4.81362915, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 39s", "remaining_time": "12h 33m 22s", "loss_scale": 1.0, "consumed_samples": 884736, "global_step/max_steps": "3456/12700"}
{"lm loss": 2.12717986, "grad_norm": 0.40421996, "learning_rate": 8.748e-05, "elapsed_time_per_iteration": 4.86976838, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 44s", "remaining_time": "12h 33m 17s", "loss_scale": 1.0, "consumed_samples": 884992, "global_step/max_steps": "3457/12700"}
{"lm loss": 2.16704559, "grad_norm": 0.40563405, "learning_rate": 8.748e-05, "elapsed_time_per_iteration": 4.98672724, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 49s", "remaining_time": "12h 33m 12s", "loss_scale": 1.0, "consumed_samples": 885248, "global_step/max_steps": "3458/12700"}
{"lm loss": 2.14973998, "grad_norm": 0.41879386, "learning_rate": 8.747e-05, "elapsed_time_per_iteration": 4.76038933, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 54s", "remaining_time": "12h 33m 7s", "loss_scale": 1.0, "consumed_samples": 885504, "global_step/max_steps": "3459/12700"}
{"lm loss": 2.14168048, "grad_norm": 0.41279614, "learning_rate": 8.746e-05, "elapsed_time_per_iteration": 4.88302493, "memory(GiB)": 28.98, "elapsed_time": "4h 41m 58s", "remaining_time": "12h 33m 2s", "loss_scale": 1.0, "consumed_samples": 885760, "global_step/max_steps": "3460/12700"}
{"lm loss": 2.18726468, "grad_norm": 0.41764545, "learning_rate": 8.745e-05, "elapsed_time_per_iteration": 4.79114604, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 3s", "remaining_time": "12h 32m 57s", "loss_scale": 1.0, "consumed_samples": 886016, "global_step/max_steps": "3461/12700"}
{"lm loss": 2.1566596, "grad_norm": 0.40269363, "learning_rate": 8.744e-05, "elapsed_time_per_iteration": 4.86775923, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 8s", "remaining_time": "12h 32m 52s", "loss_scale": 1.0, "consumed_samples": 886272, "global_step/max_steps": "3462/12700"}
{"lm loss": 2.15015578, "grad_norm": 0.41802102, "learning_rate": 8.743e-05, "elapsed_time_per_iteration": 4.80693984, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 13s", "remaining_time": "12h 32m 47s", "loss_scale": 1.0, "consumed_samples": 886528, "global_step/max_steps": "3463/12700"}
{"lm loss": 2.17522573, "grad_norm": 0.39211386, "learning_rate": 8.743e-05, "elapsed_time_per_iteration": 4.88521552, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 18s", "remaining_time": "12h 32m 42s", "loss_scale": 1.0, "consumed_samples": 886784, "global_step/max_steps": "3464/12700"}
{"lm loss": 2.18015385, "grad_norm": 0.41493005, "learning_rate": 8.742e-05, "elapsed_time_per_iteration": 4.81991935, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 23s", "remaining_time": "12h 32m 37s", "loss_scale": 1.0, "consumed_samples": 887040, "global_step/max_steps": "3465/12700"}
{"lm loss": 2.15157819, "grad_norm": 0.39309919, "learning_rate": 8.741e-05, "elapsed_time_per_iteration": 4.79316378, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 27s", "remaining_time": "12h 32m 32s", "loss_scale": 1.0, "consumed_samples": 887296, "global_step/max_steps": "3466/12700"}
{"lm loss": 2.15060306, "grad_norm": 0.3993839, "learning_rate": 8.74e-05, "elapsed_time_per_iteration": 4.84223318, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 32s", "remaining_time": "12h 32m 27s", "loss_scale": 1.0, "consumed_samples": 887552, "global_step/max_steps": "3467/12700"}
{"lm loss": 2.14399838, "grad_norm": 0.43602836, "learning_rate": 8.739e-05, "elapsed_time_per_iteration": 4.85555124, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 37s", "remaining_time": "12h 32m 22s", "loss_scale": 1.0, "consumed_samples": 887808, "global_step/max_steps": "3468/12700"}
{"lm loss": 2.1639607, "grad_norm": 0.43628851, "learning_rate": 8.738e-05, "elapsed_time_per_iteration": 5.02516723, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 42s", "remaining_time": "12h 32m 17s", "loss_scale": 1.0, "consumed_samples": 888064, "global_step/max_steps": "3469/12700"}
{"lm loss": 2.14344358, "grad_norm": 0.42951828, "learning_rate": 8.737e-05, "elapsed_time_per_iteration": 4.83342624, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 47s", "remaining_time": "12h 32m 12s", "loss_scale": 1.0, "consumed_samples": 888320, "global_step/max_steps": "3470/12700"}
{"lm loss": 2.13556767, "grad_norm": 0.38544875, "learning_rate": 8.737e-05, "elapsed_time_per_iteration": 4.88425422, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 52s", "remaining_time": "12h 32m 7s", "loss_scale": 1.0, "consumed_samples": 888576, "global_step/max_steps": "3471/12700"}
{"lm loss": 2.15498376, "grad_norm": 0.42887762, "learning_rate": 8.736e-05, "elapsed_time_per_iteration": 4.96493602, "memory(GiB)": 28.98, "elapsed_time": "4h 42m 57s", "remaining_time": "12h 32m 2s", "loss_scale": 1.0, "consumed_samples": 888832, "global_step/max_steps": "3472/12700"}
{"lm loss": 2.12739277, "grad_norm": 0.43657491, "learning_rate": 8.735e-05, "elapsed_time_per_iteration": 4.84818006, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 2s", "remaining_time": "12h 31m 57s", "loss_scale": 1.0, "consumed_samples": 889088, "global_step/max_steps": "3473/12700"}
{"lm loss": 2.19665861, "grad_norm": 0.39684665, "learning_rate": 8.734e-05, "elapsed_time_per_iteration": 4.87491369, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 7s", "remaining_time": "12h 31m 52s", "loss_scale": 1.0, "consumed_samples": 889344, "global_step/max_steps": "3474/12700"}
{"lm loss": 2.13816428, "grad_norm": 0.41778055, "learning_rate": 8.733e-05, "elapsed_time_per_iteration": 4.93754435, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 11s", "remaining_time": "12h 31m 48s", "loss_scale": 1.0, "consumed_samples": 889600, "global_step/max_steps": "3475/12700"}
{"lm loss": 2.13945055, "grad_norm": 0.42957598, "learning_rate": 8.732e-05, "elapsed_time_per_iteration": 4.87495399, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 16s", "remaining_time": "12h 31m 43s", "loss_scale": 1.0, "consumed_samples": 889856, "global_step/max_steps": "3476/12700"}
{"lm loss": 2.14308167, "grad_norm": 0.49507439, "learning_rate": 8.731e-05, "elapsed_time_per_iteration": 4.83466244, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 21s", "remaining_time": "12h 31m 38s", "loss_scale": 1.0, "consumed_samples": 890112, "global_step/max_steps": "3477/12700"}
{"lm loss": 2.15446591, "grad_norm": 0.40565732, "learning_rate": 8.731e-05, "elapsed_time_per_iteration": 4.86653042, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 26s", "remaining_time": "12h 31m 33s", "loss_scale": 1.0, "consumed_samples": 890368, "global_step/max_steps": "3478/12700"}
{"lm loss": 2.13518929, "grad_norm": 0.43951547, "learning_rate": 8.73e-05, "elapsed_time_per_iteration": 4.83698654, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 31s", "remaining_time": "12h 31m 28s", "loss_scale": 1.0, "consumed_samples": 890624, "global_step/max_steps": "3479/12700"}
{"lm loss": 2.13707304, "grad_norm": 0.40911767, "learning_rate": 8.729e-05, "elapsed_time_per_iteration": 4.83882093, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 36s", "remaining_time": "12h 31m 23s", "loss_scale": 1.0, "consumed_samples": 890880, "global_step/max_steps": "3480/12700"}
{"lm loss": 2.14180613, "grad_norm": 0.4038845, "learning_rate": 8.728e-05, "elapsed_time_per_iteration": 4.91053128, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 41s", "remaining_time": "12h 31m 18s", "loss_scale": 1.0, "consumed_samples": 891136, "global_step/max_steps": "3481/12700"}
{"lm loss": 2.16031218, "grad_norm": 0.38360354, "learning_rate": 8.727e-05, "elapsed_time_per_iteration": 4.98805237, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 46s", "remaining_time": "12h 31m 13s", "loss_scale": 1.0, "consumed_samples": 891392, "global_step/max_steps": "3482/12700"}
{"lm loss": 2.18417406, "grad_norm": 0.40884519, "learning_rate": 8.726e-05, "elapsed_time_per_iteration": 4.8697319, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 51s", "remaining_time": "12h 31m 8s", "loss_scale": 1.0, "consumed_samples": 891648, "global_step/max_steps": "3483/12700"}
{"lm loss": 2.16511154, "grad_norm": 0.40242085, "learning_rate": 8.726e-05, "elapsed_time_per_iteration": 4.95122147, "memory(GiB)": 28.98, "elapsed_time": "4h 43m 55s", "remaining_time": "12h 31m 4s", "loss_scale": 1.0, "consumed_samples": 891904, "global_step/max_steps": "3484/12700"}
{"lm loss": 2.12560034, "grad_norm": 0.38579306, "learning_rate": 8.725e-05, "elapsed_time_per_iteration": 5.07859254, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 1s", "remaining_time": "12h 30m 59s", "loss_scale": 1.0, "consumed_samples": 892160, "global_step/max_steps": "3485/12700"}
{"lm loss": 2.1318593, "grad_norm": 0.3902078, "learning_rate": 8.724e-05, "elapsed_time_per_iteration": 4.93159771, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 5s", "remaining_time": "12h 30m 54s", "loss_scale": 1.0, "consumed_samples": 892416, "global_step/max_steps": "3486/12700"}
{"lm loss": 2.15321994, "grad_norm": 0.39997053, "learning_rate": 8.723e-05, "elapsed_time_per_iteration": 4.96990108, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 10s", "remaining_time": "12h 30m 50s", "loss_scale": 1.0, "consumed_samples": 892672, "global_step/max_steps": "3487/12700"}
{"lm loss": 2.12329483, "grad_norm": 0.4168219, "learning_rate": 8.722e-05, "elapsed_time_per_iteration": 4.8014195, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 15s", "remaining_time": "12h 30m 45s", "loss_scale": 1.0, "consumed_samples": 892928, "global_step/max_steps": "3488/12700"}
{"lm loss": 2.14236999, "grad_norm": 0.41214052, "learning_rate": 8.721e-05, "elapsed_time_per_iteration": 4.90692711, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 20s", "remaining_time": "12h 30m 40s", "loss_scale": 1.0, "consumed_samples": 893184, "global_step/max_steps": "3489/12700"}
{"lm loss": 2.14390802, "grad_norm": 0.39465451, "learning_rate": 8.72e-05, "elapsed_time_per_iteration": 4.92446017, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 25s", "remaining_time": "12h 30m 35s", "loss_scale": 1.0, "consumed_samples": 893440, "global_step/max_steps": "3490/12700"}
{"lm loss": 2.11007333, "grad_norm": 0.41153094, "learning_rate": 8.72e-05, "elapsed_time_per_iteration": 5.02699971, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 30s", "remaining_time": "12h 30m 30s", "loss_scale": 1.0, "consumed_samples": 893696, "global_step/max_steps": "3491/12700"}
{"lm loss": 2.14199638, "grad_norm": 0.41564134, "learning_rate": 8.719e-05, "elapsed_time_per_iteration": 4.92368388, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 35s", "remaining_time": "12h 30m 26s", "loss_scale": 1.0, "consumed_samples": 893952, "global_step/max_steps": "3492/12700"}
{"lm loss": 2.13875031, "grad_norm": 0.38649705, "learning_rate": 8.718e-05, "elapsed_time_per_iteration": 4.82775664, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 40s", "remaining_time": "12h 30m 21s", "loss_scale": 1.0, "consumed_samples": 894208, "global_step/max_steps": "3493/12700"}
{"lm loss": 2.11299086, "grad_norm": 0.39301962, "learning_rate": 8.717e-05, "elapsed_time_per_iteration": 4.80068755, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 45s", "remaining_time": "12h 30m 15s", "loss_scale": 1.0, "consumed_samples": 894464, "global_step/max_steps": "3494/12700"}
{"lm loss": 2.14729857, "grad_norm": 0.39691007, "learning_rate": 8.716e-05, "elapsed_time_per_iteration": 4.83271337, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 49s", "remaining_time": "12h 30m 10s", "loss_scale": 1.0, "consumed_samples": 894720, "global_step/max_steps": "3495/12700"}
{"lm loss": 2.15342116, "grad_norm": 0.40937638, "learning_rate": 8.715e-05, "elapsed_time_per_iteration": 4.85305786, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 54s", "remaining_time": "12h 30m 5s", "loss_scale": 1.0, "consumed_samples": 894976, "global_step/max_steps": "3496/12700"}
{"lm loss": 2.15787196, "grad_norm": 0.38701895, "learning_rate": 8.714e-05, "elapsed_time_per_iteration": 4.83986831, "memory(GiB)": 28.98, "elapsed_time": "4h 44m 59s", "remaining_time": "12h 30m 0s", "loss_scale": 1.0, "consumed_samples": 895232, "global_step/max_steps": "3497/12700"}
{"lm loss": 2.13311028, "grad_norm": 0.39381191, "learning_rate": 8.714e-05, "elapsed_time_per_iteration": 4.9012723, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 4s", "remaining_time": "12h 29m 56s", "loss_scale": 1.0, "consumed_samples": 895488, "global_step/max_steps": "3498/12700"}
{"lm loss": 2.13711405, "grad_norm": 0.39988899, "learning_rate": 8.713e-05, "elapsed_time_per_iteration": 4.83639002, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 9s", "remaining_time": "12h 29m 51s", "loss_scale": 1.0, "consumed_samples": 895744, "global_step/max_steps": "3499/12700"}
{"lm loss": 2.12100768, "grad_norm": 0.4049378, "learning_rate": 8.712e-05, "elapsed_time_per_iteration": 4.86366415, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 14s", "remaining_time": "12h 29m 46s", "loss_scale": 1.0, "consumed_samples": 896000, "global_step/max_steps": "3500/12700"}
{"lm loss": 2.16783309, "grad_norm": 0.38972151, "learning_rate": 8.711e-05, "elapsed_time_per_iteration": 4.89914727, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 19s", "remaining_time": "12h 29m 41s", "loss_scale": 1.0, "consumed_samples": 896256, "global_step/max_steps": "3501/12700"}
{"lm loss": 2.164819, "grad_norm": 0.45534006, "learning_rate": 8.71e-05, "elapsed_time_per_iteration": 4.96844363, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 24s", "remaining_time": "12h 29m 36s", "loss_scale": 1.0, "consumed_samples": 896512, "global_step/max_steps": "3502/12700"}
{"lm loss": 2.13968706, "grad_norm": 0.38957572, "learning_rate": 8.709e-05, "elapsed_time_per_iteration": 4.84096026, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 28s", "remaining_time": "12h 29m 31s", "loss_scale": 1.0, "consumed_samples": 896768, "global_step/max_steps": "3503/12700"}
{"lm loss": 2.1379993, "grad_norm": 0.44190678, "learning_rate": 8.708e-05, "elapsed_time_per_iteration": 4.83551908, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 33s", "remaining_time": "12h 29m 26s", "loss_scale": 1.0, "consumed_samples": 897024, "global_step/max_steps": "3504/12700"}
{"lm loss": 2.16818047, "grad_norm": 0.44731346, "learning_rate": 8.708e-05, "elapsed_time_per_iteration": 4.89985156, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 38s", "remaining_time": "12h 29m 21s", "loss_scale": 1.0, "consumed_samples": 897280, "global_step/max_steps": "3505/12700"}
{"lm loss": 2.16533422, "grad_norm": 0.42755616, "learning_rate": 8.707e-05, "elapsed_time_per_iteration": 4.84940362, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 43s", "remaining_time": "12h 29m 16s", "loss_scale": 1.0, "consumed_samples": 897536, "global_step/max_steps": "3506/12700"}
{"lm loss": 2.14518595, "grad_norm": 0.41467804, "learning_rate": 8.706e-05, "elapsed_time_per_iteration": 5.08540559, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 48s", "remaining_time": "12h 29m 12s", "loss_scale": 1.0, "consumed_samples": 897792, "global_step/max_steps": "3507/12700"}
{"lm loss": 2.13469648, "grad_norm": 0.473928, "learning_rate": 8.705e-05, "elapsed_time_per_iteration": 4.88778949, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 53s", "remaining_time": "12h 29m 7s", "loss_scale": 1.0, "consumed_samples": 898048, "global_step/max_steps": "3508/12700"}
{"lm loss": 2.11253762, "grad_norm": 0.41870394, "learning_rate": 8.704e-05, "elapsed_time_per_iteration": 4.88265204, "memory(GiB)": 28.98, "elapsed_time": "4h 45m 58s", "remaining_time": "12h 29m 2s", "loss_scale": 1.0, "consumed_samples": 898304, "global_step/max_steps": "3509/12700"}
{"lm loss": 2.12697339, "grad_norm": 0.44586387, "learning_rate": 8.703e-05, "elapsed_time_per_iteration": 4.98875976, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 3s", "remaining_time": "12h 28m 57s", "loss_scale": 1.0, "consumed_samples": 898560, "global_step/max_steps": "3510/12700"}
{"lm loss": 2.1442492, "grad_norm": 0.43151808, "learning_rate": 8.702e-05, "elapsed_time_per_iteration": 4.85420918, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 8s", "remaining_time": "12h 28m 52s", "loss_scale": 1.0, "consumed_samples": 898816, "global_step/max_steps": "3511/12700"}
{"lm loss": 2.13680506, "grad_norm": 0.39128217, "learning_rate": 8.702e-05, "elapsed_time_per_iteration": 4.88493443, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 13s", "remaining_time": "12h 28m 47s", "loss_scale": 1.0, "consumed_samples": 899072, "global_step/max_steps": "3512/12700"}
{"lm loss": 2.17270541, "grad_norm": 0.40731788, "learning_rate": 8.701e-05, "elapsed_time_per_iteration": 4.83781838, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 17s", "remaining_time": "12h 28m 42s", "loss_scale": 1.0, "consumed_samples": 899328, "global_step/max_steps": "3513/12700"}
{"lm loss": 2.15545678, "grad_norm": 0.39131001, "learning_rate": 8.7e-05, "elapsed_time_per_iteration": 4.99321103, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 22s", "remaining_time": "12h 28m 38s", "loss_scale": 1.0, "consumed_samples": 899584, "global_step/max_steps": "3514/12700"}
{"lm loss": 2.12300968, "grad_norm": 0.40620324, "learning_rate": 8.699e-05, "elapsed_time_per_iteration": 4.8093996, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 27s", "remaining_time": "12h 28m 33s", "loss_scale": 1.0, "consumed_samples": 899840, "global_step/max_steps": "3515/12700"}
{"lm loss": 2.14940381, "grad_norm": 0.38137206, "learning_rate": 8.698e-05, "elapsed_time_per_iteration": 4.8459444, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 32s", "remaining_time": "12h 28m 28s", "loss_scale": 1.0, "consumed_samples": 900096, "global_step/max_steps": "3516/12700"}
{"lm loss": 2.16212821, "grad_norm": 0.41345483, "learning_rate": 8.697e-05, "elapsed_time_per_iteration": 4.8539331, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 37s", "remaining_time": "12h 28m 23s", "loss_scale": 1.0, "consumed_samples": 900352, "global_step/max_steps": "3517/12700"}
{"lm loss": 2.19138265, "grad_norm": 0.42161623, "learning_rate": 8.696e-05, "elapsed_time_per_iteration": 4.87032771, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 42s", "remaining_time": "12h 28m 18s", "loss_scale": 1.0, "consumed_samples": 900608, "global_step/max_steps": "3518/12700"}
{"lm loss": 2.16340351, "grad_norm": 0.39988285, "learning_rate": 8.696e-05, "elapsed_time_per_iteration": 4.97911286, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 47s", "remaining_time": "12h 28m 13s", "loss_scale": 1.0, "consumed_samples": 900864, "global_step/max_steps": "3519/12700"}
{"lm loss": 2.12837458, "grad_norm": 0.42151931, "learning_rate": 8.695e-05, "elapsed_time_per_iteration": 4.90210748, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 52s", "remaining_time": "12h 28m 8s", "loss_scale": 1.0, "consumed_samples": 901120, "global_step/max_steps": "3520/12700"}
{"lm loss": 2.1774919, "grad_norm": 0.40133885, "learning_rate": 8.694e-05, "elapsed_time_per_iteration": 4.84358358, "memory(GiB)": 28.98, "elapsed_time": "4h 46m 57s", "remaining_time": "12h 28m 3s", "loss_scale": 1.0, "consumed_samples": 901376, "global_step/max_steps": "3521/12700"}
{"lm loss": 2.17048645, "grad_norm": 0.41234106, "learning_rate": 8.693e-05, "elapsed_time_per_iteration": 4.89773059, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 1s", "remaining_time": "12h 27m 58s", "loss_scale": 1.0, "consumed_samples": 901632, "global_step/max_steps": "3522/12700"}
{"lm loss": 2.15244389, "grad_norm": 0.4285765, "learning_rate": 8.692e-05, "elapsed_time_per_iteration": 4.84600616, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 6s", "remaining_time": "12h 27m 53s", "loss_scale": 1.0, "consumed_samples": 901888, "global_step/max_steps": "3523/12700"}
{"lm loss": 2.14868808, "grad_norm": 0.42016315, "learning_rate": 8.691e-05, "elapsed_time_per_iteration": 4.89034081, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 11s", "remaining_time": "12h 27m 48s", "loss_scale": 1.0, "consumed_samples": 902144, "global_step/max_steps": "3524/12700"}
{"lm loss": 2.15312362, "grad_norm": 0.38240227, "learning_rate": 8.69e-05, "elapsed_time_per_iteration": 4.85309148, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 16s", "remaining_time": "12h 27m 43s", "loss_scale": 1.0, "consumed_samples": 902400, "global_step/max_steps": "3525/12700"}
{"lm loss": 2.17336869, "grad_norm": 0.42348239, "learning_rate": 8.689e-05, "elapsed_time_per_iteration": 4.91875529, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 21s", "remaining_time": "12h 27m 39s", "loss_scale": 1.0, "consumed_samples": 902656, "global_step/max_steps": "3526/12700"}
{"lm loss": 2.14926863, "grad_norm": 0.41358411, "learning_rate": 8.689e-05, "elapsed_time_per_iteration": 4.83631158, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 26s", "remaining_time": "12h 27m 34s", "loss_scale": 1.0, "consumed_samples": 902912, "global_step/max_steps": "3527/12700"}
{"lm loss": 2.14712143, "grad_norm": 0.38435382, "learning_rate": 8.688e-05, "elapsed_time_per_iteration": 4.91469979, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 31s", "remaining_time": "12h 27m 29s", "loss_scale": 1.0, "consumed_samples": 903168, "global_step/max_steps": "3528/12700"}
{"lm loss": 2.10974503, "grad_norm": 0.40379059, "learning_rate": 8.687e-05, "elapsed_time_per_iteration": 4.8308382, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 36s", "remaining_time": "12h 27m 24s", "loss_scale": 1.0, "consumed_samples": 903424, "global_step/max_steps": "3529/12700"}
{"lm loss": 2.15876985, "grad_norm": 0.40436405, "learning_rate": 8.686e-05, "elapsed_time_per_iteration": 4.94567347, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 41s", "remaining_time": "12h 27m 19s", "loss_scale": 1.0, "consumed_samples": 903680, "global_step/max_steps": "3530/12700"}
{"lm loss": 2.17666411, "grad_norm": 0.43179691, "learning_rate": 8.685e-05, "elapsed_time_per_iteration": 4.85137153, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 45s", "remaining_time": "12h 27m 14s", "loss_scale": 1.0, "consumed_samples": 903936, "global_step/max_steps": "3531/12700"}
{"lm loss": 2.15996909, "grad_norm": 0.40182364, "learning_rate": 8.684e-05, "elapsed_time_per_iteration": 4.90606523, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 50s", "remaining_time": "12h 27m 9s", "loss_scale": 1.0, "consumed_samples": 904192, "global_step/max_steps": "3532/12700"}
{"lm loss": 2.13392329, "grad_norm": 0.40046528, "learning_rate": 8.683e-05, "elapsed_time_per_iteration": 4.88441682, "memory(GiB)": 28.98, "elapsed_time": "4h 47m 55s", "remaining_time": "12h 27m 4s", "loss_scale": 1.0, "consumed_samples": 904448, "global_step/max_steps": "3533/12700"}
{"lm loss": 2.12962031, "grad_norm": 0.37796301, "learning_rate": 8.683e-05, "elapsed_time_per_iteration": 4.95856738, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 0s", "remaining_time": "12h 27m 0s", "loss_scale": 1.0, "consumed_samples": 904704, "global_step/max_steps": "3534/12700"}
{"lm loss": 2.1419158, "grad_norm": 0.39384419, "learning_rate": 8.682e-05, "elapsed_time_per_iteration": 4.87898469, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 5s", "remaining_time": "12h 26m 55s", "loss_scale": 1.0, "consumed_samples": 904960, "global_step/max_steps": "3535/12700"}
{"lm loss": 2.16704559, "grad_norm": 0.38627374, "learning_rate": 8.681e-05, "elapsed_time_per_iteration": 4.88887644, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 10s", "remaining_time": "12h 26m 50s", "loss_scale": 1.0, "consumed_samples": 905216, "global_step/max_steps": "3536/12700"}
{"lm loss": 2.14300346, "grad_norm": 0.38673553, "learning_rate": 8.68e-05, "elapsed_time_per_iteration": 4.8698945, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 15s", "remaining_time": "12h 26m 45s", "loss_scale": 1.0, "consumed_samples": 905472, "global_step/max_steps": "3537/12700"}
{"lm loss": 2.13664365, "grad_norm": 0.39683747, "learning_rate": 8.679e-05, "elapsed_time_per_iteration": 4.9515934, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 20s", "remaining_time": "12h 26m 40s", "loss_scale": 1.0, "consumed_samples": 905728, "global_step/max_steps": "3538/12700"}
{"lm loss": 2.1898427, "grad_norm": 0.4019078, "learning_rate": 8.678e-05, "elapsed_time_per_iteration": 4.90614939, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 25s", "remaining_time": "12h 26m 35s", "loss_scale": 1.0, "consumed_samples": 905984, "global_step/max_steps": "3539/12700"}
{"lm loss": 2.12085438, "grad_norm": 0.38376114, "learning_rate": 8.677e-05, "elapsed_time_per_iteration": 4.90386534, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 30s", "remaining_time": "12h 26m 30s", "loss_scale": 1.0, "consumed_samples": 906240, "global_step/max_steps": "3540/12700"}
{"lm loss": 2.14264584, "grad_norm": 0.42875791, "learning_rate": 8.676e-05, "elapsed_time_per_iteration": 4.86994576, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 34s", "remaining_time": "12h 26m 25s", "loss_scale": 1.0, "consumed_samples": 906496, "global_step/max_steps": "3541/12700"}
{"lm loss": 2.15614963, "grad_norm": 0.38868824, "learning_rate": 8.676e-05, "elapsed_time_per_iteration": 4.87364459, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 39s", "remaining_time": "12h 26m 21s", "loss_scale": 1.0, "consumed_samples": 906752, "global_step/max_steps": "3542/12700"}
{"lm loss": 2.14793468, "grad_norm": 0.39811322, "learning_rate": 8.675e-05, "elapsed_time_per_iteration": 4.82181239, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 44s", "remaining_time": "12h 26m 15s", "loss_scale": 1.0, "consumed_samples": 907008, "global_step/max_steps": "3543/12700"}
{"lm loss": 2.14189148, "grad_norm": 0.43231529, "learning_rate": 8.674e-05, "elapsed_time_per_iteration": 4.8319118, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 49s", "remaining_time": "12h 26m 10s", "loss_scale": 1.0, "consumed_samples": 907264, "global_step/max_steps": "3544/12700"}
{"lm loss": 2.15393472, "grad_norm": 0.38740727, "learning_rate": 8.673e-05, "elapsed_time_per_iteration": 4.89951658, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 54s", "remaining_time": "12h 26m 6s", "loss_scale": 1.0, "consumed_samples": 907520, "global_step/max_steps": "3545/12700"}
{"lm loss": 2.13620543, "grad_norm": 0.39320391, "learning_rate": 8.672e-05, "elapsed_time_per_iteration": 4.89335918, "memory(GiB)": 28.98, "elapsed_time": "4h 48m 59s", "remaining_time": "12h 26m 1s", "loss_scale": 1.0, "consumed_samples": 907776, "global_step/max_steps": "3546/12700"}
{"lm loss": 2.12392759, "grad_norm": 0.38956788, "learning_rate": 8.671e-05, "elapsed_time_per_iteration": 4.83739328, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 4s", "remaining_time": "12h 25m 56s", "loss_scale": 1.0, "consumed_samples": 908032, "global_step/max_steps": "3547/12700"}
{"lm loss": 2.14637828, "grad_norm": 0.40743077, "learning_rate": 8.67e-05, "elapsed_time_per_iteration": 4.90204668, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 8s", "remaining_time": "12h 25m 51s", "loss_scale": 1.0, "consumed_samples": 908288, "global_step/max_steps": "3548/12700"}
{"lm loss": 2.15103674, "grad_norm": 0.38702622, "learning_rate": 8.67e-05, "elapsed_time_per_iteration": 4.79947352, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 13s", "remaining_time": "12h 25m 46s", "loss_scale": 1.0, "consumed_samples": 908544, "global_step/max_steps": "3549/12700"}
{"lm loss": 2.12910175, "grad_norm": 0.42087504, "learning_rate": 8.669e-05, "elapsed_time_per_iteration": 4.87681007, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 18s", "remaining_time": "12h 25m 41s", "loss_scale": 1.0, "consumed_samples": 908800, "global_step/max_steps": "3550/12700"}
{"lm loss": 2.16468024, "grad_norm": 0.39867026, "learning_rate": 8.668e-05, "elapsed_time_per_iteration": 4.94705081, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 23s", "remaining_time": "12h 25m 36s", "loss_scale": 1.0, "consumed_samples": 909056, "global_step/max_steps": "3551/12700"}
{"lm loss": 2.15841293, "grad_norm": 0.41526791, "learning_rate": 8.667e-05, "elapsed_time_per_iteration": 4.78761411, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 28s", "remaining_time": "12h 25m 31s", "loss_scale": 1.0, "consumed_samples": 909312, "global_step/max_steps": "3552/12700"}
{"lm loss": 2.1719892, "grad_norm": 0.41299328, "learning_rate": 8.666e-05, "elapsed_time_per_iteration": 4.81148648, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 33s", "remaining_time": "12h 25m 26s", "loss_scale": 1.0, "consumed_samples": 909568, "global_step/max_steps": "3553/12700"}
{"lm loss": 2.12822175, "grad_norm": 0.4386363, "learning_rate": 8.665e-05, "elapsed_time_per_iteration": 4.86358237, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 38s", "remaining_time": "12h 25m 21s", "loss_scale": 1.0, "consumed_samples": 909824, "global_step/max_steps": "3554/12700"}
{"lm loss": 2.15915298, "grad_norm": 0.40685755, "learning_rate": 8.664e-05, "elapsed_time_per_iteration": 4.95575666, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 42s", "remaining_time": "12h 25m 16s", "loss_scale": 1.0, "consumed_samples": 910080, "global_step/max_steps": "3555/12700"}
{"lm loss": 2.14738059, "grad_norm": 0.39022988, "learning_rate": 8.663e-05, "elapsed_time_per_iteration": 4.87805939, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 47s", "remaining_time": "12h 25m 11s", "loss_scale": 1.0, "consumed_samples": 910336, "global_step/max_steps": "3556/12700"}
{"lm loss": 2.16044164, "grad_norm": 0.42245862, "learning_rate": 8.663e-05, "elapsed_time_per_iteration": 4.85819697, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 52s", "remaining_time": "12h 25m 6s", "loss_scale": 1.0, "consumed_samples": 910592, "global_step/max_steps": "3557/12700"}
{"lm loss": 2.15195298, "grad_norm": 0.44512081, "learning_rate": 8.662e-05, "elapsed_time_per_iteration": 4.86093116, "memory(GiB)": 28.98, "elapsed_time": "4h 49m 57s", "remaining_time": "12h 25m 1s", "loss_scale": 1.0, "consumed_samples": 910848, "global_step/max_steps": "3558/12700"}
{"lm loss": 2.12581849, "grad_norm": 0.43373197, "learning_rate": 8.661e-05, "elapsed_time_per_iteration": 4.92754793, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 2s", "remaining_time": "12h 24m 56s", "loss_scale": 1.0, "consumed_samples": 911104, "global_step/max_steps": "3559/12700"}
{"lm loss": 2.13839245, "grad_norm": 0.41588128, "learning_rate": 8.66e-05, "elapsed_time_per_iteration": 4.874192, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 7s", "remaining_time": "12h 24m 52s", "loss_scale": 1.0, "consumed_samples": 911360, "global_step/max_steps": "3560/12700"}
{"lm loss": 2.13894749, "grad_norm": 0.44690612, "learning_rate": 8.659e-05, "elapsed_time_per_iteration": 4.81782079, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 12s", "remaining_time": "12h 24m 46s", "loss_scale": 1.0, "consumed_samples": 911616, "global_step/max_steps": "3561/12700"}
{"lm loss": 2.14456081, "grad_norm": 0.36354521, "learning_rate": 8.658e-05, "elapsed_time_per_iteration": 4.84324193, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 17s", "remaining_time": "12h 24m 41s", "loss_scale": 1.0, "consumed_samples": 911872, "global_step/max_steps": "3562/12700"}
{"lm loss": 2.15206623, "grad_norm": 0.43981767, "learning_rate": 8.657e-05, "elapsed_time_per_iteration": 4.88964677, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 21s", "remaining_time": "12h 24m 37s", "loss_scale": 1.0, "consumed_samples": 912128, "global_step/max_steps": "3563/12700"}
{"lm loss": 2.16695261, "grad_norm": 0.47789392, "learning_rate": 8.656e-05, "elapsed_time_per_iteration": 4.84621263, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 26s", "remaining_time": "12h 24m 32s", "loss_scale": 1.0, "consumed_samples": 912384, "global_step/max_steps": "3564/12700"}
{"lm loss": 2.15394592, "grad_norm": 0.38204077, "learning_rate": 8.656e-05, "elapsed_time_per_iteration": 4.78885746, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 31s", "remaining_time": "12h 24m 26s", "loss_scale": 1.0, "consumed_samples": 912640, "global_step/max_steps": "3565/12700"}
{"lm loss": 2.13087821, "grad_norm": 0.39295584, "learning_rate": 8.655e-05, "elapsed_time_per_iteration": 4.8892045, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 36s", "remaining_time": "12h 24m 22s", "loss_scale": 1.0, "consumed_samples": 912896, "global_step/max_steps": "3566/12700"}
{"lm loss": 2.15295076, "grad_norm": 0.39435816, "learning_rate": 8.654e-05, "elapsed_time_per_iteration": 4.86141777, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 41s", "remaining_time": "12h 24m 17s", "loss_scale": 1.0, "consumed_samples": 913152, "global_step/max_steps": "3567/12700"}
{"lm loss": 2.14593291, "grad_norm": 0.36154953, "learning_rate": 8.653e-05, "elapsed_time_per_iteration": 4.90246964, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 46s", "remaining_time": "12h 24m 12s", "loss_scale": 1.0, "consumed_samples": 913408, "global_step/max_steps": "3568/12700"}
{"lm loss": 2.12857723, "grad_norm": 0.39214748, "learning_rate": 8.652e-05, "elapsed_time_per_iteration": 4.8306427, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 51s", "remaining_time": "12h 24m 7s", "loss_scale": 1.0, "consumed_samples": 913664, "global_step/max_steps": "3569/12700"}
{"lm loss": 2.1313436, "grad_norm": 0.37635624, "learning_rate": 8.651e-05, "elapsed_time_per_iteration": 4.88833904, "memory(GiB)": 28.98, "elapsed_time": "4h 50m 55s", "remaining_time": "12h 24m 2s", "loss_scale": 1.0, "consumed_samples": 913920, "global_step/max_steps": "3570/12700"}
{"lm loss": 2.14681315, "grad_norm": 0.35907605, "learning_rate": 8.65e-05, "elapsed_time_per_iteration": 4.79105806, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 0s", "remaining_time": "12h 23m 57s", "loss_scale": 1.0, "consumed_samples": 914176, "global_step/max_steps": "3571/12700"}
{"lm loss": 2.15985131, "grad_norm": 0.37769699, "learning_rate": 8.65e-05, "elapsed_time_per_iteration": 4.97099137, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 5s", "remaining_time": "12h 23m 52s", "loss_scale": 1.0, "consumed_samples": 914432, "global_step/max_steps": "3572/12700"}
{"lm loss": 2.16615534, "grad_norm": 0.39668605, "learning_rate": 8.649e-05, "elapsed_time_per_iteration": 4.82736993, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 10s", "remaining_time": "12h 23m 47s", "loss_scale": 1.0, "consumed_samples": 914688, "global_step/max_steps": "3573/12700"}
{"lm loss": 2.13398027, "grad_norm": 0.36543128, "learning_rate": 8.648e-05, "elapsed_time_per_iteration": 4.81219268, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 15s", "remaining_time": "12h 23m 42s", "loss_scale": 1.0, "consumed_samples": 914944, "global_step/max_steps": "3574/12700"}
{"lm loss": 2.12157297, "grad_norm": 0.37880439, "learning_rate": 8.647e-05, "elapsed_time_per_iteration": 4.83662772, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 20s", "remaining_time": "12h 23m 37s", "loss_scale": 1.0, "consumed_samples": 915200, "global_step/max_steps": "3575/12700"}
{"lm loss": 2.13193822, "grad_norm": 0.3958576, "learning_rate": 8.646e-05, "elapsed_time_per_iteration": 5.03125429, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 25s", "remaining_time": "12h 23m 32s", "loss_scale": 1.0, "consumed_samples": 915456, "global_step/max_steps": "3576/12700"}
{"lm loss": 2.14255595, "grad_norm": 0.41714171, "learning_rate": 8.645e-05, "elapsed_time_per_iteration": 4.77632022, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 29s", "remaining_time": "12h 23m 27s", "loss_scale": 1.0, "consumed_samples": 915712, "global_step/max_steps": "3577/12700"}
{"lm loss": 2.16402912, "grad_norm": 0.40154877, "learning_rate": 8.644e-05, "elapsed_time_per_iteration": 4.96842957, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 34s", "remaining_time": "12h 23m 22s", "loss_scale": 1.0, "consumed_samples": 915968, "global_step/max_steps": "3578/12700"}
{"lm loss": 2.1386168, "grad_norm": 0.41384131, "learning_rate": 8.643e-05, "elapsed_time_per_iteration": 4.83749032, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 39s", "remaining_time": "12h 23m 17s", "loss_scale": 1.0, "consumed_samples": 916224, "global_step/max_steps": "3579/12700"}
{"lm loss": 2.14080572, "grad_norm": 0.42332292, "learning_rate": 8.643e-05, "elapsed_time_per_iteration": 4.95935869, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 44s", "remaining_time": "12h 23m 13s", "loss_scale": 1.0, "consumed_samples": 916480, "global_step/max_steps": "3580/12700"}
{"lm loss": 2.14709854, "grad_norm": 0.36870027, "learning_rate": 8.642e-05, "elapsed_time_per_iteration": 4.89272308, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 49s", "remaining_time": "12h 23m 8s", "loss_scale": 1.0, "consumed_samples": 916736, "global_step/max_steps": "3581/12700"}
{"lm loss": 2.09839773, "grad_norm": 0.42593795, "learning_rate": 8.641e-05, "elapsed_time_per_iteration": 4.85854554, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 54s", "remaining_time": "12h 23m 3s", "loss_scale": 1.0, "consumed_samples": 916992, "global_step/max_steps": "3582/12700"}
{"lm loss": 2.11856437, "grad_norm": 0.4217346, "learning_rate": 8.64e-05, "elapsed_time_per_iteration": 4.85318065, "memory(GiB)": 28.98, "elapsed_time": "4h 51m 59s", "remaining_time": "12h 22m 58s", "loss_scale": 1.0, "consumed_samples": 917248, "global_step/max_steps": "3583/12700"}
{"lm loss": 2.13951588, "grad_norm": 0.4147279, "learning_rate": 8.639e-05, "elapsed_time_per_iteration": 4.8672297, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 4s", "remaining_time": "12h 22m 53s", "loss_scale": 1.0, "consumed_samples": 917504, "global_step/max_steps": "3584/12700"}
{"lm loss": 2.15506744, "grad_norm": 0.38975161, "learning_rate": 8.638e-05, "elapsed_time_per_iteration": 4.85004783, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 9s", "remaining_time": "12h 22m 48s", "loss_scale": 1.0, "consumed_samples": 917760, "global_step/max_steps": "3585/12700"}
{"lm loss": 2.13150501, "grad_norm": 0.420847, "learning_rate": 8.637e-05, "elapsed_time_per_iteration": 4.91328406, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 13s", "remaining_time": "12h 22m 43s", "loss_scale": 1.0, "consumed_samples": 918016, "global_step/max_steps": "3586/12700"}
{"lm loss": 2.13093758, "grad_norm": 0.41297251, "learning_rate": 8.636e-05, "elapsed_time_per_iteration": 4.84006119, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 18s", "remaining_time": "12h 22m 38s", "loss_scale": 1.0, "consumed_samples": 918272, "global_step/max_steps": "3587/12700"}
{"lm loss": 2.1510005, "grad_norm": 0.40229413, "learning_rate": 8.635e-05, "elapsed_time_per_iteration": 4.82833624, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 23s", "remaining_time": "12h 22m 33s", "loss_scale": 1.0, "consumed_samples": 918528, "global_step/max_steps": "3588/12700"}
{"lm loss": 2.19925237, "grad_norm": 0.38224891, "learning_rate": 8.635e-05, "elapsed_time_per_iteration": 4.93434072, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 28s", "remaining_time": "12h 22m 28s", "loss_scale": 1.0, "consumed_samples": 918784, "global_step/max_steps": "3589/12700"}
{"lm loss": 2.16277766, "grad_norm": 0.3906835, "learning_rate": 8.634e-05, "elapsed_time_per_iteration": 4.87280965, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 33s", "remaining_time": "12h 22m 23s", "loss_scale": 1.0, "consumed_samples": 919040, "global_step/max_steps": "3590/12700"}
{"lm loss": 2.13869715, "grad_norm": 0.40046087, "learning_rate": 8.633e-05, "elapsed_time_per_iteration": 4.81914973, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 38s", "remaining_time": "12h 22m 18s", "loss_scale": 1.0, "consumed_samples": 919296, "global_step/max_steps": "3591/12700"}
{"lm loss": 2.14504218, "grad_norm": 0.42551553, "learning_rate": 8.632e-05, "elapsed_time_per_iteration": 4.94150829, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 43s", "remaining_time": "12h 22m 13s", "loss_scale": 1.0, "consumed_samples": 919552, "global_step/max_steps": "3592/12700"}
{"lm loss": 2.10314369, "grad_norm": 0.38605958, "learning_rate": 8.631e-05, "elapsed_time_per_iteration": 4.93419957, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 48s", "remaining_time": "12h 22m 9s", "loss_scale": 1.0, "consumed_samples": 919808, "global_step/max_steps": "3593/12700"}
{"lm loss": 2.11434627, "grad_norm": 0.44806165, "learning_rate": 8.63e-05, "elapsed_time_per_iteration": 4.88173032, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 53s", "remaining_time": "12h 22m 4s", "loss_scale": 1.0, "consumed_samples": 920064, "global_step/max_steps": "3594/12700"}
{"lm loss": 2.13004327, "grad_norm": 0.41745549, "learning_rate": 8.629e-05, "elapsed_time_per_iteration": 4.86811829, "memory(GiB)": 28.98, "elapsed_time": "4h 52m 57s", "remaining_time": "12h 21m 59s", "loss_scale": 1.0, "consumed_samples": 920320, "global_step/max_steps": "3595/12700"}
{"lm loss": 2.10097122, "grad_norm": 0.38719893, "learning_rate": 8.628e-05, "elapsed_time_per_iteration": 4.89799237, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 2s", "remaining_time": "12h 21m 54s", "loss_scale": 1.0, "consumed_samples": 920576, "global_step/max_steps": "3596/12700"}
{"lm loss": 2.14579058, "grad_norm": 0.40021616, "learning_rate": 8.628e-05, "elapsed_time_per_iteration": 4.84594607, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 7s", "remaining_time": "12h 21m 49s", "loss_scale": 1.0, "consumed_samples": 920832, "global_step/max_steps": "3597/12700"}
{"lm loss": 2.16567564, "grad_norm": 0.40431881, "learning_rate": 8.627e-05, "elapsed_time_per_iteration": 4.88398862, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 12s", "remaining_time": "12h 21m 44s", "loss_scale": 1.0, "consumed_samples": 921088, "global_step/max_steps": "3598/12700"}
{"lm loss": 2.12557483, "grad_norm": 0.41677681, "learning_rate": 8.626e-05, "elapsed_time_per_iteration": 4.90331054, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 17s", "remaining_time": "12h 21m 39s", "loss_scale": 1.0, "consumed_samples": 921344, "global_step/max_steps": "3599/12700"}
{"lm loss": 2.14448595, "grad_norm": 0.37639686, "learning_rate": 8.625e-05, "elapsed_time_per_iteration": 4.78560758, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 22s", "remaining_time": "12h 21m 34s", "loss_scale": 1.0, "consumed_samples": 921600, "global_step/max_steps": "3600/12700"}
{"lm loss": 2.15603447, "grad_norm": 0.38782227, "learning_rate": 8.624e-05, "elapsed_time_per_iteration": 4.81850624, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 27s", "remaining_time": "12h 21m 29s", "loss_scale": 1.0, "consumed_samples": 921856, "global_step/max_steps": "3601/12700"}
{"lm loss": 2.12495589, "grad_norm": 0.43525767, "learning_rate": 8.623e-05, "elapsed_time_per_iteration": 4.81981277, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 31s", "remaining_time": "12h 21m 24s", "loss_scale": 1.0, "consumed_samples": 922112, "global_step/max_steps": "3602/12700"}
{"lm loss": 2.13685703, "grad_norm": 0.42060718, "learning_rate": 8.622e-05, "elapsed_time_per_iteration": 4.90419173, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 36s", "remaining_time": "12h 21m 19s", "loss_scale": 1.0, "consumed_samples": 922368, "global_step/max_steps": "3603/12700"}
{"lm loss": 2.16560555, "grad_norm": 0.38813892, "learning_rate": 8.621e-05, "elapsed_time_per_iteration": 4.93781328, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 41s", "remaining_time": "12h 21m 14s", "loss_scale": 1.0, "consumed_samples": 922624, "global_step/max_steps": "3604/12700"}
{"lm loss": 2.15983796, "grad_norm": 0.40679786, "learning_rate": 8.621e-05, "elapsed_time_per_iteration": 4.83416247, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 46s", "remaining_time": "12h 21m 9s", "loss_scale": 1.0, "consumed_samples": 922880, "global_step/max_steps": "3605/12700"}
{"lm loss": 2.13788629, "grad_norm": 0.41573945, "learning_rate": 8.62e-05, "elapsed_time_per_iteration": 4.78131843, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 51s", "remaining_time": "12h 21m 4s", "loss_scale": 1.0, "consumed_samples": 923136, "global_step/max_steps": "3606/12700"}
{"lm loss": 2.15103507, "grad_norm": 0.36010215, "learning_rate": 8.619e-05, "elapsed_time_per_iteration": 4.93103957, "memory(GiB)": 28.98, "elapsed_time": "4h 53m 56s", "remaining_time": "12h 20m 59s", "loss_scale": 1.0, "consumed_samples": 923392, "global_step/max_steps": "3607/12700"}
{"lm loss": 2.12816572, "grad_norm": 0.41204813, "learning_rate": 8.618e-05, "elapsed_time_per_iteration": 5.01679301, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 1s", "remaining_time": "12h 20m 55s", "loss_scale": 1.0, "consumed_samples": 923648, "global_step/max_steps": "3608/12700"}
{"lm loss": 2.16203785, "grad_norm": 0.39516696, "learning_rate": 8.617e-05, "elapsed_time_per_iteration": 4.88006425, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 6s", "remaining_time": "12h 20m 50s", "loss_scale": 1.0, "consumed_samples": 923904, "global_step/max_steps": "3609/12700"}
{"lm loss": 2.18376923, "grad_norm": 0.38015318, "learning_rate": 8.616e-05, "elapsed_time_per_iteration": 4.8305769, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 10s", "remaining_time": "12h 20m 45s", "loss_scale": 1.0, "consumed_samples": 924160, "global_step/max_steps": "3610/12700"}
{"lm loss": 2.13437438, "grad_norm": 0.36684924, "learning_rate": 8.615e-05, "elapsed_time_per_iteration": 4.91452408, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 15s", "remaining_time": "12h 20m 40s", "loss_scale": 1.0, "consumed_samples": 924416, "global_step/max_steps": "3611/12700"}
{"lm loss": 2.1324656, "grad_norm": 0.39447924, "learning_rate": 8.614e-05, "elapsed_time_per_iteration": 4.86333919, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 20s", "remaining_time": "12h 20m 35s", "loss_scale": 1.0, "consumed_samples": 924672, "global_step/max_steps": "3612/12700"}
{"lm loss": 2.15805459, "grad_norm": 0.37140632, "learning_rate": 8.613e-05, "elapsed_time_per_iteration": 4.93967772, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 25s", "remaining_time": "12h 20m 30s", "loss_scale": 1.0, "consumed_samples": 924928, "global_step/max_steps": "3613/12700"}
{"lm loss": 2.14600849, "grad_norm": 0.41388559, "learning_rate": 8.613e-05, "elapsed_time_per_iteration": 4.84665203, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 30s", "remaining_time": "12h 20m 25s", "loss_scale": 1.0, "consumed_samples": 925184, "global_step/max_steps": "3614/12700"}
{"lm loss": 2.16666222, "grad_norm": 0.38463613, "learning_rate": 8.612e-05, "elapsed_time_per_iteration": 4.77993798, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 35s", "remaining_time": "12h 20m 20s", "loss_scale": 1.0, "consumed_samples": 925440, "global_step/max_steps": "3615/12700"}
{"lm loss": 2.13958645, "grad_norm": 0.40704787, "learning_rate": 8.611e-05, "elapsed_time_per_iteration": 4.91451645, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 40s", "remaining_time": "12h 20m 15s", "loss_scale": 1.0, "consumed_samples": 925696, "global_step/max_steps": "3616/12700"}
{"lm loss": 2.13245797, "grad_norm": 0.38705754, "learning_rate": 8.61e-05, "elapsed_time_per_iteration": 4.88529372, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 45s", "remaining_time": "12h 20m 10s", "loss_scale": 1.0, "consumed_samples": 925952, "global_step/max_steps": "3617/12700"}
{"lm loss": 2.15847874, "grad_norm": 0.40859252, "learning_rate": 8.609e-05, "elapsed_time_per_iteration": 4.90029311, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 50s", "remaining_time": "12h 20m 5s", "loss_scale": 1.0, "consumed_samples": 926208, "global_step/max_steps": "3618/12700"}
{"lm loss": 2.09375691, "grad_norm": 0.38039094, "learning_rate": 8.608e-05, "elapsed_time_per_iteration": 4.89945579, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 54s", "remaining_time": "12h 20m 1s", "loss_scale": 1.0, "consumed_samples": 926464, "global_step/max_steps": "3619/12700"}
{"lm loss": 2.12709475, "grad_norm": 0.42930797, "learning_rate": 8.607e-05, "elapsed_time_per_iteration": 4.86805487, "memory(GiB)": 28.98, "elapsed_time": "4h 54m 59s", "remaining_time": "12h 19m 56s", "loss_scale": 1.0, "consumed_samples": 926720, "global_step/max_steps": "3620/12700"}
{"lm loss": 2.13215756, "grad_norm": 0.41472015, "learning_rate": 8.606e-05, "elapsed_time_per_iteration": 4.80225635, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 4s", "remaining_time": "12h 19m 51s", "loss_scale": 1.0, "consumed_samples": 926976, "global_step/max_steps": "3621/12700"}
{"lm loss": 2.11921811, "grad_norm": 0.42133647, "learning_rate": 8.605e-05, "elapsed_time_per_iteration": 4.83944678, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 9s", "remaining_time": "12h 19m 46s", "loss_scale": 1.0, "consumed_samples": 927232, "global_step/max_steps": "3622/12700"}
{"lm loss": 2.13169813, "grad_norm": 0.43087792, "learning_rate": 8.605e-05, "elapsed_time_per_iteration": 4.82451367, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 14s", "remaining_time": "12h 19m 41s", "loss_scale": 1.0, "consumed_samples": 927488, "global_step/max_steps": "3623/12700"}
{"lm loss": 2.14484215, "grad_norm": 0.40446165, "learning_rate": 8.604e-05, "elapsed_time_per_iteration": 4.77083445, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 19s", "remaining_time": "12h 19m 35s", "loss_scale": 1.0, "consumed_samples": 927744, "global_step/max_steps": "3624/12700"}
{"lm loss": 2.15480018, "grad_norm": 0.47109646, "learning_rate": 8.603e-05, "elapsed_time_per_iteration": 4.97313952, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 24s", "remaining_time": "12h 19m 31s", "loss_scale": 1.0, "consumed_samples": 928000, "global_step/max_steps": "3625/12700"}
{"lm loss": 2.14929461, "grad_norm": 0.36178425, "learning_rate": 8.602e-05, "elapsed_time_per_iteration": 4.84692979, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 28s", "remaining_time": "12h 19m 26s", "loss_scale": 1.0, "consumed_samples": 928256, "global_step/max_steps": "3626/12700"}
{"lm loss": 2.15110373, "grad_norm": 0.44422907, "learning_rate": 8.601e-05, "elapsed_time_per_iteration": 4.89524913, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 33s", "remaining_time": "12h 19m 21s", "loss_scale": 1.0, "consumed_samples": 928512, "global_step/max_steps": "3627/12700"}
{"lm loss": 2.12213659, "grad_norm": 0.41836235, "learning_rate": 8.6e-05, "elapsed_time_per_iteration": 4.78916812, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 38s", "remaining_time": "12h 19m 16s", "loss_scale": 1.0, "consumed_samples": 928768, "global_step/max_steps": "3628/12700"}
{"lm loss": 2.08952045, "grad_norm": 0.40052795, "learning_rate": 8.599e-05, "elapsed_time_per_iteration": 4.9224658, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 43s", "remaining_time": "12h 19m 11s", "loss_scale": 1.0, "consumed_samples": 929024, "global_step/max_steps": "3629/12700"}
{"lm loss": 2.08742809, "grad_norm": 0.37457946, "learning_rate": 8.598e-05, "elapsed_time_per_iteration": 4.97330737, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 48s", "remaining_time": "12h 19m 6s", "loss_scale": 1.0, "consumed_samples": 929280, "global_step/max_steps": "3630/12700"}
{"lm loss": 2.16075659, "grad_norm": 0.40975681, "learning_rate": 8.598e-05, "elapsed_time_per_iteration": 4.84793639, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 53s", "remaining_time": "12h 19m 1s", "loss_scale": 1.0, "consumed_samples": 929536, "global_step/max_steps": "3631/12700"}
{"lm loss": 2.15082002, "grad_norm": 0.35928994, "learning_rate": 8.597e-05, "elapsed_time_per_iteration": 4.8913343, "memory(GiB)": 28.98, "elapsed_time": "4h 55m 58s", "remaining_time": "12h 18m 56s", "loss_scale": 1.0, "consumed_samples": 929792, "global_step/max_steps": "3632/12700"}
{"lm loss": 2.14971662, "grad_norm": 0.39066792, "learning_rate": 8.596e-05, "elapsed_time_per_iteration": 4.88694501, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 3s", "remaining_time": "12h 18m 51s", "loss_scale": 1.0, "consumed_samples": 930048, "global_step/max_steps": "3633/12700"}
{"lm loss": 2.13120365, "grad_norm": 0.3671338, "learning_rate": 8.595e-05, "elapsed_time_per_iteration": 4.94870925, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 8s", "remaining_time": "12h 18m 47s", "loss_scale": 1.0, "consumed_samples": 930304, "global_step/max_steps": "3634/12700"}
{"lm loss": 2.11982226, "grad_norm": 0.3824715, "learning_rate": 8.594e-05, "elapsed_time_per_iteration": 4.9217639, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 12s", "remaining_time": "12h 18m 42s", "loss_scale": 1.0, "consumed_samples": 930560, "global_step/max_steps": "3635/12700"}
{"lm loss": 2.16019249, "grad_norm": 0.38239557, "learning_rate": 8.593e-05, "elapsed_time_per_iteration": 4.8538394, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 17s", "remaining_time": "12h 18m 37s", "loss_scale": 1.0, "consumed_samples": 930816, "global_step/max_steps": "3636/12700"}
{"lm loss": 2.13717175, "grad_norm": 0.36950257, "learning_rate": 8.592e-05, "elapsed_time_per_iteration": 5.01555037, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 22s", "remaining_time": "12h 18m 32s", "loss_scale": 1.0, "consumed_samples": 931072, "global_step/max_steps": "3637/12700"}
{"lm loss": 2.15565777, "grad_norm": 0.41088083, "learning_rate": 8.591e-05, "elapsed_time_per_iteration": 4.78995943, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 27s", "remaining_time": "12h 18m 27s", "loss_scale": 1.0, "consumed_samples": 931328, "global_step/max_steps": "3638/12700"}
{"lm loss": 2.1396575, "grad_norm": 0.36393502, "learning_rate": 8.59e-05, "elapsed_time_per_iteration": 4.74359703, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 32s", "remaining_time": "12h 18m 22s", "loss_scale": 1.0, "consumed_samples": 931584, "global_step/max_steps": "3639/12700"}
{"lm loss": 2.12649131, "grad_norm": 0.40232971, "learning_rate": 8.589e-05, "elapsed_time_per_iteration": 4.90718675, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 37s", "remaining_time": "12h 18m 17s", "loss_scale": 1.0, "consumed_samples": 931840, "global_step/max_steps": "3640/12700"}
{"lm loss": 2.10944653, "grad_norm": 0.3798317, "learning_rate": 8.589e-05, "elapsed_time_per_iteration": 4.86248851, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 42s", "remaining_time": "12h 18m 12s", "loss_scale": 1.0, "consumed_samples": 932096, "global_step/max_steps": "3641/12700"}
{"lm loss": 2.09873843, "grad_norm": 0.452667, "learning_rate": 8.588e-05, "elapsed_time_per_iteration": 4.95566893, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 47s", "remaining_time": "12h 18m 7s", "loss_scale": 1.0, "consumed_samples": 932352, "global_step/max_steps": "3642/12700"}
{"lm loss": 2.17342758, "grad_norm": 0.47906175, "learning_rate": 8.587e-05, "elapsed_time_per_iteration": 4.81661344, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 51s", "remaining_time": "12h 18m 2s", "loss_scale": 1.0, "consumed_samples": 932608, "global_step/max_steps": "3643/12700"}
{"lm loss": 2.15374255, "grad_norm": 0.41107789, "learning_rate": 8.586e-05, "elapsed_time_per_iteration": 4.85346031, "memory(GiB)": 28.98, "elapsed_time": "4h 56m 56s", "remaining_time": "12h 17m 57s", "loss_scale": 1.0, "consumed_samples": 932864, "global_step/max_steps": "3644/12700"}
{"lm loss": 2.16038585, "grad_norm": 0.39495775, "learning_rate": 8.585e-05, "elapsed_time_per_iteration": 4.78347254, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 1s", "remaining_time": "12h 17m 52s", "loss_scale": 1.0, "consumed_samples": 933120, "global_step/max_steps": "3645/12700"}
{"lm loss": 2.13953662, "grad_norm": 0.41107354, "learning_rate": 8.584e-05, "elapsed_time_per_iteration": 4.93976045, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 6s", "remaining_time": "12h 17m 47s", "loss_scale": 1.0, "consumed_samples": 933376, "global_step/max_steps": "3646/12700"}
{"lm loss": 2.12550116, "grad_norm": 0.37709481, "learning_rate": 8.583e-05, "elapsed_time_per_iteration": 4.88922477, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 11s", "remaining_time": "12h 17m 43s", "loss_scale": 1.0, "consumed_samples": 933632, "global_step/max_steps": "3647/12700"}
{"lm loss": 2.16636491, "grad_norm": 0.45210853, "learning_rate": 8.582e-05, "elapsed_time_per_iteration": 4.86778212, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 16s", "remaining_time": "12h 17m 38s", "loss_scale": 1.0, "consumed_samples": 933888, "global_step/max_steps": "3648/12700"}
{"lm loss": 2.12979507, "grad_norm": 0.36303023, "learning_rate": 8.581e-05, "elapsed_time_per_iteration": 4.84365034, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 21s", "remaining_time": "12h 17m 33s", "loss_scale": 1.0, "consumed_samples": 934144, "global_step/max_steps": "3649/12700"}
{"lm loss": 2.17435455, "grad_norm": 0.46181881, "learning_rate": 8.581e-05, "elapsed_time_per_iteration": 4.93271565, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 25s", "remaining_time": "12h 17m 28s", "loss_scale": 1.0, "consumed_samples": 934400, "global_step/max_steps": "3650/12700"}
{"lm loss": 2.12487364, "grad_norm": 0.423536, "learning_rate": 8.58e-05, "elapsed_time_per_iteration": 4.84207988, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 30s", "remaining_time": "12h 17m 23s", "loss_scale": 1.0, "consumed_samples": 934656, "global_step/max_steps": "3651/12700"}
{"lm loss": 2.11693788, "grad_norm": 0.43274143, "learning_rate": 8.579e-05, "elapsed_time_per_iteration": 4.82433176, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 35s", "remaining_time": "12h 17m 18s", "loss_scale": 1.0, "consumed_samples": 934912, "global_step/max_steps": "3652/12700"}
{"lm loss": 2.17017531, "grad_norm": 0.45542356, "learning_rate": 8.578e-05, "elapsed_time_per_iteration": 4.78653622, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 40s", "remaining_time": "12h 17m 13s", "loss_scale": 1.0, "consumed_samples": 935168, "global_step/max_steps": "3653/12700"}
{"lm loss": 2.13981199, "grad_norm": 0.39779586, "learning_rate": 8.577e-05, "elapsed_time_per_iteration": 4.878124, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 45s", "remaining_time": "12h 17m 8s", "loss_scale": 1.0, "consumed_samples": 935424, "global_step/max_steps": "3654/12700"}
{"lm loss": 2.10425425, "grad_norm": 0.44748449, "learning_rate": 8.576e-05, "elapsed_time_per_iteration": 4.85514808, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 50s", "remaining_time": "12h 17m 3s", "loss_scale": 1.0, "consumed_samples": 935680, "global_step/max_steps": "3655/12700"}
{"lm loss": 2.15853333, "grad_norm": 0.3879109, "learning_rate": 8.575e-05, "elapsed_time_per_iteration": 4.92059255, "memory(GiB)": 28.98, "elapsed_time": "4h 57m 55s", "remaining_time": "12h 16m 58s", "loss_scale": 1.0, "consumed_samples": 935936, "global_step/max_steps": "3656/12700"}
{"lm loss": 2.12947297, "grad_norm": 0.39343998, "learning_rate": 8.574e-05, "elapsed_time_per_iteration": 4.92145467, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 0s", "remaining_time": "12h 16m 53s", "loss_scale": 1.0, "consumed_samples": 936192, "global_step/max_steps": "3657/12700"}
{"lm loss": 2.14438891, "grad_norm": 0.41719741, "learning_rate": 8.573e-05, "elapsed_time_per_iteration": 4.80413795, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 4s", "remaining_time": "12h 16m 48s", "loss_scale": 1.0, "consumed_samples": 936448, "global_step/max_steps": "3658/12700"}
{"lm loss": 2.14320922, "grad_norm": 0.38606834, "learning_rate": 8.573e-05, "elapsed_time_per_iteration": 4.91656828, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 9s", "remaining_time": "12h 16m 43s", "loss_scale": 1.0, "consumed_samples": 936704, "global_step/max_steps": "3659/12700"}
{"lm loss": 2.15283656, "grad_norm": 0.43206277, "learning_rate": 8.572e-05, "elapsed_time_per_iteration": 4.95148754, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 14s", "remaining_time": "12h 16m 38s", "loss_scale": 1.0, "consumed_samples": 936960, "global_step/max_steps": "3660/12700"}
{"lm loss": 2.13601518, "grad_norm": 0.41646495, "learning_rate": 8.571e-05, "elapsed_time_per_iteration": 4.83402705, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 19s", "remaining_time": "12h 16m 33s", "loss_scale": 1.0, "consumed_samples": 937216, "global_step/max_steps": "3661/12700"}
{"lm loss": 2.1329608, "grad_norm": 0.40847602, "learning_rate": 8.57e-05, "elapsed_time_per_iteration": 4.89466381, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 24s", "remaining_time": "12h 16m 29s", "loss_scale": 1.0, "consumed_samples": 937472, "global_step/max_steps": "3662/12700"}
{"lm loss": 2.11017728, "grad_norm": 0.43284827, "learning_rate": 8.569e-05, "elapsed_time_per_iteration": 4.85717487, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 29s", "remaining_time": "12h 16m 24s", "loss_scale": 1.0, "consumed_samples": 937728, "global_step/max_steps": "3663/12700"}
{"lm loss": 2.13233638, "grad_norm": 0.4226377, "learning_rate": 8.568e-05, "elapsed_time_per_iteration": 4.95167017, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 34s", "remaining_time": "12h 16m 19s", "loss_scale": 1.0, "consumed_samples": 937984, "global_step/max_steps": "3664/12700"}
{"lm loss": 2.13777947, "grad_norm": 0.45416191, "learning_rate": 8.567e-05, "elapsed_time_per_iteration": 4.92359877, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 39s", "remaining_time": "12h 16m 14s", "loss_scale": 1.0, "consumed_samples": 938240, "global_step/max_steps": "3665/12700"}
{"lm loss": 2.1302793, "grad_norm": 0.40794131, "learning_rate": 8.566e-05, "elapsed_time_per_iteration": 4.88596821, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 44s", "remaining_time": "12h 16m 9s", "loss_scale": 1.0, "consumed_samples": 938496, "global_step/max_steps": "3666/12700"}
{"lm loss": 2.12059236, "grad_norm": 0.44185907, "learning_rate": 8.565e-05, "elapsed_time_per_iteration": 4.84093261, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 48s", "remaining_time": "12h 16m 4s", "loss_scale": 1.0, "consumed_samples": 938752, "global_step/max_steps": "3667/12700"}
{"lm loss": 2.18414402, "grad_norm": 0.4048028, "learning_rate": 8.564e-05, "elapsed_time_per_iteration": 4.80062675, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 53s", "remaining_time": "12h 15m 59s", "loss_scale": 1.0, "consumed_samples": 939008, "global_step/max_steps": "3668/12700"}
{"lm loss": 2.13877559, "grad_norm": 0.43667462, "learning_rate": 8.564e-05, "elapsed_time_per_iteration": 4.95054603, "memory(GiB)": 28.98, "elapsed_time": "4h 58m 58s", "remaining_time": "12h 15m 54s", "loss_scale": 1.0, "consumed_samples": 939264, "global_step/max_steps": "3669/12700"}
{"lm loss": 2.1792016, "grad_norm": 0.38236538, "learning_rate": 8.563e-05, "elapsed_time_per_iteration": 4.87446547, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 3s", "remaining_time": "12h 15m 49s", "loss_scale": 1.0, "consumed_samples": 939520, "global_step/max_steps": "3670/12700"}
{"lm loss": 2.1346693, "grad_norm": 0.4063881, "learning_rate": 8.562e-05, "elapsed_time_per_iteration": 4.82111955, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 8s", "remaining_time": "12h 15m 44s", "loss_scale": 1.0, "consumed_samples": 939776, "global_step/max_steps": "3671/12700"}
{"lm loss": 2.14783502, "grad_norm": 0.38811934, "learning_rate": 8.561e-05, "elapsed_time_per_iteration": 4.91278267, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 13s", "remaining_time": "12h 15m 39s", "loss_scale": 1.0, "consumed_samples": 940032, "global_step/max_steps": "3672/12700"}
{"lm loss": 2.13273978, "grad_norm": 0.43259704, "learning_rate": 8.56e-05, "elapsed_time_per_iteration": 4.87002039, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 18s", "remaining_time": "12h 15m 34s", "loss_scale": 1.0, "consumed_samples": 940288, "global_step/max_steps": "3673/12700"}
{"lm loss": 2.13154626, "grad_norm": 0.39350763, "learning_rate": 8.559e-05, "elapsed_time_per_iteration": 4.78170252, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 22s", "remaining_time": "12h 15m 29s", "loss_scale": 1.0, "consumed_samples": 940544, "global_step/max_steps": "3674/12700"}
{"lm loss": 2.13319039, "grad_norm": 0.39660165, "learning_rate": 8.558e-05, "elapsed_time_per_iteration": 4.77553391, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 27s", "remaining_time": "12h 15m 24s", "loss_scale": 1.0, "consumed_samples": 940800, "global_step/max_steps": "3675/12700"}
{"lm loss": 2.13623905, "grad_norm": 0.43844914, "learning_rate": 8.557e-05, "elapsed_time_per_iteration": 4.96029639, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 32s", "remaining_time": "12h 15m 19s", "loss_scale": 1.0, "consumed_samples": 941056, "global_step/max_steps": "3676/12700"}
{"lm loss": 2.17902875, "grad_norm": 0.38560355, "learning_rate": 8.556e-05, "elapsed_time_per_iteration": 4.86737251, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 37s", "remaining_time": "12h 15m 15s", "loss_scale": 1.0, "consumed_samples": 941312, "global_step/max_steps": "3677/12700"}
{"lm loss": 2.1634407, "grad_norm": 0.39399135, "learning_rate": 8.555e-05, "elapsed_time_per_iteration": 4.82810616, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 42s", "remaining_time": "12h 15m 9s", "loss_scale": 1.0, "consumed_samples": 941568, "global_step/max_steps": "3678/12700"}
{"lm loss": 2.17460155, "grad_norm": 0.38797209, "learning_rate": 8.555e-05, "elapsed_time_per_iteration": 4.90074706, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 47s", "remaining_time": "12h 15m 5s", "loss_scale": 1.0, "consumed_samples": 941824, "global_step/max_steps": "3679/12700"}
{"lm loss": 2.15946317, "grad_norm": 0.3723833, "learning_rate": 8.554e-05, "elapsed_time_per_iteration": 4.85868335, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 52s", "remaining_time": "12h 15m 0s", "loss_scale": 1.0, "consumed_samples": 942080, "global_step/max_steps": "3680/12700"}
{"lm loss": 2.14365196, "grad_norm": 0.42841426, "learning_rate": 8.553e-05, "elapsed_time_per_iteration": 4.93963909, "memory(GiB)": 28.98, "elapsed_time": "4h 59m 57s", "remaining_time": "12h 14m 55s", "loss_scale": 1.0, "consumed_samples": 942336, "global_step/max_steps": "3681/12700"}
{"lm loss": 2.14594865, "grad_norm": 0.35666969, "learning_rate": 8.552e-05, "elapsed_time_per_iteration": 4.92224455, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 1s", "remaining_time": "12h 14m 50s", "loss_scale": 1.0, "consumed_samples": 942592, "global_step/max_steps": "3682/12700"}
{"lm loss": 2.15813565, "grad_norm": 0.43783662, "learning_rate": 8.551e-05, "elapsed_time_per_iteration": 4.83810639, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 6s", "remaining_time": "12h 14m 45s", "loss_scale": 1.0, "consumed_samples": 942848, "global_step/max_steps": "3683/12700"}
{"lm loss": 2.1359067, "grad_norm": 0.36953554, "learning_rate": 8.55e-05, "elapsed_time_per_iteration": 4.89007115, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 11s", "remaining_time": "12h 14m 40s", "loss_scale": 1.0, "consumed_samples": 943104, "global_step/max_steps": "3684/12700"}
{"lm loss": 2.17739105, "grad_norm": 0.39942092, "learning_rate": 8.549e-05, "elapsed_time_per_iteration": 4.8377614, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 16s", "remaining_time": "12h 14m 35s", "loss_scale": 1.0, "consumed_samples": 943360, "global_step/max_steps": "3685/12700"}
{"lm loss": 2.13134861, "grad_norm": 0.38738719, "learning_rate": 8.548e-05, "elapsed_time_per_iteration": 4.92795491, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 21s", "remaining_time": "12h 14m 30s", "loss_scale": 1.0, "consumed_samples": 943616, "global_step/max_steps": "3686/12700"}
{"lm loss": 2.16027284, "grad_norm": 0.38074198, "learning_rate": 8.547e-05, "elapsed_time_per_iteration": 5.00978041, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 26s", "remaining_time": "12h 14m 26s", "loss_scale": 1.0, "consumed_samples": 943872, "global_step/max_steps": "3687/12700"}
{"lm loss": 2.13939214, "grad_norm": 0.38317224, "learning_rate": 8.546e-05, "elapsed_time_per_iteration": 5.00806475, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 31s", "remaining_time": "12h 14m 21s", "loss_scale": 1.0, "consumed_samples": 944128, "global_step/max_steps": "3688/12700"}
{"lm loss": 2.14186954, "grad_norm": 0.39397424, "learning_rate": 8.546e-05, "elapsed_time_per_iteration": 4.80510998, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 36s", "remaining_time": "12h 14m 16s", "loss_scale": 1.0, "consumed_samples": 944384, "global_step/max_steps": "3689/12700"}
{"lm loss": 2.11840773, "grad_norm": 0.35522828, "learning_rate": 8.545e-05, "elapsed_time_per_iteration": 4.89914393, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 41s", "remaining_time": "12h 14m 11s", "loss_scale": 1.0, "consumed_samples": 944640, "global_step/max_steps": "3690/12700"}
{"lm loss": 2.1569159, "grad_norm": 0.40005383, "learning_rate": 8.544e-05, "elapsed_time_per_iteration": 4.92444062, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 46s", "remaining_time": "12h 14m 6s", "loss_scale": 1.0, "consumed_samples": 944896, "global_step/max_steps": "3691/12700"}
{"lm loss": 2.12690353, "grad_norm": 0.40266672, "learning_rate": 8.543e-05, "elapsed_time_per_iteration": 4.85006046, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 50s", "remaining_time": "12h 14m 1s", "loss_scale": 1.0, "consumed_samples": 945152, "global_step/max_steps": "3692/12700"}
{"lm loss": 2.12201476, "grad_norm": 0.35907799, "learning_rate": 8.542e-05, "elapsed_time_per_iteration": 4.9204762, "memory(GiB)": 28.98, "elapsed_time": "5h 0m 55s", "remaining_time": "12h 13m 57s", "loss_scale": 1.0, "consumed_samples": 945408, "global_step/max_steps": "3693/12700"}
{"lm loss": 2.13150716, "grad_norm": 0.39034191, "learning_rate": 8.541e-05, "elapsed_time_per_iteration": 4.93335509, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 0s", "remaining_time": "12h 13m 52s", "loss_scale": 1.0, "consumed_samples": 945664, "global_step/max_steps": "3694/12700"}
{"lm loss": 2.12731099, "grad_norm": 0.38449752, "learning_rate": 8.54e-05, "elapsed_time_per_iteration": 4.91407776, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 5s", "remaining_time": "12h 13m 47s", "loss_scale": 1.0, "consumed_samples": 945920, "global_step/max_steps": "3695/12700"}
{"lm loss": 2.17259884, "grad_norm": 0.41244888, "learning_rate": 8.539e-05, "elapsed_time_per_iteration": 4.86052155, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 10s", "remaining_time": "12h 13m 42s", "loss_scale": 1.0, "consumed_samples": 946176, "global_step/max_steps": "3696/12700"}
{"lm loss": 2.1508472, "grad_norm": 0.39305586, "learning_rate": 8.538e-05, "elapsed_time_per_iteration": 4.85312128, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 15s", "remaining_time": "12h 13m 37s", "loss_scale": 1.0, "consumed_samples": 946432, "global_step/max_steps": "3697/12700"}
{"lm loss": 2.14224148, "grad_norm": 0.36946073, "learning_rate": 8.537e-05, "elapsed_time_per_iteration": 4.85841465, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 20s", "remaining_time": "12h 13m 32s", "loss_scale": 1.0, "consumed_samples": 946688, "global_step/max_steps": "3698/12700"}
{"lm loss": 2.17473626, "grad_norm": 0.40246439, "learning_rate": 8.537e-05, "elapsed_time_per_iteration": 4.83489633, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 25s", "remaining_time": "12h 13m 27s", "loss_scale": 1.0, "consumed_samples": 946944, "global_step/max_steps": "3699/12700"}
{"lm loss": 2.1587131, "grad_norm": 0.3977384, "learning_rate": 8.536e-05, "elapsed_time_per_iteration": 4.93469858, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 30s", "remaining_time": "12h 13m 22s", "loss_scale": 1.0, "consumed_samples": 947200, "global_step/max_steps": "3700/12700"}
{"lm loss": 2.13802147, "grad_norm": 0.41546884, "learning_rate": 8.535e-05, "elapsed_time_per_iteration": 4.9417069, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 34s", "remaining_time": "12h 13m 18s", "loss_scale": 1.0, "consumed_samples": 947456, "global_step/max_steps": "3701/12700"}
{"lm loss": 2.14324117, "grad_norm": 0.37659144, "learning_rate": 8.534e-05, "elapsed_time_per_iteration": 4.8233366, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 39s", "remaining_time": "12h 13m 12s", "loss_scale": 1.0, "consumed_samples": 947712, "global_step/max_steps": "3702/12700"}
{"lm loss": 2.10615063, "grad_norm": 0.39294317, "learning_rate": 8.533e-05, "elapsed_time_per_iteration": 4.81666207, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 44s", "remaining_time": "12h 13m 7s", "loss_scale": 1.0, "consumed_samples": 947968, "global_step/max_steps": "3703/12700"}
{"lm loss": 2.1491816, "grad_norm": 0.39262143, "learning_rate": 8.532e-05, "elapsed_time_per_iteration": 4.76613545, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 49s", "remaining_time": "12h 13m 2s", "loss_scale": 1.0, "consumed_samples": 948224, "global_step/max_steps": "3704/12700"}
{"lm loss": 2.10847116, "grad_norm": 0.39575249, "learning_rate": 8.531e-05, "elapsed_time_per_iteration": 4.82056355, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 54s", "remaining_time": "12h 12m 57s", "loss_scale": 1.0, "consumed_samples": 948480, "global_step/max_steps": "3705/12700"}
{"lm loss": 2.12276769, "grad_norm": 0.45241851, "learning_rate": 8.53e-05, "elapsed_time_per_iteration": 4.8992188, "memory(GiB)": 28.98, "elapsed_time": "5h 1m 59s", "remaining_time": "12h 12m 52s", "loss_scale": 1.0, "consumed_samples": 948736, "global_step/max_steps": "3706/12700"}
{"lm loss": 2.14889646, "grad_norm": 0.44105455, "learning_rate": 8.529e-05, "elapsed_time_per_iteration": 4.87852883, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 3s", "remaining_time": "12h 12m 47s", "loss_scale": 1.0, "consumed_samples": 948992, "global_step/max_steps": "3707/12700"}
{"lm loss": 2.13180017, "grad_norm": 0.40602168, "learning_rate": 8.528e-05, "elapsed_time_per_iteration": 4.88654828, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 8s", "remaining_time": "12h 12m 43s", "loss_scale": 1.0, "consumed_samples": 949248, "global_step/max_steps": "3708/12700"}
{"lm loss": 2.12821937, "grad_norm": 0.46258667, "learning_rate": 8.528e-05, "elapsed_time_per_iteration": 4.77156734, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 13s", "remaining_time": "12h 12m 37s", "loss_scale": 1.0, "consumed_samples": 949504, "global_step/max_steps": "3709/12700"}
{"lm loss": 2.16347599, "grad_norm": 0.39768761, "learning_rate": 8.527e-05, "elapsed_time_per_iteration": 4.85826564, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 18s", "remaining_time": "12h 12m 32s", "loss_scale": 1.0, "consumed_samples": 949760, "global_step/max_steps": "3710/12700"}
{"lm loss": 2.12486529, "grad_norm": 0.45679593, "learning_rate": 8.526e-05, "elapsed_time_per_iteration": 4.93972325, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 23s", "remaining_time": "12h 12m 28s", "loss_scale": 1.0, "consumed_samples": 950016, "global_step/max_steps": "3711/12700"}
{"lm loss": 2.1895535, "grad_norm": 0.404246, "learning_rate": 8.525e-05, "elapsed_time_per_iteration": 4.95638061, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 28s", "remaining_time": "12h 12m 23s", "loss_scale": 1.0, "consumed_samples": 950272, "global_step/max_steps": "3712/12700"}
{"lm loss": 2.15760398, "grad_norm": 0.40049055, "learning_rate": 8.524e-05, "elapsed_time_per_iteration": 4.98427033, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 33s", "remaining_time": "12h 12m 18s", "loss_scale": 1.0, "consumed_samples": 950528, "global_step/max_steps": "3713/12700"}
{"lm loss": 2.17550135, "grad_norm": 0.45119208, "learning_rate": 8.523e-05, "elapsed_time_per_iteration": 4.87990355, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 38s", "remaining_time": "12h 12m 13s", "loss_scale": 1.0, "consumed_samples": 950784, "global_step/max_steps": "3714/12700"}
{"lm loss": 2.10708284, "grad_norm": 0.40448371, "learning_rate": 8.522e-05, "elapsed_time_per_iteration": 4.84313846, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 43s", "remaining_time": "12h 12m 8s", "loss_scale": 1.0, "consumed_samples": 951040, "global_step/max_steps": "3715/12700"}
{"lm loss": 2.14230132, "grad_norm": 0.4551194, "learning_rate": 8.521e-05, "elapsed_time_per_iteration": 4.86908579, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 47s", "remaining_time": "12h 12m 3s", "loss_scale": 1.0, "consumed_samples": 951296, "global_step/max_steps": "3716/12700"}
{"lm loss": 2.11028552, "grad_norm": 0.41935021, "learning_rate": 8.52e-05, "elapsed_time_per_iteration": 4.82154679, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 52s", "remaining_time": "12h 11m 58s", "loss_scale": 1.0, "consumed_samples": 951552, "global_step/max_steps": "3717/12700"}
{"lm loss": 2.16362357, "grad_norm": 0.40724683, "learning_rate": 8.519e-05, "elapsed_time_per_iteration": 4.94139314, "memory(GiB)": 28.98, "elapsed_time": "5h 2m 57s", "remaining_time": "12h 11m 54s", "loss_scale": 1.0, "consumed_samples": 951808, "global_step/max_steps": "3718/12700"}
{"lm loss": 2.17386508, "grad_norm": 0.44943699, "learning_rate": 8.518e-05, "elapsed_time_per_iteration": 4.82269192, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 2s", "remaining_time": "12h 11m 49s", "loss_scale": 1.0, "consumed_samples": 952064, "global_step/max_steps": "3719/12700"}
{"lm loss": 2.13153315, "grad_norm": 0.41359505, "learning_rate": 8.518e-05, "elapsed_time_per_iteration": 4.90638161, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 7s", "remaining_time": "12h 11m 44s", "loss_scale": 1.0, "consumed_samples": 952320, "global_step/max_steps": "3720/12700"}
{"lm loss": 2.15254688, "grad_norm": 0.4700692, "learning_rate": 8.517e-05, "elapsed_time_per_iteration": 4.94853616, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 12s", "remaining_time": "12h 11m 39s", "loss_scale": 1.0, "consumed_samples": 952576, "global_step/max_steps": "3721/12700"}
{"lm loss": 2.15441442, "grad_norm": 0.45979282, "learning_rate": 8.516e-05, "elapsed_time_per_iteration": 4.83224893, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 17s", "remaining_time": "12h 11m 34s", "loss_scale": 1.0, "consumed_samples": 952832, "global_step/max_steps": "3722/12700"}
{"lm loss": 2.1393981, "grad_norm": 0.38947973, "learning_rate": 8.515e-05, "elapsed_time_per_iteration": 5.02198815, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 22s", "remaining_time": "12h 11m 29s", "loss_scale": 1.0, "consumed_samples": 953088, "global_step/max_steps": "3723/12700"}
{"lm loss": 2.12398601, "grad_norm": 0.45616442, "learning_rate": 8.514e-05, "elapsed_time_per_iteration": 4.82574987, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 27s", "remaining_time": "12h 11m 24s", "loss_scale": 1.0, "consumed_samples": 953344, "global_step/max_steps": "3724/12700"}
{"lm loss": 2.14713097, "grad_norm": 0.36010116, "learning_rate": 8.513e-05, "elapsed_time_per_iteration": 4.84730721, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 31s", "remaining_time": "12h 11m 19s", "loss_scale": 1.0, "consumed_samples": 953600, "global_step/max_steps": "3725/12700"}
{"lm loss": 2.1144712, "grad_norm": 0.42531952, "learning_rate": 8.512e-05, "elapsed_time_per_iteration": 4.74614453, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 36s", "remaining_time": "12h 11m 14s", "loss_scale": 1.0, "consumed_samples": 953856, "global_step/max_steps": "3726/12700"}
{"lm loss": 2.1336422, "grad_norm": 0.37674311, "learning_rate": 8.511e-05, "elapsed_time_per_iteration": 4.85644293, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 41s", "remaining_time": "12h 11m 9s", "loss_scale": 1.0, "consumed_samples": 954112, "global_step/max_steps": "3727/12700"}
{"lm loss": 2.10492921, "grad_norm": 0.43572736, "learning_rate": 8.51e-05, "elapsed_time_per_iteration": 4.79691267, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 46s", "remaining_time": "12h 11m 4s", "loss_scale": 1.0, "consumed_samples": 954368, "global_step/max_steps": "3728/12700"}
{"lm loss": 2.14762855, "grad_norm": 0.43170139, "learning_rate": 8.509e-05, "elapsed_time_per_iteration": 4.85247707, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 51s", "remaining_time": "12h 10m 59s", "loss_scale": 1.0, "consumed_samples": 954624, "global_step/max_steps": "3729/12700"}
{"lm loss": 2.14213943, "grad_norm": 0.37837088, "learning_rate": 8.508e-05, "elapsed_time_per_iteration": 4.8897953, "memory(GiB)": 28.98, "elapsed_time": "5h 3m 56s", "remaining_time": "12h 10m 54s", "loss_scale": 1.0, "consumed_samples": 954880, "global_step/max_steps": "3730/12700"}
{"lm loss": 2.12943888, "grad_norm": 0.40664333, "learning_rate": 8.508e-05, "elapsed_time_per_iteration": 4.79803467, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 0s", "remaining_time": "12h 10m 49s", "loss_scale": 1.0, "consumed_samples": 955136, "global_step/max_steps": "3731/12700"}
{"lm loss": 2.16256881, "grad_norm": 0.3900865, "learning_rate": 8.507e-05, "elapsed_time_per_iteration": 4.89624071, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 5s", "remaining_time": "12h 10m 44s", "loss_scale": 1.0, "consumed_samples": 955392, "global_step/max_steps": "3732/12700"}
{"lm loss": 2.14468527, "grad_norm": 0.40799689, "learning_rate": 8.506e-05, "elapsed_time_per_iteration": 4.83827853, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 10s", "remaining_time": "12h 10m 39s", "loss_scale": 1.0, "consumed_samples": 955648, "global_step/max_steps": "3733/12700"}
{"lm loss": 2.15053773, "grad_norm": 0.42152184, "learning_rate": 8.505e-05, "elapsed_time_per_iteration": 4.87397099, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 15s", "remaining_time": "12h 10m 34s", "loss_scale": 1.0, "consumed_samples": 955904, "global_step/max_steps": "3734/12700"}
{"lm loss": 2.14406395, "grad_norm": 0.41741943, "learning_rate": 8.504e-05, "elapsed_time_per_iteration": 4.8968823, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 20s", "remaining_time": "12h 10m 29s", "loss_scale": 1.0, "consumed_samples": 956160, "global_step/max_steps": "3735/12700"}
{"lm loss": 2.12815619, "grad_norm": 0.41265115, "learning_rate": 8.503e-05, "elapsed_time_per_iteration": 4.92644167, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 25s", "remaining_time": "12h 10m 25s", "loss_scale": 1.0, "consumed_samples": 956416, "global_step/max_steps": "3736/12700"}
{"lm loss": 2.14223051, "grad_norm": 0.39214903, "learning_rate": 8.502e-05, "elapsed_time_per_iteration": 4.87218809, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 30s", "remaining_time": "12h 10m 20s", "loss_scale": 1.0, "consumed_samples": 956672, "global_step/max_steps": "3737/12700"}
{"lm loss": 2.1540091, "grad_norm": 0.40962785, "learning_rate": 8.501e-05, "elapsed_time_per_iteration": 4.82180977, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 35s", "remaining_time": "12h 10m 15s", "loss_scale": 1.0, "consumed_samples": 956928, "global_step/max_steps": "3738/12700"}
{"lm loss": 2.12065315, "grad_norm": 0.40514088, "learning_rate": 8.5e-05, "elapsed_time_per_iteration": 4.90291977, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 39s", "remaining_time": "12h 10m 10s", "loss_scale": 1.0, "consumed_samples": 957184, "global_step/max_steps": "3739/12700"}
{"lm loss": 2.12316799, "grad_norm": 0.39278671, "learning_rate": 8.499e-05, "elapsed_time_per_iteration": 4.94803381, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 44s", "remaining_time": "12h 10m 5s", "loss_scale": 1.0, "consumed_samples": 957440, "global_step/max_steps": "3740/12700"}
{"lm loss": 2.13432288, "grad_norm": 0.39876476, "learning_rate": 8.498e-05, "elapsed_time_per_iteration": 4.93859482, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 49s", "remaining_time": "12h 10m 0s", "loss_scale": 1.0, "consumed_samples": 957696, "global_step/max_steps": "3741/12700"}
{"lm loss": 2.11380863, "grad_norm": 0.43374148, "learning_rate": 8.497e-05, "elapsed_time_per_iteration": 4.96576071, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 54s", "remaining_time": "12h 9m 55s", "loss_scale": 1.0, "consumed_samples": 957952, "global_step/max_steps": "3742/12700"}
{"lm loss": 2.1343565, "grad_norm": 0.40651333, "learning_rate": 8.497e-05, "elapsed_time_per_iteration": 4.96779513, "memory(GiB)": 28.98, "elapsed_time": "5h 4m 59s", "remaining_time": "12h 9m 51s", "loss_scale": 1.0, "consumed_samples": 958208, "global_step/max_steps": "3743/12700"}
{"lm loss": 2.14828277, "grad_norm": 0.43359765, "learning_rate": 8.496e-05, "elapsed_time_per_iteration": 4.87600422, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 4s", "remaining_time": "12h 9m 46s", "loss_scale": 1.0, "consumed_samples": 958464, "global_step/max_steps": "3744/12700"}
{"lm loss": 2.12588906, "grad_norm": 0.4111506, "learning_rate": 8.495e-05, "elapsed_time_per_iteration": 4.81987095, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 9s", "remaining_time": "12h 9m 41s", "loss_scale": 1.0, "consumed_samples": 958720, "global_step/max_steps": "3745/12700"}
{"lm loss": 2.13832736, "grad_norm": 0.39809871, "learning_rate": 8.494e-05, "elapsed_time_per_iteration": 4.84609199, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 14s", "remaining_time": "12h 9m 36s", "loss_scale": 1.0, "consumed_samples": 958976, "global_step/max_steps": "3746/12700"}
{"lm loss": 2.12592864, "grad_norm": 0.40360308, "learning_rate": 8.493e-05, "elapsed_time_per_iteration": 4.85930109, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 19s", "remaining_time": "12h 9m 31s", "loss_scale": 1.0, "consumed_samples": 959232, "global_step/max_steps": "3747/12700"}
{"lm loss": 2.14586949, "grad_norm": 0.38454306, "learning_rate": 8.492e-05, "elapsed_time_per_iteration": 4.89591289, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 24s", "remaining_time": "12h 9m 26s", "loss_scale": 1.0, "consumed_samples": 959488, "global_step/max_steps": "3748/12700"}
{"lm loss": 2.15645552, "grad_norm": 0.42562258, "learning_rate": 8.491e-05, "elapsed_time_per_iteration": 4.83842516, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 28s", "remaining_time": "12h 9m 21s", "loss_scale": 1.0, "consumed_samples": 959744, "global_step/max_steps": "3749/12700"}
{"lm loss": 2.13997507, "grad_norm": 0.4177455, "learning_rate": 8.49e-05, "elapsed_time_per_iteration": 4.94740915, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 33s", "remaining_time": "12h 9m 16s", "loss_scale": 1.0, "consumed_samples": 960000, "global_step/max_steps": "3750/12700"}
{"lm loss": 2.12902594, "grad_norm": 0.39960912, "learning_rate": 8.489e-05, "elapsed_time_per_iteration": 4.86575532, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 38s", "remaining_time": "12h 9m 11s", "loss_scale": 1.0, "consumed_samples": 960256, "global_step/max_steps": "3751/12700"}
{"lm loss": 2.14878416, "grad_norm": 0.40413564, "learning_rate": 8.488e-05, "elapsed_time_per_iteration": 4.91016507, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 43s", "remaining_time": "12h 9m 6s", "loss_scale": 1.0, "consumed_samples": 960512, "global_step/max_steps": "3752/12700"}
{"lm loss": 2.1030345, "grad_norm": 0.39994758, "learning_rate": 8.487e-05, "elapsed_time_per_iteration": 4.88338399, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 48s", "remaining_time": "12h 9m 2s", "loss_scale": 1.0, "consumed_samples": 960768, "global_step/max_steps": "3753/12700"}
{"lm loss": 2.13148689, "grad_norm": 0.40050232, "learning_rate": 8.486e-05, "elapsed_time_per_iteration": 4.89928746, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 53s", "remaining_time": "12h 8m 57s", "loss_scale": 1.0, "consumed_samples": 961024, "global_step/max_steps": "3754/12700"}
{"lm loss": 2.12409973, "grad_norm": 0.38909253, "learning_rate": 8.486e-05, "elapsed_time_per_iteration": 4.95541167, "memory(GiB)": 28.98, "elapsed_time": "5h 5m 58s", "remaining_time": "12h 8m 52s", "loss_scale": 1.0, "consumed_samples": 961280, "global_step/max_steps": "3755/12700"}
{"lm loss": 2.14093304, "grad_norm": 0.44281703, "learning_rate": 8.485e-05, "elapsed_time_per_iteration": 4.823102, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 3s", "remaining_time": "12h 8m 47s", "loss_scale": 1.0, "consumed_samples": 961536, "global_step/max_steps": "3756/12700"}
{"lm loss": 2.19310999, "grad_norm": 0.39067084, "learning_rate": 8.484e-05, "elapsed_time_per_iteration": 4.88204813, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 8s", "remaining_time": "12h 8m 42s", "loss_scale": 1.0, "consumed_samples": 961792, "global_step/max_steps": "3757/12700"}
{"lm loss": 2.16422057, "grad_norm": 0.49770632, "learning_rate": 8.483e-05, "elapsed_time_per_iteration": 4.80853057, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 12s", "remaining_time": "12h 8m 37s", "loss_scale": 1.0, "consumed_samples": 962048, "global_step/max_steps": "3758/12700"}
{"lm loss": 2.18596411, "grad_norm": 0.46497279, "learning_rate": 8.482e-05, "elapsed_time_per_iteration": 4.84107637, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 17s", "remaining_time": "12h 8m 32s", "loss_scale": 1.0, "consumed_samples": 962304, "global_step/max_steps": "3759/12700"}
{"lm loss": 2.10099173, "grad_norm": 0.38123214, "learning_rate": 8.481e-05, "elapsed_time_per_iteration": 4.84417248, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 22s", "remaining_time": "12h 8m 27s", "loss_scale": 1.0, "consumed_samples": 962560, "global_step/max_steps": "3760/12700"}
{"lm loss": 2.13299727, "grad_norm": 0.39204657, "learning_rate": 8.48e-05, "elapsed_time_per_iteration": 4.84600973, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 27s", "remaining_time": "12h 8m 22s", "loss_scale": 1.0, "consumed_samples": 962816, "global_step/max_steps": "3761/12700"}
{"lm loss": 2.1467433, "grad_norm": 0.39305818, "learning_rate": 8.479e-05, "elapsed_time_per_iteration": 4.91674519, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 32s", "remaining_time": "12h 8m 17s", "loss_scale": 1.0, "consumed_samples": 963072, "global_step/max_steps": "3762/12700"}
{"lm loss": 2.15117741, "grad_norm": 0.37936538, "learning_rate": 8.478e-05, "elapsed_time_per_iteration": 4.83151293, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 37s", "remaining_time": "12h 8m 12s", "loss_scale": 1.0, "consumed_samples": 963328, "global_step/max_steps": "3763/12700"}
{"lm loss": 2.12084985, "grad_norm": 0.38029712, "learning_rate": 8.477e-05, "elapsed_time_per_iteration": 4.78901029, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 41s", "remaining_time": "12h 8m 7s", "loss_scale": 1.0, "consumed_samples": 963584, "global_step/max_steps": "3764/12700"}
{"lm loss": 2.15551877, "grad_norm": 0.36276841, "learning_rate": 8.476e-05, "elapsed_time_per_iteration": 4.84014034, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 46s", "remaining_time": "12h 8m 2s", "loss_scale": 1.0, "consumed_samples": 963840, "global_step/max_steps": "3765/12700"}
{"lm loss": 2.15649652, "grad_norm": 0.41313636, "learning_rate": 8.475e-05, "elapsed_time_per_iteration": 4.93152094, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 51s", "remaining_time": "12h 7m 57s", "loss_scale": 1.0, "consumed_samples": 964096, "global_step/max_steps": "3766/12700"}
{"lm loss": 2.19232988, "grad_norm": 0.37540525, "learning_rate": 8.475e-05, "elapsed_time_per_iteration": 4.882442, "memory(GiB)": 28.98, "elapsed_time": "5h 6m 56s", "remaining_time": "12h 7m 52s", "loss_scale": 1.0, "consumed_samples": 964352, "global_step/max_steps": "3767/12700"}
{"lm loss": 2.14220142, "grad_norm": 0.39700273, "learning_rate": 8.474e-05, "elapsed_time_per_iteration": 4.86270642, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 1s", "remaining_time": "12h 7m 47s", "loss_scale": 1.0, "consumed_samples": 964608, "global_step/max_steps": "3768/12700"}
{"lm loss": 2.13161731, "grad_norm": 0.37022781, "learning_rate": 8.473e-05, "elapsed_time_per_iteration": 4.80794406, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 6s", "remaining_time": "12h 7m 42s", "loss_scale": 1.0, "consumed_samples": 964864, "global_step/max_steps": "3769/12700"}
{"lm loss": 2.17718339, "grad_norm": 0.40962002, "learning_rate": 8.472e-05, "elapsed_time_per_iteration": 4.87538338, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 11s", "remaining_time": "12h 7m 37s", "loss_scale": 1.0, "consumed_samples": 965120, "global_step/max_steps": "3770/12700"}
{"lm loss": 2.11811948, "grad_norm": 0.38852975, "learning_rate": 8.471e-05, "elapsed_time_per_iteration": 4.74346399, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 15s", "remaining_time": "12h 7m 32s", "loss_scale": 1.0, "consumed_samples": 965376, "global_step/max_steps": "3771/12700"}
{"lm loss": 2.1430707, "grad_norm": 0.40373656, "learning_rate": 8.47e-05, "elapsed_time_per_iteration": 4.83333683, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 20s", "remaining_time": "12h 7m 27s", "loss_scale": 1.0, "consumed_samples": 965632, "global_step/max_steps": "3772/12700"}
{"lm loss": 2.1703043, "grad_norm": 0.41760641, "learning_rate": 8.469e-05, "elapsed_time_per_iteration": 4.82713509, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 25s", "remaining_time": "12h 7m 22s", "loss_scale": 1.0, "consumed_samples": 965888, "global_step/max_steps": "3773/12700"}
{"lm loss": 2.10690999, "grad_norm": 0.37826461, "learning_rate": 8.468e-05, "elapsed_time_per_iteration": 4.86906838, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 30s", "remaining_time": "12h 7m 17s", "loss_scale": 1.0, "consumed_samples": 966144, "global_step/max_steps": "3774/12700"}
{"lm loss": 2.13506508, "grad_norm": 0.38920861, "learning_rate": 8.467e-05, "elapsed_time_per_iteration": 5.03907228, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 35s", "remaining_time": "12h 7m 13s", "loss_scale": 1.0, "consumed_samples": 966400, "global_step/max_steps": "3775/12700"}
{"lm loss": 2.14753413, "grad_norm": 0.37567124, "learning_rate": 8.466e-05, "elapsed_time_per_iteration": 4.85011983, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 40s", "remaining_time": "12h 7m 8s", "loss_scale": 1.0, "consumed_samples": 966656, "global_step/max_steps": "3776/12700"}
{"lm loss": 2.13486218, "grad_norm": 0.38521749, "learning_rate": 8.465e-05, "elapsed_time_per_iteration": 4.84792852, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 45s", "remaining_time": "12h 7m 3s", "loss_scale": 1.0, "consumed_samples": 966912, "global_step/max_steps": "3777/12700"}
{"lm loss": 2.16559196, "grad_norm": 0.37829459, "learning_rate": 8.464e-05, "elapsed_time_per_iteration": 5.00160646, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 50s", "remaining_time": "12h 6m 58s", "loss_scale": 1.0, "consumed_samples": 967168, "global_step/max_steps": "3778/12700"}
{"lm loss": 2.16092539, "grad_norm": 0.3558479, "learning_rate": 8.464e-05, "elapsed_time_per_iteration": 4.85304737, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 54s", "remaining_time": "12h 6m 53s", "loss_scale": 1.0, "consumed_samples": 967424, "global_step/max_steps": "3779/12700"}
{"lm loss": 2.1836555, "grad_norm": 0.41106096, "learning_rate": 8.463e-05, "elapsed_time_per_iteration": 4.90639448, "memory(GiB)": 28.98, "elapsed_time": "5h 7m 59s", "remaining_time": "12h 6m 48s", "loss_scale": 1.0, "consumed_samples": 967680, "global_step/max_steps": "3780/12700"}
{"lm loss": 2.10605621, "grad_norm": 0.44597575, "learning_rate": 8.462e-05, "elapsed_time_per_iteration": 4.90063691, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 4s", "remaining_time": "12h 6m 43s", "loss_scale": 1.0, "consumed_samples": 967936, "global_step/max_steps": "3781/12700"}
{"lm loss": 2.13879967, "grad_norm": 0.40944669, "learning_rate": 8.461e-05, "elapsed_time_per_iteration": 4.80927753, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 9s", "remaining_time": "12h 6m 38s", "loss_scale": 1.0, "consumed_samples": 968192, "global_step/max_steps": "3782/12700"}
{"lm loss": 2.14846396, "grad_norm": 0.42251107, "learning_rate": 8.46e-05, "elapsed_time_per_iteration": 4.89597249, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 14s", "remaining_time": "12h 6m 33s", "loss_scale": 1.0, "consumed_samples": 968448, "global_step/max_steps": "3783/12700"}
{"lm loss": 2.12359762, "grad_norm": 0.39087, "learning_rate": 8.459e-05, "elapsed_time_per_iteration": 4.72716737, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 19s", "remaining_time": "12h 6m 28s", "loss_scale": 1.0, "consumed_samples": 968704, "global_step/max_steps": "3784/12700"}
{"lm loss": 2.20182395, "grad_norm": 0.40232685, "learning_rate": 8.458e-05, "elapsed_time_per_iteration": 4.92524314, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 24s", "remaining_time": "12h 6m 23s", "loss_scale": 1.0, "consumed_samples": 968960, "global_step/max_steps": "3785/12700"}
{"lm loss": 2.13821197, "grad_norm": 0.4051398, "learning_rate": 8.457e-05, "elapsed_time_per_iteration": 4.823668, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 28s", "remaining_time": "12h 6m 18s", "loss_scale": 1.0, "consumed_samples": 969216, "global_step/max_steps": "3786/12700"}
{"lm loss": 2.1448729, "grad_norm": 0.4036063, "learning_rate": 8.456e-05, "elapsed_time_per_iteration": 4.90346408, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 33s", "remaining_time": "12h 6m 13s", "loss_scale": 1.0, "consumed_samples": 969472, "global_step/max_steps": "3787/12700"}
{"lm loss": 2.13435125, "grad_norm": 0.38876715, "learning_rate": 8.455e-05, "elapsed_time_per_iteration": 4.97264171, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 38s", "remaining_time": "12h 6m 9s", "loss_scale": 1.0, "consumed_samples": 969728, "global_step/max_steps": "3788/12700"}
{"lm loss": 2.15708804, "grad_norm": 0.41517952, "learning_rate": 8.454e-05, "elapsed_time_per_iteration": 4.83134985, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 43s", "remaining_time": "12h 6m 4s", "loss_scale": 1.0, "consumed_samples": 969984, "global_step/max_steps": "3789/12700"}
{"lm loss": 2.14457417, "grad_norm": 0.44406244, "learning_rate": 8.453e-05, "elapsed_time_per_iteration": 4.88404989, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 48s", "remaining_time": "12h 5m 59s", "loss_scale": 1.0, "consumed_samples": 970240, "global_step/max_steps": "3790/12700"}
{"lm loss": 2.17811322, "grad_norm": 0.40649739, "learning_rate": 8.452e-05, "elapsed_time_per_iteration": 4.75842285, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 53s", "remaining_time": "12h 5m 54s", "loss_scale": 1.0, "consumed_samples": 970496, "global_step/max_steps": "3791/12700"}
{"lm loss": 2.14287972, "grad_norm": 0.4160639, "learning_rate": 8.452e-05, "elapsed_time_per_iteration": 4.91764069, "memory(GiB)": 28.98, "elapsed_time": "5h 8m 58s", "remaining_time": "12h 5m 49s", "loss_scale": 1.0, "consumed_samples": 970752, "global_step/max_steps": "3792/12700"}
{"lm loss": 2.13725543, "grad_norm": 0.43843314, "learning_rate": 8.451e-05, "elapsed_time_per_iteration": 4.87229633, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 3s", "remaining_time": "12h 5m 44s", "loss_scale": 1.0, "consumed_samples": 971008, "global_step/max_steps": "3793/12700"}
{"lm loss": 2.15940499, "grad_norm": 0.37797433, "learning_rate": 8.45e-05, "elapsed_time_per_iteration": 4.98628736, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 8s", "remaining_time": "12h 5m 39s", "loss_scale": 1.0, "consumed_samples": 971264, "global_step/max_steps": "3794/12700"}
{"lm loss": 2.13011789, "grad_norm": 0.39200214, "learning_rate": 8.449e-05, "elapsed_time_per_iteration": 4.81931281, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 12s", "remaining_time": "12h 5m 34s", "loss_scale": 1.0, "consumed_samples": 971520, "global_step/max_steps": "3795/12700"}
{"lm loss": 2.12376475, "grad_norm": 0.42596155, "learning_rate": 8.448e-05, "elapsed_time_per_iteration": 4.98088241, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 17s", "remaining_time": "12h 5m 29s", "loss_scale": 1.0, "consumed_samples": 971776, "global_step/max_steps": "3796/12700"}
{"lm loss": 2.17189717, "grad_norm": 0.36500582, "learning_rate": 8.447e-05, "elapsed_time_per_iteration": 4.83594275, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 22s", "remaining_time": "12h 5m 24s", "loss_scale": 1.0, "consumed_samples": 972032, "global_step/max_steps": "3797/12700"}
{"lm loss": 2.13448691, "grad_norm": 0.37461731, "learning_rate": 8.446e-05, "elapsed_time_per_iteration": 4.96581864, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 27s", "remaining_time": "12h 5m 20s", "loss_scale": 1.0, "consumed_samples": 972288, "global_step/max_steps": "3798/12700"}
{"lm loss": 2.15523148, "grad_norm": 0.3904123, "learning_rate": 8.445e-05, "elapsed_time_per_iteration": 4.86542606, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 32s", "remaining_time": "12h 5m 15s", "loss_scale": 1.0, "consumed_samples": 972544, "global_step/max_steps": "3799/12700"}
{"lm loss": 2.13911009, "grad_norm": 0.36379549, "learning_rate": 8.444e-05, "elapsed_time_per_iteration": 4.85017896, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 37s", "remaining_time": "12h 5m 10s", "loss_scale": 1.0, "consumed_samples": 972800, "global_step/max_steps": "3800/12700"}
{"lm loss": 2.13554931, "grad_norm": 0.3888934, "learning_rate": 8.443e-05, "elapsed_time_per_iteration": 4.92787051, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 42s", "remaining_time": "12h 5m 5s", "loss_scale": 1.0, "consumed_samples": 973056, "global_step/max_steps": "3801/12700"}
{"lm loss": 2.142905, "grad_norm": 0.40848097, "learning_rate": 8.442e-05, "elapsed_time_per_iteration": 4.89046144, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 47s", "remaining_time": "12h 5m 0s", "loss_scale": 1.0, "consumed_samples": 973312, "global_step/max_steps": "3802/12700"}
{"lm loss": 2.13583732, "grad_norm": 0.36628783, "learning_rate": 8.441e-05, "elapsed_time_per_iteration": 4.76052737, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 51s", "remaining_time": "12h 4m 55s", "loss_scale": 1.0, "consumed_samples": 973568, "global_step/max_steps": "3803/12700"}
{"lm loss": 2.13028002, "grad_norm": 0.4505181, "learning_rate": 8.44e-05, "elapsed_time_per_iteration": 4.81997108, "memory(GiB)": 28.98, "elapsed_time": "5h 9m 56s", "remaining_time": "12h 4m 50s", "loss_scale": 1.0, "consumed_samples": 973824, "global_step/max_steps": "3804/12700"}
{"lm loss": 2.13497233, "grad_norm": 0.42446956, "learning_rate": 8.439e-05, "elapsed_time_per_iteration": 4.85069847, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 1s", "remaining_time": "12h 4m 45s", "loss_scale": 1.0, "consumed_samples": 974080, "global_step/max_steps": "3805/12700"}
{"lm loss": 2.12513375, "grad_norm": 0.41584614, "learning_rate": 8.439e-05, "elapsed_time_per_iteration": 4.73418236, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 6s", "remaining_time": "12h 4m 40s", "loss_scale": 1.0, "consumed_samples": 974336, "global_step/max_steps": "3806/12700"}
{"lm loss": 2.14594841, "grad_norm": 0.41756126, "learning_rate": 8.438e-05, "elapsed_time_per_iteration": 4.80318856, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 11s", "remaining_time": "12h 4m 35s", "loss_scale": 1.0, "consumed_samples": 974592, "global_step/max_steps": "3807/12700"}
{"lm loss": 2.15060973, "grad_norm": 0.41426146, "learning_rate": 8.437e-05, "elapsed_time_per_iteration": 4.86985826, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 16s", "remaining_time": "12h 4m 30s", "loss_scale": 1.0, "consumed_samples": 974848, "global_step/max_steps": "3808/12700"}
{"lm loss": 2.13660812, "grad_norm": 0.38888878, "learning_rate": 8.436e-05, "elapsed_time_per_iteration": 4.78552055, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 20s", "remaining_time": "12h 4m 24s", "loss_scale": 1.0, "consumed_samples": 975104, "global_step/max_steps": "3809/12700"}
{"lm loss": 2.14435601, "grad_norm": 0.41787449, "learning_rate": 8.435e-05, "elapsed_time_per_iteration": 4.79455304, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 25s", "remaining_time": "12h 4m 19s", "loss_scale": 1.0, "consumed_samples": 975360, "global_step/max_steps": "3810/12700"}
{"lm loss": 2.20146942, "grad_norm": 0.39555371, "learning_rate": 8.434e-05, "elapsed_time_per_iteration": 4.7728169, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 30s", "remaining_time": "12h 4m 14s", "loss_scale": 1.0, "consumed_samples": 975616, "global_step/max_steps": "3811/12700"}
{"lm loss": 2.13685942, "grad_norm": 0.45145962, "learning_rate": 8.433e-05, "elapsed_time_per_iteration": 4.82616401, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 35s", "remaining_time": "12h 4m 9s", "loss_scale": 1.0, "consumed_samples": 975872, "global_step/max_steps": "3812/12700"}
{"lm loss": 2.108325, "grad_norm": 0.38879511, "learning_rate": 8.432e-05, "elapsed_time_per_iteration": 4.83902144, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 40s", "remaining_time": "12h 4m 4s", "loss_scale": 1.0, "consumed_samples": 976128, "global_step/max_steps": "3813/12700"}
{"lm loss": 2.15878773, "grad_norm": 0.40672418, "learning_rate": 8.431e-05, "elapsed_time_per_iteration": 4.85165668, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 44s", "remaining_time": "12h 3m 59s", "loss_scale": 1.0, "consumed_samples": 976384, "global_step/max_steps": "3814/12700"}
{"lm loss": 2.1610291, "grad_norm": 0.38362715, "learning_rate": 8.43e-05, "elapsed_time_per_iteration": 4.84247136, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 49s", "remaining_time": "12h 3m 54s", "loss_scale": 1.0, "consumed_samples": 976640, "global_step/max_steps": "3815/12700"}
{"lm loss": 2.12259626, "grad_norm": 0.38805634, "learning_rate": 8.429e-05, "elapsed_time_per_iteration": 4.87532234, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 54s", "remaining_time": "12h 3m 49s", "loss_scale": 1.0, "consumed_samples": 976896, "global_step/max_steps": "3816/12700"}
{"lm loss": 2.17951846, "grad_norm": 0.4105427, "learning_rate": 8.428e-05, "elapsed_time_per_iteration": 5.08664751, "memory(GiB)": 28.98, "elapsed_time": "5h 10m 59s", "remaining_time": "12h 3m 45s", "loss_scale": 1.0, "consumed_samples": 977152, "global_step/max_steps": "3817/12700"}
{"lm loss": 2.14736223, "grad_norm": 0.38144824, "learning_rate": 8.427e-05, "elapsed_time_per_iteration": 4.79897237, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 4s", "remaining_time": "12h 3m 40s", "loss_scale": 1.0, "consumed_samples": 977408, "global_step/max_steps": "3818/12700"}
{"lm loss": 2.13624167, "grad_norm": 0.38791615, "learning_rate": 8.426e-05, "elapsed_time_per_iteration": 4.80851102, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 9s", "remaining_time": "12h 3m 35s", "loss_scale": 1.0, "consumed_samples": 977664, "global_step/max_steps": "3819/12700"}
{"lm loss": 2.12798452, "grad_norm": 0.39845002, "learning_rate": 8.426e-05, "elapsed_time_per_iteration": 4.7930038, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 14s", "remaining_time": "12h 3m 30s", "loss_scale": 1.0, "consumed_samples": 977920, "global_step/max_steps": "3820/12700"}
{"lm loss": 2.16520834, "grad_norm": 0.43251982, "learning_rate": 8.425e-05, "elapsed_time_per_iteration": 4.89650536, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 19s", "remaining_time": "12h 3m 25s", "loss_scale": 1.0, "consumed_samples": 978176, "global_step/max_steps": "3821/12700"}
{"lm loss": 2.16034651, "grad_norm": 0.40161604, "learning_rate": 8.424e-05, "elapsed_time_per_iteration": 4.90033388, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 23s", "remaining_time": "12h 3m 20s", "loss_scale": 1.0, "consumed_samples": 978432, "global_step/max_steps": "3822/12700"}
{"lm loss": 2.16281915, "grad_norm": 0.44844833, "learning_rate": 8.423e-05, "elapsed_time_per_iteration": 4.79712558, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 28s", "remaining_time": "12h 3m 15s", "loss_scale": 1.0, "consumed_samples": 978688, "global_step/max_steps": "3823/12700"}
{"lm loss": 2.12222862, "grad_norm": 0.41692492, "learning_rate": 8.422e-05, "elapsed_time_per_iteration": 4.8378613, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 33s", "remaining_time": "12h 3m 10s", "loss_scale": 1.0, "consumed_samples": 978944, "global_step/max_steps": "3824/12700"}
{"lm loss": 2.14798832, "grad_norm": 0.37182841, "learning_rate": 8.421e-05, "elapsed_time_per_iteration": 4.94996333, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 38s", "remaining_time": "12h 3m 5s", "loss_scale": 1.0, "consumed_samples": 979200, "global_step/max_steps": "3825/12700"}
{"lm loss": 2.13080549, "grad_norm": 0.42029005, "learning_rate": 8.42e-05, "elapsed_time_per_iteration": 5.07120132, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 43s", "remaining_time": "12h 3m 0s", "loss_scale": 1.0, "consumed_samples": 979456, "global_step/max_steps": "3826/12700"}
{"lm loss": 2.1596365, "grad_norm": 0.43170956, "learning_rate": 8.419e-05, "elapsed_time_per_iteration": 4.9315474, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 48s", "remaining_time": "12h 2m 56s", "loss_scale": 1.0, "consumed_samples": 979712, "global_step/max_steps": "3827/12700"}
{"lm loss": 2.12054157, "grad_norm": 0.38425407, "learning_rate": 8.418e-05, "elapsed_time_per_iteration": 4.89444447, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 53s", "remaining_time": "12h 2m 51s", "loss_scale": 1.0, "consumed_samples": 979968, "global_step/max_steps": "3828/12700"}
{"lm loss": 2.13718939, "grad_norm": 0.40472981, "learning_rate": 8.417e-05, "elapsed_time_per_iteration": 4.89207077, "memory(GiB)": 28.98, "elapsed_time": "5h 11m 58s", "remaining_time": "12h 2m 46s", "loss_scale": 1.0, "consumed_samples": 980224, "global_step/max_steps": "3829/12700"}
{"lm loss": 2.13081908, "grad_norm": 0.40661472, "learning_rate": 8.416e-05, "elapsed_time_per_iteration": 4.91054869, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 3s", "remaining_time": "12h 2m 41s", "loss_scale": 1.0, "consumed_samples": 980480, "global_step/max_steps": "3830/12700"}
{"lm loss": 2.12381387, "grad_norm": 0.38202864, "learning_rate": 8.415e-05, "elapsed_time_per_iteration": 4.95870423, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 8s", "remaining_time": "12h 2m 36s", "loss_scale": 1.0, "consumed_samples": 980736, "global_step/max_steps": "3831/12700"}
{"lm loss": 2.12777662, "grad_norm": 0.39001068, "learning_rate": 8.414e-05, "elapsed_time_per_iteration": 4.83072901, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 13s", "remaining_time": "12h 2m 31s", "loss_scale": 1.0, "consumed_samples": 980992, "global_step/max_steps": "3832/12700"}
{"lm loss": 2.16904211, "grad_norm": 0.40447354, "learning_rate": 8.413e-05, "elapsed_time_per_iteration": 4.90000296, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 17s", "remaining_time": "12h 2m 27s", "loss_scale": 1.0, "consumed_samples": 981248, "global_step/max_steps": "3833/12700"}
{"lm loss": 2.11336136, "grad_norm": 0.36453658, "learning_rate": 8.412e-05, "elapsed_time_per_iteration": 4.93032861, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 22s", "remaining_time": "12h 2m 22s", "loss_scale": 1.0, "consumed_samples": 981504, "global_step/max_steps": "3834/12700"}
{"lm loss": 2.13868403, "grad_norm": 0.38681555, "learning_rate": 8.412e-05, "elapsed_time_per_iteration": 4.84361362, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 27s", "remaining_time": "12h 2m 17s", "loss_scale": 1.0, "consumed_samples": 981760, "global_step/max_steps": "3835/12700"}
{"lm loss": 2.10155439, "grad_norm": 0.38620961, "learning_rate": 8.411e-05, "elapsed_time_per_iteration": 4.90451264, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 32s", "remaining_time": "12h 2m 12s", "loss_scale": 1.0, "consumed_samples": 982016, "global_step/max_steps": "3836/12700"}
{"lm loss": 2.16322184, "grad_norm": 0.3871327, "learning_rate": 8.41e-05, "elapsed_time_per_iteration": 4.95651722, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 37s", "remaining_time": "12h 2m 7s", "loss_scale": 1.0, "consumed_samples": 982272, "global_step/max_steps": "3837/12700"}
{"lm loss": 2.1341145, "grad_norm": 0.37356663, "learning_rate": 8.409e-05, "elapsed_time_per_iteration": 4.8724978, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 42s", "remaining_time": "12h 2m 2s", "loss_scale": 1.0, "consumed_samples": 982528, "global_step/max_steps": "3838/12700"}
{"lm loss": 2.1202035, "grad_norm": 0.38665262, "learning_rate": 8.408e-05, "elapsed_time_per_iteration": 4.84550214, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 47s", "remaining_time": "12h 1m 57s", "loss_scale": 1.0, "consumed_samples": 982784, "global_step/max_steps": "3839/12700"}
{"lm loss": 2.14600015, "grad_norm": 0.37608302, "learning_rate": 8.407e-05, "elapsed_time_per_iteration": 5.01193428, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 52s", "remaining_time": "12h 1m 53s", "loss_scale": 1.0, "consumed_samples": 983040, "global_step/max_steps": "3840/12700"}
{"lm loss": 2.12903476, "grad_norm": 0.40603837, "learning_rate": 8.406e-05, "elapsed_time_per_iteration": 4.83052993, "memory(GiB)": 28.98, "elapsed_time": "5h 12m 57s", "remaining_time": "12h 1m 48s", "loss_scale": 1.0, "consumed_samples": 983296, "global_step/max_steps": "3841/12700"}
{"lm loss": 2.14997339, "grad_norm": 0.38091305, "learning_rate": 8.405e-05, "elapsed_time_per_iteration": 4.89393902, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 2s", "remaining_time": "12h 1m 43s", "loss_scale": 1.0, "consumed_samples": 983552, "global_step/max_steps": "3842/12700"}
{"lm loss": 2.13623929, "grad_norm": 0.41622639, "learning_rate": 8.404e-05, "elapsed_time_per_iteration": 4.946244, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 6s", "remaining_time": "12h 1m 38s", "loss_scale": 1.0, "consumed_samples": 983808, "global_step/max_steps": "3843/12700"}
{"lm loss": 2.13436365, "grad_norm": 0.38548833, "learning_rate": 8.403e-05, "elapsed_time_per_iteration": 4.93717289, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 11s", "remaining_time": "12h 1m 33s", "loss_scale": 1.0, "consumed_samples": 984064, "global_step/max_steps": "3844/12700"}
{"lm loss": 2.11689115, "grad_norm": 0.40099651, "learning_rate": 8.402e-05, "elapsed_time_per_iteration": 4.94455409, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 16s", "remaining_time": "12h 1m 28s", "loss_scale": 1.0, "consumed_samples": 984320, "global_step/max_steps": "3845/12700"}
{"lm loss": 2.14289713, "grad_norm": 0.37186682, "learning_rate": 8.401e-05, "elapsed_time_per_iteration": 4.87105179, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 21s", "remaining_time": "12h 1m 23s", "loss_scale": 1.0, "consumed_samples": 984576, "global_step/max_steps": "3846/12700"}
{"lm loss": 2.08965158, "grad_norm": 0.425832, "learning_rate": 8.4e-05, "elapsed_time_per_iteration": 4.96076465, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 26s", "remaining_time": "12h 1m 19s", "loss_scale": 1.0, "consumed_samples": 984832, "global_step/max_steps": "3847/12700"}
{"lm loss": 2.11393166, "grad_norm": 0.4286873, "learning_rate": 8.399e-05, "elapsed_time_per_iteration": 4.8509376, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 31s", "remaining_time": "12h 1m 14s", "loss_scale": 1.0, "consumed_samples": 985088, "global_step/max_steps": "3848/12700"}
{"lm loss": 2.1305871, "grad_norm": 0.40737307, "learning_rate": 8.398e-05, "elapsed_time_per_iteration": 4.90506077, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 36s", "remaining_time": "12h 1m 9s", "loss_scale": 1.0, "consumed_samples": 985344, "global_step/max_steps": "3849/12700"}
{"lm loss": 2.17492533, "grad_norm": 0.38283968, "learning_rate": 8.397e-05, "elapsed_time_per_iteration": 4.95057034, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 41s", "remaining_time": "12h 1m 4s", "loss_scale": 1.0, "consumed_samples": 985600, "global_step/max_steps": "3850/12700"}
{"lm loss": 2.16895366, "grad_norm": 0.44076896, "learning_rate": 8.397e-05, "elapsed_time_per_iteration": 4.94675732, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 46s", "remaining_time": "12h 0m 59s", "loss_scale": 1.0, "consumed_samples": 985856, "global_step/max_steps": "3851/12700"}
{"lm loss": 2.13532424, "grad_norm": 0.45062196, "learning_rate": 8.396e-05, "elapsed_time_per_iteration": 4.87174392, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 51s", "remaining_time": "12h 0m 55s", "loss_scale": 1.0, "consumed_samples": 986112, "global_step/max_steps": "3852/12700"}
{"lm loss": 2.15121579, "grad_norm": 0.39152694, "learning_rate": 8.395e-05, "elapsed_time_per_iteration": 4.82435536, "memory(GiB)": 28.98, "elapsed_time": "5h 13m 56s", "remaining_time": "12h 0m 49s", "loss_scale": 1.0, "consumed_samples": 986368, "global_step/max_steps": "3853/12700"}
{"lm loss": 2.13619614, "grad_norm": 0.42291358, "learning_rate": 8.394e-05, "elapsed_time_per_iteration": 4.84134054, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 0s", "remaining_time": "12h 0m 44s", "loss_scale": 1.0, "consumed_samples": 986624, "global_step/max_steps": "3854/12700"}
{"lm loss": 2.12155318, "grad_norm": 0.41647664, "learning_rate": 8.393e-05, "elapsed_time_per_iteration": 4.84255171, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 5s", "remaining_time": "12h 0m 39s", "loss_scale": 1.0, "consumed_samples": 986880, "global_step/max_steps": "3855/12700"}
{"lm loss": 2.16198587, "grad_norm": 0.43209231, "learning_rate": 8.392e-05, "elapsed_time_per_iteration": 4.81240964, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 10s", "remaining_time": "12h 0m 34s", "loss_scale": 1.0, "consumed_samples": 987136, "global_step/max_steps": "3856/12700"}
{"lm loss": 2.14779258, "grad_norm": 0.41960463, "learning_rate": 8.391e-05, "elapsed_time_per_iteration": 4.85885382, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 15s", "remaining_time": "12h 0m 29s", "loss_scale": 1.0, "consumed_samples": 987392, "global_step/max_steps": "3857/12700"}
{"lm loss": 2.14123535, "grad_norm": 0.39553905, "learning_rate": 8.39e-05, "elapsed_time_per_iteration": 4.82009482, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 20s", "remaining_time": "12h 0m 24s", "loss_scale": 1.0, "consumed_samples": 987648, "global_step/max_steps": "3858/12700"}
{"lm loss": 2.16788173, "grad_norm": 0.43062299, "learning_rate": 8.389e-05, "elapsed_time_per_iteration": 4.86876178, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 25s", "remaining_time": "12h 0m 19s", "loss_scale": 1.0, "consumed_samples": 987904, "global_step/max_steps": "3859/12700"}
{"lm loss": 2.14326048, "grad_norm": 0.42490354, "learning_rate": 8.388e-05, "elapsed_time_per_iteration": 4.8255477, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 29s", "remaining_time": "12h 0m 14s", "loss_scale": 1.0, "consumed_samples": 988160, "global_step/max_steps": "3860/12700"}
{"lm loss": 2.17152023, "grad_norm": 0.40219125, "learning_rate": 8.387e-05, "elapsed_time_per_iteration": 4.92281651, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 34s", "remaining_time": "12h 0m 10s", "loss_scale": 1.0, "consumed_samples": 988416, "global_step/max_steps": "3861/12700"}
{"lm loss": 2.15784431, "grad_norm": 0.40925783, "learning_rate": 8.386e-05, "elapsed_time_per_iteration": 5.48386192, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 40s", "remaining_time": "12h 0m 6s", "loss_scale": 1.0, "consumed_samples": 988672, "global_step/max_steps": "3862/12700"}
{"lm loss": 2.12887692, "grad_norm": 0.42466417, "learning_rate": 8.385e-05, "elapsed_time_per_iteration": 4.86787915, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 45s", "remaining_time": "12h 0m 1s", "loss_scale": 1.0, "consumed_samples": 988928, "global_step/max_steps": "3863/12700"}
{"lm loss": 2.15694141, "grad_norm": 0.36393231, "learning_rate": 8.384e-05, "elapsed_time_per_iteration": 4.84672499, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 50s", "remaining_time": "11h 59m 56s", "loss_scale": 1.0, "consumed_samples": 989184, "global_step/max_steps": "3864/12700"}
{"lm loss": 2.15747714, "grad_norm": 0.44862741, "learning_rate": 8.383e-05, "elapsed_time_per_iteration": 4.98520541, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 54s", "remaining_time": "11h 59m 52s", "loss_scale": 1.0, "consumed_samples": 989440, "global_step/max_steps": "3865/12700"}
{"lm loss": 2.1329987, "grad_norm": 0.42210907, "learning_rate": 8.382e-05, "elapsed_time_per_iteration": 4.92294383, "memory(GiB)": 28.98, "elapsed_time": "5h 14m 59s", "remaining_time": "11h 59m 47s", "loss_scale": 1.0, "consumed_samples": 989696, "global_step/max_steps": "3866/12700"}
{"lm loss": 2.10875368, "grad_norm": 0.392223, "learning_rate": 8.381e-05, "elapsed_time_per_iteration": 4.89204931, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 4s", "remaining_time": "11h 59m 42s", "loss_scale": 1.0, "consumed_samples": 989952, "global_step/max_steps": "3867/12700"}
{"lm loss": 2.12915397, "grad_norm": 0.4078798, "learning_rate": 8.381e-05, "elapsed_time_per_iteration": 4.84731483, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 9s", "remaining_time": "11h 59m 37s", "loss_scale": 1.0, "consumed_samples": 990208, "global_step/max_steps": "3868/12700"}
{"lm loss": 2.13917303, "grad_norm": 0.40978232, "learning_rate": 8.38e-05, "elapsed_time_per_iteration": 4.85247493, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 14s", "remaining_time": "11h 59m 32s", "loss_scale": 1.0, "consumed_samples": 990464, "global_step/max_steps": "3869/12700"}
{"lm loss": 2.11182904, "grad_norm": 0.38153288, "learning_rate": 8.379e-05, "elapsed_time_per_iteration": 4.93022013, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 19s", "remaining_time": "11h 59m 27s", "loss_scale": 1.0, "consumed_samples": 990720, "global_step/max_steps": "3870/12700"}
{"lm loss": 2.14571595, "grad_norm": 0.39855224, "learning_rate": 8.378e-05, "elapsed_time_per_iteration": 4.9311502, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 24s", "remaining_time": "11h 59m 22s", "loss_scale": 1.0, "consumed_samples": 990976, "global_step/max_steps": "3871/12700"}
{"lm loss": 2.14896655, "grad_norm": 0.43644115, "learning_rate": 8.377e-05, "elapsed_time_per_iteration": 4.83642721, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 29s", "remaining_time": "11h 59m 17s", "loss_scale": 1.0, "consumed_samples": 991232, "global_step/max_steps": "3872/12700"}
{"lm loss": 2.16116738, "grad_norm": 0.40039888, "learning_rate": 8.376e-05, "elapsed_time_per_iteration": 4.83137822, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 34s", "remaining_time": "11h 59m 12s", "loss_scale": 1.0, "consumed_samples": 991488, "global_step/max_steps": "3873/12700"}
{"lm loss": 2.12232423, "grad_norm": 0.44767413, "learning_rate": 8.375e-05, "elapsed_time_per_iteration": 4.89184952, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 38s", "remaining_time": "11h 59m 7s", "loss_scale": 1.0, "consumed_samples": 991744, "global_step/max_steps": "3874/12700"}
{"lm loss": 2.16290784, "grad_norm": 0.45802262, "learning_rate": 8.374e-05, "elapsed_time_per_iteration": 4.87537622, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 43s", "remaining_time": "11h 59m 2s", "loss_scale": 1.0, "consumed_samples": 992000, "global_step/max_steps": "3875/12700"}
{"lm loss": 2.13025856, "grad_norm": 0.38862821, "learning_rate": 8.373e-05, "elapsed_time_per_iteration": 4.83239007, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 48s", "remaining_time": "11h 58m 57s", "loss_scale": 1.0, "consumed_samples": 992256, "global_step/max_steps": "3876/12700"}
{"lm loss": 2.10889745, "grad_norm": 0.44520774, "learning_rate": 8.372e-05, "elapsed_time_per_iteration": 4.90865564, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 53s", "remaining_time": "11h 58m 53s", "loss_scale": 1.0, "consumed_samples": 992512, "global_step/max_steps": "3877/12700"}
{"lm loss": 2.12853384, "grad_norm": 0.44275048, "learning_rate": 8.371e-05, "elapsed_time_per_iteration": 4.77035284, "memory(GiB)": 28.98, "elapsed_time": "5h 15m 58s", "remaining_time": "11h 58m 47s", "loss_scale": 1.0, "consumed_samples": 992768, "global_step/max_steps": "3878/12700"}
{"lm loss": 2.15382743, "grad_norm": 0.4154112, "learning_rate": 8.37e-05, "elapsed_time_per_iteration": 4.93476868, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 3s", "remaining_time": "11h 58m 43s", "loss_scale": 1.0, "consumed_samples": 993024, "global_step/max_steps": "3879/12700"}
{"lm loss": 2.11658502, "grad_norm": 0.40745842, "learning_rate": 8.369e-05, "elapsed_time_per_iteration": 4.88622069, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 8s", "remaining_time": "11h 58m 38s", "loss_scale": 1.0, "consumed_samples": 993280, "global_step/max_steps": "3880/12700"}
{"lm loss": 2.13729143, "grad_norm": 0.40414685, "learning_rate": 8.368e-05, "elapsed_time_per_iteration": 4.94112849, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 13s", "remaining_time": "11h 58m 33s", "loss_scale": 1.0, "consumed_samples": 993536, "global_step/max_steps": "3881/12700"}
{"lm loss": 2.12168217, "grad_norm": 0.38574639, "learning_rate": 8.367e-05, "elapsed_time_per_iteration": 5.00395751, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 18s", "remaining_time": "11h 58m 28s", "loss_scale": 1.0, "consumed_samples": 993792, "global_step/max_steps": "3882/12700"}
{"lm loss": 2.18262982, "grad_norm": 0.3847276, "learning_rate": 8.366e-05, "elapsed_time_per_iteration": 4.78999162, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 22s", "remaining_time": "11h 58m 23s", "loss_scale": 1.0, "consumed_samples": 994048, "global_step/max_steps": "3883/12700"}
{"lm loss": 2.14564705, "grad_norm": 0.37473318, "learning_rate": 8.365e-05, "elapsed_time_per_iteration": 4.91838908, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 27s", "remaining_time": "11h 58m 18s", "loss_scale": 1.0, "consumed_samples": 994304, "global_step/max_steps": "3884/12700"}
{"lm loss": 2.16686082, "grad_norm": 0.47201777, "learning_rate": 8.365e-05, "elapsed_time_per_iteration": 5.04267216, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 32s", "remaining_time": "11h 58m 14s", "loss_scale": 1.0, "consumed_samples": 994560, "global_step/max_steps": "3885/12700"}
{"lm loss": 2.13897872, "grad_norm": 0.40967989, "learning_rate": 8.364e-05, "elapsed_time_per_iteration": 4.72518373, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 37s", "remaining_time": "11h 58m 9s", "loss_scale": 1.0, "consumed_samples": 994816, "global_step/max_steps": "3886/12700"}
{"lm loss": 2.13082981, "grad_norm": 0.48067325, "learning_rate": 8.363e-05, "elapsed_time_per_iteration": 4.86265039, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 42s", "remaining_time": "11h 58m 4s", "loss_scale": 1.0, "consumed_samples": 995072, "global_step/max_steps": "3887/12700"}
{"lm loss": 2.16358709, "grad_norm": 0.49665192, "learning_rate": 8.362e-05, "elapsed_time_per_iteration": 4.88336945, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 47s", "remaining_time": "11h 57m 59s", "loss_scale": 1.0, "consumed_samples": 995328, "global_step/max_steps": "3888/12700"}
{"lm loss": 2.13700247, "grad_norm": 0.36423898, "learning_rate": 8.361e-05, "elapsed_time_per_iteration": 4.83142018, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 52s", "remaining_time": "11h 57m 54s", "loss_scale": 1.0, "consumed_samples": 995584, "global_step/max_steps": "3889/12700"}
{"lm loss": 2.1190269, "grad_norm": 0.48035502, "learning_rate": 8.36e-05, "elapsed_time_per_iteration": 4.91978598, "memory(GiB)": 28.98, "elapsed_time": "5h 16m 57s", "remaining_time": "11h 57m 49s", "loss_scale": 1.0, "consumed_samples": 995840, "global_step/max_steps": "3890/12700"}
{"lm loss": 2.14641929, "grad_norm": 0.41305402, "learning_rate": 8.359e-05, "elapsed_time_per_iteration": 4.79780865, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 1s", "remaining_time": "11h 57m 44s", "loss_scale": 1.0, "consumed_samples": 996096, "global_step/max_steps": "3891/12700"}
{"lm loss": 2.13189888, "grad_norm": 0.41970146, "learning_rate": 8.358e-05, "elapsed_time_per_iteration": 4.83355641, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 6s", "remaining_time": "11h 57m 39s", "loss_scale": 1.0, "consumed_samples": 996352, "global_step/max_steps": "3892/12700"}
{"lm loss": 2.13841152, "grad_norm": 0.46264216, "learning_rate": 8.357e-05, "elapsed_time_per_iteration": 4.90939641, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 11s", "remaining_time": "11h 57m 34s", "loss_scale": 1.0, "consumed_samples": 996608, "global_step/max_steps": "3893/12700"}
{"lm loss": 2.14809012, "grad_norm": 0.40863082, "learning_rate": 8.356e-05, "elapsed_time_per_iteration": 4.927073, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 16s", "remaining_time": "11h 57m 29s", "loss_scale": 1.0, "consumed_samples": 996864, "global_step/max_steps": "3894/12700"}
{"lm loss": 2.13795328, "grad_norm": 0.4394314, "learning_rate": 8.355e-05, "elapsed_time_per_iteration": 4.8290062, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 21s", "remaining_time": "11h 57m 24s", "loss_scale": 1.0, "consumed_samples": 997120, "global_step/max_steps": "3895/12700"}
{"lm loss": 2.11609745, "grad_norm": 0.38441291, "learning_rate": 8.354e-05, "elapsed_time_per_iteration": 4.79453349, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 26s", "remaining_time": "11h 57m 19s", "loss_scale": 1.0, "consumed_samples": 997376, "global_step/max_steps": "3896/12700"}
{"lm loss": 2.15068936, "grad_norm": 0.42518443, "learning_rate": 8.353e-05, "elapsed_time_per_iteration": 4.86311507, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 31s", "remaining_time": "11h 57m 14s", "loss_scale": 1.0, "consumed_samples": 997632, "global_step/max_steps": "3897/12700"}
{"lm loss": 2.16186166, "grad_norm": 0.40214562, "learning_rate": 8.352e-05, "elapsed_time_per_iteration": 4.88741565, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 35s", "remaining_time": "11h 57m 9s", "loss_scale": 1.0, "consumed_samples": 997888, "global_step/max_steps": "3898/12700"}
{"lm loss": 2.13668919, "grad_norm": 0.44743115, "learning_rate": 8.351e-05, "elapsed_time_per_iteration": 4.88426971, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 40s", "remaining_time": "11h 57m 4s", "loss_scale": 1.0, "consumed_samples": 998144, "global_step/max_steps": "3899/12700"}
{"lm loss": 2.08188224, "grad_norm": 0.43341887, "learning_rate": 8.35e-05, "elapsed_time_per_iteration": 4.97693634, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 45s", "remaining_time": "11h 57m 0s", "loss_scale": 1.0, "consumed_samples": 998400, "global_step/max_steps": "3900/12700"}
{"lm loss": 2.16308546, "grad_norm": 0.41491386, "learning_rate": 8.349e-05, "elapsed_time_per_iteration": 4.76386166, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 50s", "remaining_time": "11h 56m 54s", "loss_scale": 1.0, "consumed_samples": 998656, "global_step/max_steps": "3901/12700"}
{"lm loss": 2.13719177, "grad_norm": 0.40461504, "learning_rate": 8.348e-05, "elapsed_time_per_iteration": 4.92826223, "memory(GiB)": 28.98, "elapsed_time": "5h 17m 55s", "remaining_time": "11h 56m 50s", "loss_scale": 1.0, "consumed_samples": 998912, "global_step/max_steps": "3902/12700"}
{"lm loss": 2.15178084, "grad_norm": 0.42840531, "learning_rate": 8.347e-05, "elapsed_time_per_iteration": 4.96108627, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 0s", "remaining_time": "11h 56m 45s", "loss_scale": 1.0, "consumed_samples": 999168, "global_step/max_steps": "3903/12700"}
{"lm loss": 2.16991472, "grad_norm": 0.38440165, "learning_rate": 8.347e-05, "elapsed_time_per_iteration": 5.59670997, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 6s", "remaining_time": "11h 56m 42s", "loss_scale": 1.0, "consumed_samples": 999424, "global_step/max_steps": "3904/12700"}
{"lm loss": 2.16869664, "grad_norm": 0.42005217, "learning_rate": 8.346e-05, "elapsed_time_per_iteration": 4.84046078, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 10s", "remaining_time": "11h 56m 37s", "loss_scale": 1.0, "consumed_samples": 999680, "global_step/max_steps": "3905/12700"}
{"lm loss": 2.14075756, "grad_norm": 0.3989836, "learning_rate": 8.345e-05, "elapsed_time_per_iteration": 4.88625264, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 15s", "remaining_time": "11h 56m 32s", "loss_scale": 1.0, "consumed_samples": 999936, "global_step/max_steps": "3906/12700"}
{"lm loss": 2.15498471, "grad_norm": 0.40298799, "learning_rate": 8.344e-05, "elapsed_time_per_iteration": 4.74179196, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 20s", "remaining_time": "11h 56m 27s", "loss_scale": 1.0, "consumed_samples": 1000192, "global_step/max_steps": "3907/12700"}
{"lm loss": 2.14850402, "grad_norm": 0.39746976, "learning_rate": 8.343e-05, "elapsed_time_per_iteration": 4.91780972, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 25s", "remaining_time": "11h 56m 22s", "loss_scale": 1.0, "consumed_samples": 1000448, "global_step/max_steps": "3908/12700"}
{"lm loss": 2.11273026, "grad_norm": 0.39825088, "learning_rate": 8.342e-05, "elapsed_time_per_iteration": 4.89968514, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 30s", "remaining_time": "11h 56m 17s", "loss_scale": 1.0, "consumed_samples": 1000704, "global_step/max_steps": "3909/12700"}
{"lm loss": 2.14477277, "grad_norm": 0.38166714, "learning_rate": 8.341e-05, "elapsed_time_per_iteration": 4.85850239, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 35s", "remaining_time": "11h 56m 12s", "loss_scale": 1.0, "consumed_samples": 1000960, "global_step/max_steps": "3910/12700"}
{"lm loss": 2.16717291, "grad_norm": 0.40368959, "learning_rate": 8.34e-05, "elapsed_time_per_iteration": 4.87137389, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 40s", "remaining_time": "11h 56m 7s", "loss_scale": 1.0, "consumed_samples": 1001216, "global_step/max_steps": "3911/12700"}
{"lm loss": 2.13494182, "grad_norm": 0.37574181, "learning_rate": 8.339e-05, "elapsed_time_per_iteration": 4.84215212, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 44s", "remaining_time": "11h 56m 2s", "loss_scale": 1.0, "consumed_samples": 1001472, "global_step/max_steps": "3912/12700"}
{"lm loss": 2.1417594, "grad_norm": 0.42970461, "learning_rate": 8.338e-05, "elapsed_time_per_iteration": 4.98056769, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 49s", "remaining_time": "11h 55m 57s", "loss_scale": 1.0, "consumed_samples": 1001728, "global_step/max_steps": "3913/12700"}
{"lm loss": 2.13386393, "grad_norm": 0.42912182, "learning_rate": 8.337e-05, "elapsed_time_per_iteration": 4.85632944, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 54s", "remaining_time": "11h 55m 52s", "loss_scale": 1.0, "consumed_samples": 1001984, "global_step/max_steps": "3914/12700"}
{"lm loss": 2.13160443, "grad_norm": 0.42016366, "learning_rate": 8.336e-05, "elapsed_time_per_iteration": 4.81962085, "memory(GiB)": 28.98, "elapsed_time": "5h 18m 59s", "remaining_time": "11h 55m 47s", "loss_scale": 1.0, "consumed_samples": 1002240, "global_step/max_steps": "3915/12700"}
{"lm loss": 2.11245537, "grad_norm": 0.39974472, "learning_rate": 8.335e-05, "elapsed_time_per_iteration": 4.8392992, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 4s", "remaining_time": "11h 55m 42s", "loss_scale": 1.0, "consumed_samples": 1002496, "global_step/max_steps": "3916/12700"}
{"lm loss": 2.12934589, "grad_norm": 0.40107653, "learning_rate": 8.334e-05, "elapsed_time_per_iteration": 5.00818777, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 9s", "remaining_time": "11h 55m 38s", "loss_scale": 1.0, "consumed_samples": 1002752, "global_step/max_steps": "3917/12700"}
{"lm loss": 2.09679294, "grad_norm": 0.38253364, "learning_rate": 8.333e-05, "elapsed_time_per_iteration": 4.92743778, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 14s", "remaining_time": "11h 55m 33s", "loss_scale": 1.0, "consumed_samples": 1003008, "global_step/max_steps": "3918/12700"}
{"lm loss": 2.14822006, "grad_norm": 0.39014885, "learning_rate": 8.332e-05, "elapsed_time_per_iteration": 4.84625578, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 19s", "remaining_time": "11h 55m 28s", "loss_scale": 1.0, "consumed_samples": 1003264, "global_step/max_steps": "3919/12700"}
{"lm loss": 2.1476016, "grad_norm": 0.3818891, "learning_rate": 8.331e-05, "elapsed_time_per_iteration": 4.83173609, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 23s", "remaining_time": "11h 55m 23s", "loss_scale": 1.0, "consumed_samples": 1003520, "global_step/max_steps": "3920/12700"}
{"lm loss": 2.13175035, "grad_norm": 0.42147589, "learning_rate": 8.33e-05, "elapsed_time_per_iteration": 4.83157158, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 28s", "remaining_time": "11h 55m 18s", "loss_scale": 1.0, "consumed_samples": 1003776, "global_step/max_steps": "3921/12700"}
{"lm loss": 2.16006255, "grad_norm": 0.4059242, "learning_rate": 8.329e-05, "elapsed_time_per_iteration": 4.91759372, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 33s", "remaining_time": "11h 55m 13s", "loss_scale": 1.0, "consumed_samples": 1004032, "global_step/max_steps": "3922/12700"}
{"lm loss": 2.12496662, "grad_norm": 0.37854835, "learning_rate": 8.328e-05, "elapsed_time_per_iteration": 4.91500449, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 38s", "remaining_time": "11h 55m 8s", "loss_scale": 1.0, "consumed_samples": 1004288, "global_step/max_steps": "3923/12700"}
{"lm loss": 2.12901306, "grad_norm": 0.39197907, "learning_rate": 8.327e-05, "elapsed_time_per_iteration": 4.83453584, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 43s", "remaining_time": "11h 55m 3s", "loss_scale": 1.0, "consumed_samples": 1004544, "global_step/max_steps": "3924/12700"}
{"lm loss": 2.10780263, "grad_norm": 0.3694835, "learning_rate": 8.327e-05, "elapsed_time_per_iteration": 4.86982036, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 48s", "remaining_time": "11h 54m 58s", "loss_scale": 1.0, "consumed_samples": 1004800, "global_step/max_steps": "3925/12700"}
{"lm loss": 2.13492107, "grad_norm": 0.3575508, "learning_rate": 8.326e-05, "elapsed_time_per_iteration": 4.88907933, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 53s", "remaining_time": "11h 54m 53s", "loss_scale": 1.0, "consumed_samples": 1005056, "global_step/max_steps": "3926/12700"}
{"lm loss": 2.12612557, "grad_norm": 0.39177775, "learning_rate": 8.325e-05, "elapsed_time_per_iteration": 4.91574788, "memory(GiB)": 28.98, "elapsed_time": "5h 19m 58s", "remaining_time": "11h 54m 49s", "loss_scale": 1.0, "consumed_samples": 1005312, "global_step/max_steps": "3927/12700"}
{"lm loss": 2.15534902, "grad_norm": 0.36515597, "learning_rate": 8.324e-05, "elapsed_time_per_iteration": 4.90220022, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 3s", "remaining_time": "11h 54m 44s", "loss_scale": 1.0, "consumed_samples": 1005568, "global_step/max_steps": "3928/12700"}
{"lm loss": 2.13704872, "grad_norm": 0.41067719, "learning_rate": 8.323e-05, "elapsed_time_per_iteration": 4.97934437, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 8s", "remaining_time": "11h 54m 39s", "loss_scale": 1.0, "consumed_samples": 1005824, "global_step/max_steps": "3929/12700"}
{"lm loss": 2.11978555, "grad_norm": 0.38483202, "learning_rate": 8.322e-05, "elapsed_time_per_iteration": 4.90813613, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 12s", "remaining_time": "11h 54m 34s", "loss_scale": 1.0, "consumed_samples": 1006080, "global_step/max_steps": "3930/12700"}
{"lm loss": 2.1633606, "grad_norm": 0.39855403, "learning_rate": 8.321e-05, "elapsed_time_per_iteration": 4.86696696, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 17s", "remaining_time": "11h 54m 29s", "loss_scale": 1.0, "consumed_samples": 1006336, "global_step/max_steps": "3931/12700"}
{"lm loss": 2.15526605, "grad_norm": 0.36367711, "learning_rate": 8.32e-05, "elapsed_time_per_iteration": 4.92169356, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 22s", "remaining_time": "11h 54m 24s", "loss_scale": 1.0, "consumed_samples": 1006592, "global_step/max_steps": "3932/12700"}
{"lm loss": 2.16395593, "grad_norm": 0.41174909, "learning_rate": 8.319e-05, "elapsed_time_per_iteration": 4.77414989, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 27s", "remaining_time": "11h 54m 19s", "loss_scale": 1.0, "consumed_samples": 1006848, "global_step/max_steps": "3933/12700"}
{"lm loss": 2.16284776, "grad_norm": 0.36580494, "learning_rate": 8.318e-05, "elapsed_time_per_iteration": 4.81632233, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 32s", "remaining_time": "11h 54m 14s", "loss_scale": 1.0, "consumed_samples": 1007104, "global_step/max_steps": "3934/12700"}
{"lm loss": 2.11903977, "grad_norm": 0.38306674, "learning_rate": 8.317e-05, "elapsed_time_per_iteration": 4.91933227, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 37s", "remaining_time": "11h 54m 9s", "loss_scale": 1.0, "consumed_samples": 1007360, "global_step/max_steps": "3935/12700"}
{"lm loss": 2.13677859, "grad_norm": 0.39166704, "learning_rate": 8.316e-05, "elapsed_time_per_iteration": 4.90601182, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 42s", "remaining_time": "11h 54m 5s", "loss_scale": 1.0, "consumed_samples": 1007616, "global_step/max_steps": "3936/12700"}
{"lm loss": 2.11373544, "grad_norm": 0.38582498, "learning_rate": 8.315e-05, "elapsed_time_per_iteration": 5.00883436, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 47s", "remaining_time": "11h 54m 0s", "loss_scale": 1.0, "consumed_samples": 1007872, "global_step/max_steps": "3937/12700"}
{"lm loss": 2.12099004, "grad_norm": 0.3983236, "learning_rate": 8.314e-05, "elapsed_time_per_iteration": 4.90316701, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 52s", "remaining_time": "11h 53m 55s", "loss_scale": 1.0, "consumed_samples": 1008128, "global_step/max_steps": "3938/12700"}
{"lm loss": 2.08672929, "grad_norm": 0.4097659, "learning_rate": 8.313e-05, "elapsed_time_per_iteration": 4.85474777, "memory(GiB)": 28.98, "elapsed_time": "5h 20m 56s", "remaining_time": "11h 53m 50s", "loss_scale": 1.0, "consumed_samples": 1008384, "global_step/max_steps": "3939/12700"}
{"lm loss": 2.17320776, "grad_norm": 0.39605045, "learning_rate": 8.312e-05, "elapsed_time_per_iteration": 4.79752493, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 1s", "remaining_time": "11h 53m 45s", "loss_scale": 1.0, "consumed_samples": 1008640, "global_step/max_steps": "3940/12700"}
{"lm loss": 2.11833525, "grad_norm": 0.38840953, "learning_rate": 8.311e-05, "elapsed_time_per_iteration": 4.9314878, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 6s", "remaining_time": "11h 53m 40s", "loss_scale": 1.0, "consumed_samples": 1008896, "global_step/max_steps": "3941/12700"}
{"lm loss": 2.10520363, "grad_norm": 0.47621948, "learning_rate": 8.31e-05, "elapsed_time_per_iteration": 4.94827437, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 11s", "remaining_time": "11h 53m 35s", "loss_scale": 1.0, "consumed_samples": 1009152, "global_step/max_steps": "3942/12700"}
{"lm loss": 2.13025594, "grad_norm": 0.39274475, "learning_rate": 8.309e-05, "elapsed_time_per_iteration": 4.8988483, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 16s", "remaining_time": "11h 53m 31s", "loss_scale": 1.0, "consumed_samples": 1009408, "global_step/max_steps": "3943/12700"}
{"lm loss": 2.14258432, "grad_norm": 0.40312797, "learning_rate": 8.308e-05, "elapsed_time_per_iteration": 4.8883245, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 21s", "remaining_time": "11h 53m 26s", "loss_scale": 1.0, "consumed_samples": 1009664, "global_step/max_steps": "3944/12700"}
{"lm loss": 2.12760139, "grad_norm": 0.46040142, "learning_rate": 8.307e-05, "elapsed_time_per_iteration": 4.93887043, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 26s", "remaining_time": "11h 53m 21s", "loss_scale": 1.0, "consumed_samples": 1009920, "global_step/max_steps": "3945/12700"}
{"lm loss": 2.15272641, "grad_norm": 0.39649603, "learning_rate": 8.306e-05, "elapsed_time_per_iteration": 4.91593003, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 31s", "remaining_time": "11h 53m 16s", "loss_scale": 1.0, "consumed_samples": 1010176, "global_step/max_steps": "3946/12700"}
{"lm loss": 2.11019421, "grad_norm": 0.45486173, "learning_rate": 8.305e-05, "elapsed_time_per_iteration": 4.84977627, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 36s", "remaining_time": "11h 53m 11s", "loss_scale": 1.0, "consumed_samples": 1010432, "global_step/max_steps": "3947/12700"}
{"lm loss": 2.14717317, "grad_norm": 0.45476061, "learning_rate": 8.305e-05, "elapsed_time_per_iteration": 4.9574337, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 41s", "remaining_time": "11h 53m 6s", "loss_scale": 1.0, "consumed_samples": 1010688, "global_step/max_steps": "3948/12700"}
{"lm loss": 2.11058283, "grad_norm": 0.44039229, "learning_rate": 8.304e-05, "elapsed_time_per_iteration": 4.95401239, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 45s", "remaining_time": "11h 53m 2s", "loss_scale": 1.0, "consumed_samples": 1010944, "global_step/max_steps": "3949/12700"}
{"lm loss": 2.14030337, "grad_norm": 0.45557567, "learning_rate": 8.303e-05, "elapsed_time_per_iteration": 4.98391414, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 50s", "remaining_time": "11h 52m 57s", "loss_scale": 1.0, "consumed_samples": 1011200, "global_step/max_steps": "3950/12700"}
{"lm loss": 2.14765501, "grad_norm": 0.41111115, "learning_rate": 8.302e-05, "elapsed_time_per_iteration": 4.81266785, "memory(GiB)": 28.98, "elapsed_time": "5h 21m 55s", "remaining_time": "11h 52m 52s", "loss_scale": 1.0, "consumed_samples": 1011456, "global_step/max_steps": "3951/12700"}
{"lm loss": 2.12055492, "grad_norm": 0.39369667, "learning_rate": 8.301e-05, "elapsed_time_per_iteration": 4.90748787, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 0s", "remaining_time": "11h 52m 47s", "loss_scale": 1.0, "consumed_samples": 1011712, "global_step/max_steps": "3952/12700"}
{"lm loss": 2.12506938, "grad_norm": 0.40395245, "learning_rate": 8.3e-05, "elapsed_time_per_iteration": 4.83977151, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 5s", "remaining_time": "11h 52m 42s", "loss_scale": 1.0, "consumed_samples": 1011968, "global_step/max_steps": "3953/12700"}
{"lm loss": 2.1456883, "grad_norm": 0.37037072, "learning_rate": 8.299e-05, "elapsed_time_per_iteration": 5.10115457, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 10s", "remaining_time": "11h 52m 38s", "loss_scale": 1.0, "consumed_samples": 1012224, "global_step/max_steps": "3954/12700"}
{"lm loss": 2.09527659, "grad_norm": 0.41319448, "learning_rate": 8.298e-05, "elapsed_time_per_iteration": 5.01991534, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 15s", "remaining_time": "11h 52m 33s", "loss_scale": 1.0, "consumed_samples": 1012480, "global_step/max_steps": "3955/12700"}
{"lm loss": 2.15351224, "grad_norm": 0.40649295, "learning_rate": 8.297e-05, "elapsed_time_per_iteration": 4.83167148, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 20s", "remaining_time": "11h 52m 28s", "loss_scale": 1.0, "consumed_samples": 1012736, "global_step/max_steps": "3956/12700"}
{"lm loss": 2.11205006, "grad_norm": 0.39551085, "learning_rate": 8.296e-05, "elapsed_time_per_iteration": 4.87062955, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 25s", "remaining_time": "11h 52m 23s", "loss_scale": 1.0, "consumed_samples": 1012992, "global_step/max_steps": "3957/12700"}
{"lm loss": 2.10305047, "grad_norm": 0.43888265, "learning_rate": 8.295e-05, "elapsed_time_per_iteration": 4.92164779, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 30s", "remaining_time": "11h 52m 18s", "loss_scale": 1.0, "consumed_samples": 1013248, "global_step/max_steps": "3958/12700"}
{"lm loss": 2.15910411, "grad_norm": 0.39158812, "learning_rate": 8.294e-05, "elapsed_time_per_iteration": 4.7857399, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 35s", "remaining_time": "11h 52m 13s", "loss_scale": 1.0, "consumed_samples": 1013504, "global_step/max_steps": "3959/12700"}
{"lm loss": 2.16070962, "grad_norm": 0.44244057, "learning_rate": 8.293e-05, "elapsed_time_per_iteration": 4.87737179, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 39s", "remaining_time": "11h 52m 8s", "loss_scale": 1.0, "consumed_samples": 1013760, "global_step/max_steps": "3960/12700"}
{"lm loss": 2.13516355, "grad_norm": 0.40756449, "learning_rate": 8.292e-05, "elapsed_time_per_iteration": 4.86357474, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 44s", "remaining_time": "11h 52m 3s", "loss_scale": 1.0, "consumed_samples": 1014016, "global_step/max_steps": "3961/12700"}
{"lm loss": 2.12705088, "grad_norm": 0.39380574, "learning_rate": 8.291e-05, "elapsed_time_per_iteration": 4.87794375, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 49s", "remaining_time": "11h 51m 58s", "loss_scale": 1.0, "consumed_samples": 1014272, "global_step/max_steps": "3962/12700"}
{"lm loss": 2.15228653, "grad_norm": 0.43419865, "learning_rate": 8.29e-05, "elapsed_time_per_iteration": 4.80841565, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 54s", "remaining_time": "11h 51m 53s", "loss_scale": 1.0, "consumed_samples": 1014528, "global_step/max_steps": "3963/12700"}
{"lm loss": 2.1621449, "grad_norm": 0.40656251, "learning_rate": 8.289e-05, "elapsed_time_per_iteration": 4.83661604, "memory(GiB)": 28.98, "elapsed_time": "5h 22m 59s", "remaining_time": "11h 51m 48s", "loss_scale": 1.0, "consumed_samples": 1014784, "global_step/max_steps": "3964/12700"}
{"lm loss": 2.1493957, "grad_norm": 0.39638132, "learning_rate": 8.288e-05, "elapsed_time_per_iteration": 4.83341074, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 4s", "remaining_time": "11h 51m 43s", "loss_scale": 1.0, "consumed_samples": 1015040, "global_step/max_steps": "3965/12700"}
{"lm loss": 2.15005755, "grad_norm": 0.38994357, "learning_rate": 8.287e-05, "elapsed_time_per_iteration": 4.88309193, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 9s", "remaining_time": "11h 51m 38s", "loss_scale": 1.0, "consumed_samples": 1015296, "global_step/max_steps": "3966/12700"}
{"lm loss": 2.17259908, "grad_norm": 0.38972187, "learning_rate": 8.286e-05, "elapsed_time_per_iteration": 4.88007689, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 13s", "remaining_time": "11h 51m 33s", "loss_scale": 1.0, "consumed_samples": 1015552, "global_step/max_steps": "3967/12700"}
{"lm loss": 2.14594698, "grad_norm": 0.41269171, "learning_rate": 8.285e-05, "elapsed_time_per_iteration": 4.82275176, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 18s", "remaining_time": "11h 51m 28s", "loss_scale": 1.0, "consumed_samples": 1015808, "global_step/max_steps": "3968/12700"}
{"lm loss": 2.09056211, "grad_norm": 0.36996448, "learning_rate": 8.284e-05, "elapsed_time_per_iteration": 4.77321744, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 23s", "remaining_time": "11h 51m 23s", "loss_scale": 1.0, "consumed_samples": 1016064, "global_step/max_steps": "3969/12700"}
{"lm loss": 2.15256572, "grad_norm": 0.39936617, "learning_rate": 8.283e-05, "elapsed_time_per_iteration": 4.90025353, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 28s", "remaining_time": "11h 51m 18s", "loss_scale": 1.0, "consumed_samples": 1016320, "global_step/max_steps": "3970/12700"}
{"lm loss": 2.13401484, "grad_norm": 0.39448106, "learning_rate": 8.282e-05, "elapsed_time_per_iteration": 4.90605211, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 33s", "remaining_time": "11h 51m 14s", "loss_scale": 1.0, "consumed_samples": 1016576, "global_step/max_steps": "3971/12700"}
{"lm loss": 2.13993406, "grad_norm": 0.37068591, "learning_rate": 8.281e-05, "elapsed_time_per_iteration": 4.8167007, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 38s", "remaining_time": "11h 51m 9s", "loss_scale": 1.0, "consumed_samples": 1016832, "global_step/max_steps": "3972/12700"}
{"lm loss": 2.12429428, "grad_norm": 0.40487757, "learning_rate": 8.28e-05, "elapsed_time_per_iteration": 4.80497742, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 42s", "remaining_time": "11h 51m 3s", "loss_scale": 1.0, "consumed_samples": 1017088, "global_step/max_steps": "3973/12700"}
{"lm loss": 2.12241602, "grad_norm": 0.37347877, "learning_rate": 8.279e-05, "elapsed_time_per_iteration": 4.79313183, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 47s", "remaining_time": "11h 50m 58s", "loss_scale": 1.0, "consumed_samples": 1017344, "global_step/max_steps": "3974/12700"}
{"lm loss": 2.14177251, "grad_norm": 0.36155888, "learning_rate": 8.279e-05, "elapsed_time_per_iteration": 4.85424781, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 52s", "remaining_time": "11h 50m 53s", "loss_scale": 1.0, "consumed_samples": 1017600, "global_step/max_steps": "3975/12700"}
{"lm loss": 2.11438084, "grad_norm": 0.38574532, "learning_rate": 8.278e-05, "elapsed_time_per_iteration": 4.88810563, "memory(GiB)": 28.98, "elapsed_time": "5h 23m 57s", "remaining_time": "11h 50m 49s", "loss_scale": 1.0, "consumed_samples": 1017856, "global_step/max_steps": "3976/12700"}
{"lm loss": 2.11433196, "grad_norm": 0.40244287, "learning_rate": 8.277e-05, "elapsed_time_per_iteration": 4.92184234, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 2s", "remaining_time": "11h 50m 44s", "loss_scale": 1.0, "consumed_samples": 1018112, "global_step/max_steps": "3977/12700"}
{"lm loss": 2.13747287, "grad_norm": 0.4129968, "learning_rate": 8.276e-05, "elapsed_time_per_iteration": 4.80882859, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 7s", "remaining_time": "11h 50m 39s", "loss_scale": 1.0, "consumed_samples": 1018368, "global_step/max_steps": "3978/12700"}
{"lm loss": 2.13196015, "grad_norm": 0.3734763, "learning_rate": 8.275e-05, "elapsed_time_per_iteration": 4.85197425, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 12s", "remaining_time": "11h 50m 34s", "loss_scale": 1.0, "consumed_samples": 1018624, "global_step/max_steps": "3979/12700"}
{"lm loss": 2.12640357, "grad_norm": 0.41600278, "learning_rate": 8.274e-05, "elapsed_time_per_iteration": 4.88065529, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 16s", "remaining_time": "11h 50m 29s", "loss_scale": 1.0, "consumed_samples": 1018880, "global_step/max_steps": "3980/12700"}
{"lm loss": 2.09656596, "grad_norm": 0.39896551, "learning_rate": 8.273e-05, "elapsed_time_per_iteration": 4.92050481, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 21s", "remaining_time": "11h 50m 24s", "loss_scale": 1.0, "consumed_samples": 1019136, "global_step/max_steps": "3981/12700"}
{"lm loss": 2.12634087, "grad_norm": 0.3776128, "learning_rate": 8.272e-05, "elapsed_time_per_iteration": 4.8808465, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 26s", "remaining_time": "11h 50m 19s", "loss_scale": 1.0, "consumed_samples": 1019392, "global_step/max_steps": "3982/12700"}
{"lm loss": 2.11979723, "grad_norm": 0.37456059, "learning_rate": 8.271e-05, "elapsed_time_per_iteration": 4.92087889, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 31s", "remaining_time": "11h 50m 14s", "loss_scale": 1.0, "consumed_samples": 1019648, "global_step/max_steps": "3983/12700"}
{"lm loss": 2.14052558, "grad_norm": 0.38248855, "learning_rate": 8.27e-05, "elapsed_time_per_iteration": 4.8789618, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 36s", "remaining_time": "11h 50m 9s", "loss_scale": 1.0, "consumed_samples": 1019904, "global_step/max_steps": "3984/12700"}
{"lm loss": 2.10895681, "grad_norm": 0.36204305, "learning_rate": 8.269e-05, "elapsed_time_per_iteration": 4.95959496, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 41s", "remaining_time": "11h 50m 5s", "loss_scale": 1.0, "consumed_samples": 1020160, "global_step/max_steps": "3985/12700"}
{"lm loss": 2.14307141, "grad_norm": 0.41361126, "learning_rate": 8.268e-05, "elapsed_time_per_iteration": 4.80458021, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 46s", "remaining_time": "11h 50m 0s", "loss_scale": 1.0, "consumed_samples": 1020416, "global_step/max_steps": "3986/12700"}
{"lm loss": 2.12331247, "grad_norm": 0.37599745, "learning_rate": 8.267e-05, "elapsed_time_per_iteration": 4.88342738, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 51s", "remaining_time": "11h 49m 55s", "loss_scale": 1.0, "consumed_samples": 1020672, "global_step/max_steps": "3987/12700"}
{"lm loss": 2.1604991, "grad_norm": 0.37957484, "learning_rate": 8.266e-05, "elapsed_time_per_iteration": 4.92165565, "memory(GiB)": 28.98, "elapsed_time": "5h 24m 56s", "remaining_time": "11h 49m 50s", "loss_scale": 1.0, "consumed_samples": 1020928, "global_step/max_steps": "3988/12700"}
{"lm loss": 2.14233041, "grad_norm": 0.39748374, "learning_rate": 8.265e-05, "elapsed_time_per_iteration": 4.94490671, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 1s", "remaining_time": "11h 49m 45s", "loss_scale": 1.0, "consumed_samples": 1021184, "global_step/max_steps": "3989/12700"}
{"lm loss": 2.13094664, "grad_norm": 0.36612177, "learning_rate": 8.264e-05, "elapsed_time_per_iteration": 4.75689197, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 5s", "remaining_time": "11h 49m 40s", "loss_scale": 1.0, "consumed_samples": 1021440, "global_step/max_steps": "3990/12700"}
{"lm loss": 2.14721799, "grad_norm": 0.42189327, "learning_rate": 8.263e-05, "elapsed_time_per_iteration": 4.87893963, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 10s", "remaining_time": "11h 49m 35s", "loss_scale": 1.0, "consumed_samples": 1021696, "global_step/max_steps": "3991/12700"}
{"lm loss": 2.13096881, "grad_norm": 0.39249805, "learning_rate": 8.262e-05, "elapsed_time_per_iteration": 4.78150153, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 15s", "remaining_time": "11h 49m 30s", "loss_scale": 1.0, "consumed_samples": 1021952, "global_step/max_steps": "3992/12700"}
{"lm loss": 2.13337588, "grad_norm": 0.41335171, "learning_rate": 8.261e-05, "elapsed_time_per_iteration": 4.85006428, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 20s", "remaining_time": "11h 49m 25s", "loss_scale": 1.0, "consumed_samples": 1022208, "global_step/max_steps": "3993/12700"}
{"lm loss": 2.12516284, "grad_norm": 0.39620897, "learning_rate": 8.26e-05, "elapsed_time_per_iteration": 4.87456584, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 25s", "remaining_time": "11h 49m 20s", "loss_scale": 1.0, "consumed_samples": 1022464, "global_step/max_steps": "3994/12700"}
{"lm loss": 2.15089178, "grad_norm": 0.44572666, "learning_rate": 8.259e-05, "elapsed_time_per_iteration": 4.8785243, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 30s", "remaining_time": "11h 49m 15s", "loss_scale": 1.0, "consumed_samples": 1022720, "global_step/max_steps": "3995/12700"}
{"lm loss": 2.12780452, "grad_norm": 0.38888219, "learning_rate": 8.258e-05, "elapsed_time_per_iteration": 4.86913133, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 34s", "remaining_time": "11h 49m 10s", "loss_scale": 1.0, "consumed_samples": 1022976, "global_step/max_steps": "3996/12700"}
{"lm loss": 2.11635494, "grad_norm": 0.41430721, "learning_rate": 8.257e-05, "elapsed_time_per_iteration": 4.93833184, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 39s", "remaining_time": "11h 49m 5s", "loss_scale": 1.0, "consumed_samples": 1023232, "global_step/max_steps": "3997/12700"}
{"lm loss": 2.13249636, "grad_norm": 0.42287186, "learning_rate": 8.256e-05, "elapsed_time_per_iteration": 4.91359043, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 44s", "remaining_time": "11h 49m 0s", "loss_scale": 1.0, "consumed_samples": 1023488, "global_step/max_steps": "3998/12700"}
{"lm loss": 2.11970973, "grad_norm": 0.38002533, "learning_rate": 8.255e-05, "elapsed_time_per_iteration": 4.82645941, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 49s", "remaining_time": "11h 48m 55s", "loss_scale": 1.0, "consumed_samples": 1023744, "global_step/max_steps": "3999/12700"}
{"lm loss": 2.1252768, "grad_norm": 0.3911089, "learning_rate": 8.254e-05, "elapsed_time_per_iteration": 4.97926641, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 54s", "remaining_time": "11h 48m 51s", "loss_scale": 1.0, "consumed_samples": 1024000, "global_step/max_steps": "4000/12700"}
{"lm loss": 2.14125371, "grad_norm": 0.3921276, "learning_rate": 8.253e-05, "elapsed_time_per_iteration": 4.81491351, "memory(GiB)": 28.98, "elapsed_time": "5h 25m 59s", "remaining_time": "11h 48m 46s", "loss_scale": 1.0, "consumed_samples": 1024256, "global_step/max_steps": "4001/12700"}
{"lm loss": 2.15944815, "grad_norm": 0.35816467, "learning_rate": 8.252e-05, "elapsed_time_per_iteration": 4.93568754, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 4s", "remaining_time": "11h 48m 41s", "loss_scale": 1.0, "consumed_samples": 1024512, "global_step/max_steps": "4002/12700"}
{"lm loss": 2.13392973, "grad_norm": 0.37565297, "learning_rate": 8.251e-05, "elapsed_time_per_iteration": 4.84831619, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 9s", "remaining_time": "11h 48m 36s", "loss_scale": 1.0, "consumed_samples": 1024768, "global_step/max_steps": "4003/12700"}
{"lm loss": 2.17111897, "grad_norm": 0.39773497, "learning_rate": 8.25e-05, "elapsed_time_per_iteration": 4.82000709, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 14s", "remaining_time": "11h 48m 31s", "loss_scale": 1.0, "consumed_samples": 1025024, "global_step/max_steps": "4004/12700"}
{"lm loss": 2.10411143, "grad_norm": 0.3754108, "learning_rate": 8.249e-05, "elapsed_time_per_iteration": 4.85981584, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 18s", "remaining_time": "11h 48m 26s", "loss_scale": 1.0, "consumed_samples": 1025280, "global_step/max_steps": "4005/12700"}
{"lm loss": 2.15179133, "grad_norm": 0.41811913, "learning_rate": 8.249e-05, "elapsed_time_per_iteration": 4.98693323, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 23s", "remaining_time": "11h 48m 21s", "loss_scale": 1.0, "consumed_samples": 1025536, "global_step/max_steps": "4006/12700"}
{"lm loss": 2.14856315, "grad_norm": 0.37275031, "learning_rate": 8.248e-05, "elapsed_time_per_iteration": 4.86804938, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 28s", "remaining_time": "11h 48m 16s", "loss_scale": 1.0, "consumed_samples": 1025792, "global_step/max_steps": "4007/12700"}
{"lm loss": 2.12007523, "grad_norm": 0.38697746, "learning_rate": 8.247e-05, "elapsed_time_per_iteration": 4.87400723, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 33s", "remaining_time": "11h 48m 11s", "loss_scale": 1.0, "consumed_samples": 1026048, "global_step/max_steps": "4008/12700"}
{"lm loss": 2.1162405, "grad_norm": 0.39391449, "learning_rate": 8.246e-05, "elapsed_time_per_iteration": 4.89235044, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 38s", "remaining_time": "11h 48m 7s", "loss_scale": 1.0, "consumed_samples": 1026304, "global_step/max_steps": "4009/12700"}
{"lm loss": 2.14173055, "grad_norm": 0.38951373, "learning_rate": 8.245e-05, "elapsed_time_per_iteration": 4.81265831, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 43s", "remaining_time": "11h 48m 2s", "loss_scale": 1.0, "consumed_samples": 1026560, "global_step/max_steps": "4010/12700"}
{"lm loss": 2.13715267, "grad_norm": 0.41572165, "learning_rate": 8.244e-05, "elapsed_time_per_iteration": 4.88016248, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 48s", "remaining_time": "11h 47m 57s", "loss_scale": 1.0, "consumed_samples": 1026816, "global_step/max_steps": "4011/12700"}
{"lm loss": 2.13292551, "grad_norm": 0.4612776, "learning_rate": 8.243e-05, "elapsed_time_per_iteration": 4.90005016, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 53s", "remaining_time": "11h 47m 52s", "loss_scale": 1.0, "consumed_samples": 1027072, "global_step/max_steps": "4012/12700"}
{"lm loss": 2.12699223, "grad_norm": 0.39491096, "learning_rate": 8.242e-05, "elapsed_time_per_iteration": 4.89032626, "memory(GiB)": 28.98, "elapsed_time": "5h 26m 57s", "remaining_time": "11h 47m 47s", "loss_scale": 1.0, "consumed_samples": 1027328, "global_step/max_steps": "4013/12700"}
{"lm loss": 2.11736321, "grad_norm": 0.41081026, "learning_rate": 8.241e-05, "elapsed_time_per_iteration": 4.89839745, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 2s", "remaining_time": "11h 47m 42s", "loss_scale": 1.0, "consumed_samples": 1027584, "global_step/max_steps": "4014/12700"}
{"lm loss": 2.1480031, "grad_norm": 0.43274096, "learning_rate": 8.24e-05, "elapsed_time_per_iteration": 4.80538321, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 7s", "remaining_time": "11h 47m 37s", "loss_scale": 1.0, "consumed_samples": 1027840, "global_step/max_steps": "4015/12700"}
{"lm loss": 2.15648198, "grad_norm": 0.36424297, "learning_rate": 8.239e-05, "elapsed_time_per_iteration": 4.81092143, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 12s", "remaining_time": "11h 47m 32s", "loss_scale": 1.0, "consumed_samples": 1028096, "global_step/max_steps": "4016/12700"}
{"lm loss": 2.12548947, "grad_norm": 0.409964, "learning_rate": 8.238e-05, "elapsed_time_per_iteration": 4.88727283, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 17s", "remaining_time": "11h 47m 27s", "loss_scale": 1.0, "consumed_samples": 1028352, "global_step/max_steps": "4017/12700"}
{"lm loss": 2.11910295, "grad_norm": 0.3899875, "learning_rate": 8.237e-05, "elapsed_time_per_iteration": 4.82340026, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 22s", "remaining_time": "11h 47m 22s", "loss_scale": 1.0, "consumed_samples": 1028608, "global_step/max_steps": "4018/12700"}
{"lm loss": 2.13349652, "grad_norm": 0.41046256, "learning_rate": 8.236e-05, "elapsed_time_per_iteration": 4.93115497, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 27s", "remaining_time": "11h 47m 17s", "loss_scale": 1.0, "consumed_samples": 1028864, "global_step/max_steps": "4019/12700"}
{"lm loss": 2.15475106, "grad_norm": 0.4118605, "learning_rate": 8.235e-05, "elapsed_time_per_iteration": 4.93006706, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 32s", "remaining_time": "11h 47m 12s", "loss_scale": 1.0, "consumed_samples": 1029120, "global_step/max_steps": "4020/12700"}
{"lm loss": 2.10325289, "grad_norm": 0.41383243, "learning_rate": 8.234e-05, "elapsed_time_per_iteration": 4.83901453, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 36s", "remaining_time": "11h 47m 7s", "loss_scale": 1.0, "consumed_samples": 1029376, "global_step/max_steps": "4021/12700"}
{"lm loss": 2.09707808, "grad_norm": 0.39218575, "learning_rate": 8.233e-05, "elapsed_time_per_iteration": 4.8559463, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 41s", "remaining_time": "11h 47m 2s", "loss_scale": 1.0, "consumed_samples": 1029632, "global_step/max_steps": "4022/12700"}
{"lm loss": 2.15223765, "grad_norm": 0.43392763, "learning_rate": 8.232e-05, "elapsed_time_per_iteration": 4.82464695, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 46s", "remaining_time": "11h 46m 57s", "loss_scale": 1.0, "consumed_samples": 1029888, "global_step/max_steps": "4023/12700"}
{"lm loss": 2.13226819, "grad_norm": 0.40722734, "learning_rate": 8.231e-05, "elapsed_time_per_iteration": 4.82759428, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 51s", "remaining_time": "11h 46m 52s", "loss_scale": 1.0, "consumed_samples": 1030144, "global_step/max_steps": "4024/12700"}
{"lm loss": 2.12023473, "grad_norm": 0.42857939, "learning_rate": 8.23e-05, "elapsed_time_per_iteration": 4.79067636, "memory(GiB)": 28.98, "elapsed_time": "5h 27m 56s", "remaining_time": "11h 46m 47s", "loss_scale": 1.0, "consumed_samples": 1030400, "global_step/max_steps": "4025/12700"}
{"lm loss": 2.10860801, "grad_norm": 0.38446346, "learning_rate": 8.229e-05, "elapsed_time_per_iteration": 4.8532114, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 1s", "remaining_time": "11h 46m 42s", "loss_scale": 1.0, "consumed_samples": 1030656, "global_step/max_steps": "4026/12700"}
{"lm loss": 2.14036632, "grad_norm": 0.44708627, "learning_rate": 8.228e-05, "elapsed_time_per_iteration": 4.87687564, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 5s", "remaining_time": "11h 46m 37s", "loss_scale": 1.0, "consumed_samples": 1030912, "global_step/max_steps": "4027/12700"}
{"lm loss": 2.13607764, "grad_norm": 0.39608693, "learning_rate": 8.227e-05, "elapsed_time_per_iteration": 4.90273643, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 10s", "remaining_time": "11h 46m 33s", "loss_scale": 1.0, "consumed_samples": 1031168, "global_step/max_steps": "4028/12700"}
{"lm loss": 2.1277585, "grad_norm": 0.40425926, "learning_rate": 8.226e-05, "elapsed_time_per_iteration": 5.09604836, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 15s", "remaining_time": "11h 46m 28s", "loss_scale": 1.0, "consumed_samples": 1031424, "global_step/max_steps": "4029/12700"}
{"lm loss": 2.11042809, "grad_norm": 0.41250837, "learning_rate": 8.225e-05, "elapsed_time_per_iteration": 5.01941013, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 20s", "remaining_time": "11h 46m 23s", "loss_scale": 1.0, "consumed_samples": 1031680, "global_step/max_steps": "4030/12700"}
{"lm loss": 2.12535691, "grad_norm": 0.41858414, "learning_rate": 8.224e-05, "elapsed_time_per_iteration": 4.81863976, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 25s", "remaining_time": "11h 46m 18s", "loss_scale": 1.0, "consumed_samples": 1031936, "global_step/max_steps": "4031/12700"}
{"lm loss": 2.11474752, "grad_norm": 0.41149622, "learning_rate": 8.223e-05, "elapsed_time_per_iteration": 4.91819239, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 30s", "remaining_time": "11h 46m 14s", "loss_scale": 1.0, "consumed_samples": 1032192, "global_step/max_steps": "4032/12700"}
{"lm loss": 2.12588334, "grad_norm": 0.38515815, "learning_rate": 8.222e-05, "elapsed_time_per_iteration": 4.94373751, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 35s", "remaining_time": "11h 46m 9s", "loss_scale": 1.0, "consumed_samples": 1032448, "global_step/max_steps": "4033/12700"}
{"lm loss": 2.12386012, "grad_norm": 0.39536873, "learning_rate": 8.221e-05, "elapsed_time_per_iteration": 4.91718388, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 40s", "remaining_time": "11h 46m 4s", "loss_scale": 1.0, "consumed_samples": 1032704, "global_step/max_steps": "4034/12700"}
{"lm loss": 2.14344764, "grad_norm": 0.40787038, "learning_rate": 8.22e-05, "elapsed_time_per_iteration": 4.956738, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 45s", "remaining_time": "11h 45m 59s", "loss_scale": 1.0, "consumed_samples": 1032960, "global_step/max_steps": "4035/12700"}
{"lm loss": 2.13650584, "grad_norm": 0.40298909, "learning_rate": 8.219e-05, "elapsed_time_per_iteration": 4.86032748, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 50s", "remaining_time": "11h 45m 54s", "loss_scale": 1.0, "consumed_samples": 1033216, "global_step/max_steps": "4036/12700"}
{"lm loss": 2.14241648, "grad_norm": 0.4225311, "learning_rate": 8.218e-05, "elapsed_time_per_iteration": 4.88233852, "memory(GiB)": 28.98, "elapsed_time": "5h 28m 55s", "remaining_time": "11h 45m 49s", "loss_scale": 1.0, "consumed_samples": 1033472, "global_step/max_steps": "4037/12700"}
{"lm loss": 2.11134505, "grad_norm": 0.38549399, "learning_rate": 8.217e-05, "elapsed_time_per_iteration": 4.85219264, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 0s", "remaining_time": "11h 45m 44s", "loss_scale": 1.0, "consumed_samples": 1033728, "global_step/max_steps": "4038/12700"}
{"lm loss": 2.10705733, "grad_norm": 0.45073539, "learning_rate": 8.216e-05, "elapsed_time_per_iteration": 4.93603945, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 5s", "remaining_time": "11h 45m 40s", "loss_scale": 1.0, "consumed_samples": 1033984, "global_step/max_steps": "4039/12700"}
{"lm loss": 2.15607882, "grad_norm": 0.41975796, "learning_rate": 8.215e-05, "elapsed_time_per_iteration": 4.86984825, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 9s", "remaining_time": "11h 45m 35s", "loss_scale": 1.0, "consumed_samples": 1034240, "global_step/max_steps": "4040/12700"}
{"lm loss": 2.13480425, "grad_norm": 0.39910671, "learning_rate": 8.214e-05, "elapsed_time_per_iteration": 4.8363049, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 14s", "remaining_time": "11h 45m 30s", "loss_scale": 1.0, "consumed_samples": 1034496, "global_step/max_steps": "4041/12700"}
{"lm loss": 2.15498519, "grad_norm": 0.42535934, "learning_rate": 8.213e-05, "elapsed_time_per_iteration": 4.92212343, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 19s", "remaining_time": "11h 45m 25s", "loss_scale": 1.0, "consumed_samples": 1034752, "global_step/max_steps": "4042/12700"}
{"lm loss": 2.14939857, "grad_norm": 0.47811145, "learning_rate": 8.212e-05, "elapsed_time_per_iteration": 4.77623391, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 24s", "remaining_time": "11h 45m 20s", "loss_scale": 1.0, "consumed_samples": 1035008, "global_step/max_steps": "4043/12700"}
{"lm loss": 2.13549542, "grad_norm": 0.45382544, "learning_rate": 8.211e-05, "elapsed_time_per_iteration": 4.92098022, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 29s", "remaining_time": "11h 45m 15s", "loss_scale": 1.0, "consumed_samples": 1035264, "global_step/max_steps": "4044/12700"}
{"lm loss": 2.14633083, "grad_norm": 0.43093345, "learning_rate": 8.21e-05, "elapsed_time_per_iteration": 4.86199331, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 34s", "remaining_time": "11h 45m 10s", "loss_scale": 1.0, "consumed_samples": 1035520, "global_step/max_steps": "4045/12700"}
{"lm loss": 2.13809037, "grad_norm": 0.4390648, "learning_rate": 8.209e-05, "elapsed_time_per_iteration": 4.80464959, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 39s", "remaining_time": "11h 45m 5s", "loss_scale": 1.0, "consumed_samples": 1035776, "global_step/max_steps": "4046/12700"}
{"lm loss": 2.14686179, "grad_norm": 0.46895531, "learning_rate": 8.208e-05, "elapsed_time_per_iteration": 4.88798094, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 43s", "remaining_time": "11h 45m 0s", "loss_scale": 1.0, "consumed_samples": 1036032, "global_step/max_steps": "4047/12700"}
{"lm loss": 2.14181972, "grad_norm": 0.4298591, "learning_rate": 8.208e-05, "elapsed_time_per_iteration": 4.81212664, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 48s", "remaining_time": "11h 44m 55s", "loss_scale": 1.0, "consumed_samples": 1036288, "global_step/max_steps": "4048/12700"}
{"lm loss": 2.15718055, "grad_norm": 0.43286389, "learning_rate": 8.207e-05, "elapsed_time_per_iteration": 4.8885746, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 53s", "remaining_time": "11h 44m 50s", "loss_scale": 1.0, "consumed_samples": 1036544, "global_step/max_steps": "4049/12700"}
{"lm loss": 2.12208104, "grad_norm": 0.46769005, "learning_rate": 8.206e-05, "elapsed_time_per_iteration": 4.82369828, "memory(GiB)": 28.98, "elapsed_time": "5h 29m 58s", "remaining_time": "11h 44m 45s", "loss_scale": 1.0, "consumed_samples": 1036800, "global_step/max_steps": "4050/12700"}
{"lm loss": 2.11075068, "grad_norm": 0.4336957, "learning_rate": 8.205e-05, "elapsed_time_per_iteration": 4.87546039, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 3s", "remaining_time": "11h 44m 40s", "loss_scale": 1.0, "consumed_samples": 1037056, "global_step/max_steps": "4051/12700"}
{"lm loss": 2.14150095, "grad_norm": 0.44511506, "learning_rate": 8.204e-05, "elapsed_time_per_iteration": 4.87347484, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 8s", "remaining_time": "11h 44m 35s", "loss_scale": 1.0, "consumed_samples": 1037312, "global_step/max_steps": "4052/12700"}
{"lm loss": 2.12668753, "grad_norm": 0.44043249, "learning_rate": 8.203e-05, "elapsed_time_per_iteration": 4.83891273, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 13s", "remaining_time": "11h 44m 30s", "loss_scale": 1.0, "consumed_samples": 1037568, "global_step/max_steps": "4053/12700"}
{"lm loss": 2.10836148, "grad_norm": 0.42159605, "learning_rate": 8.202e-05, "elapsed_time_per_iteration": 4.93849659, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 17s", "remaining_time": "11h 44m 25s", "loss_scale": 1.0, "consumed_samples": 1037824, "global_step/max_steps": "4054/12700"}
{"lm loss": 2.16400433, "grad_norm": 0.46419501, "learning_rate": 8.201e-05, "elapsed_time_per_iteration": 4.87324071, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 22s", "remaining_time": "11h 44m 21s", "loss_scale": 1.0, "consumed_samples": 1038080, "global_step/max_steps": "4055/12700"}
{"lm loss": 2.13547754, "grad_norm": 0.41057554, "learning_rate": 8.2e-05, "elapsed_time_per_iteration": 4.88513756, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 27s", "remaining_time": "11h 44m 16s", "loss_scale": 1.0, "consumed_samples": 1038336, "global_step/max_steps": "4056/12700"}
{"lm loss": 2.12617683, "grad_norm": 0.46450406, "learning_rate": 8.199e-05, "elapsed_time_per_iteration": 4.81944776, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 32s", "remaining_time": "11h 44m 11s", "loss_scale": 1.0, "consumed_samples": 1038592, "global_step/max_steps": "4057/12700"}
{"lm loss": 2.1340704, "grad_norm": 0.40902355, "learning_rate": 8.198e-05, "elapsed_time_per_iteration": 4.94503522, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 37s", "remaining_time": "11h 44m 6s", "loss_scale": 1.0, "consumed_samples": 1038848, "global_step/max_steps": "4058/12700"}
{"lm loss": 2.12912011, "grad_norm": 0.48155329, "learning_rate": 8.197e-05, "elapsed_time_per_iteration": 4.77395487, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 42s", "remaining_time": "11h 44m 1s", "loss_scale": 1.0, "consumed_samples": 1039104, "global_step/max_steps": "4059/12700"}
{"lm loss": 2.16552067, "grad_norm": 0.50164491, "learning_rate": 8.196e-05, "elapsed_time_per_iteration": 4.82852697, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 47s", "remaining_time": "11h 43m 56s", "loss_scale": 1.0, "consumed_samples": 1039360, "global_step/max_steps": "4060/12700"}
{"lm loss": 2.15929079, "grad_norm": 0.42482543, "learning_rate": 8.195e-05, "elapsed_time_per_iteration": 4.88493562, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 51s", "remaining_time": "11h 43m 51s", "loss_scale": 1.0, "consumed_samples": 1039616, "global_step/max_steps": "4061/12700"}
{"lm loss": 2.11597967, "grad_norm": 0.48715875, "learning_rate": 8.194e-05, "elapsed_time_per_iteration": 4.91450667, "memory(GiB)": 28.98, "elapsed_time": "5h 30m 56s", "remaining_time": "11h 43m 46s", "loss_scale": 1.0, "consumed_samples": 1039872, "global_step/max_steps": "4062/12700"}
{"lm loss": 2.15897703, "grad_norm": 0.41112068, "learning_rate": 8.193e-05, "elapsed_time_per_iteration": 4.83428192, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 1s", "remaining_time": "11h 43m 41s", "loss_scale": 1.0, "consumed_samples": 1040128, "global_step/max_steps": "4063/12700"}
{"lm loss": 2.12155986, "grad_norm": 0.44653496, "learning_rate": 8.192e-05, "elapsed_time_per_iteration": 4.88867378, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 6s", "remaining_time": "11h 43m 36s", "loss_scale": 1.0, "consumed_samples": 1040384, "global_step/max_steps": "4064/12700"}
{"lm loss": 2.12775874, "grad_norm": 0.46727461, "learning_rate": 8.191e-05, "elapsed_time_per_iteration": 4.93048501, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 11s", "remaining_time": "11h 43m 31s", "loss_scale": 1.0, "consumed_samples": 1040640, "global_step/max_steps": "4065/12700"}
{"lm loss": 2.07534146, "grad_norm": 0.37518039, "learning_rate": 8.19e-05, "elapsed_time_per_iteration": 4.90878725, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 16s", "remaining_time": "11h 43m 26s", "loss_scale": 1.0, "consumed_samples": 1040896, "global_step/max_steps": "4066/12700"}
{"lm loss": 2.12006378, "grad_norm": 0.43275416, "learning_rate": 8.189e-05, "elapsed_time_per_iteration": 4.99619651, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 21s", "remaining_time": "11h 43m 22s", "loss_scale": 1.0, "consumed_samples": 1041152, "global_step/max_steps": "4067/12700"}
{"lm loss": 2.15783787, "grad_norm": 0.42659122, "learning_rate": 8.188e-05, "elapsed_time_per_iteration": 4.9482255, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 26s", "remaining_time": "11h 43m 17s", "loss_scale": 1.0, "consumed_samples": 1041408, "global_step/max_steps": "4068/12700"}
{"lm loss": 2.13034844, "grad_norm": 0.39263275, "learning_rate": 8.187e-05, "elapsed_time_per_iteration": 4.85627913, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 31s", "remaining_time": "11h 43m 12s", "loss_scale": 1.0, "consumed_samples": 1041664, "global_step/max_steps": "4069/12700"}
{"lm loss": 2.14066672, "grad_norm": 0.44053558, "learning_rate": 8.186e-05, "elapsed_time_per_iteration": 4.80855155, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 36s", "remaining_time": "11h 43m 7s", "loss_scale": 1.0, "consumed_samples": 1041920, "global_step/max_steps": "4070/12700"}
{"lm loss": 2.12632418, "grad_norm": 0.38084438, "learning_rate": 8.185e-05, "elapsed_time_per_iteration": 4.99310565, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 41s", "remaining_time": "11h 43m 2s", "loss_scale": 1.0, "consumed_samples": 1042176, "global_step/max_steps": "4071/12700"}
{"lm loss": 2.14235854, "grad_norm": 0.45208234, "learning_rate": 8.184e-05, "elapsed_time_per_iteration": 4.89507508, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 45s", "remaining_time": "11h 42m 57s", "loss_scale": 1.0, "consumed_samples": 1042432, "global_step/max_steps": "4072/12700"}
{"lm loss": 2.13597465, "grad_norm": 0.41004053, "learning_rate": 8.183e-05, "elapsed_time_per_iteration": 4.84608364, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 50s", "remaining_time": "11h 42m 52s", "loss_scale": 1.0, "consumed_samples": 1042688, "global_step/max_steps": "4073/12700"}
{"lm loss": 2.12234282, "grad_norm": 0.41051888, "learning_rate": 8.182e-05, "elapsed_time_per_iteration": 4.8141253, "memory(GiB)": 28.98, "elapsed_time": "5h 31m 55s", "remaining_time": "11h 42m 47s", "loss_scale": 1.0, "consumed_samples": 1042944, "global_step/max_steps": "4074/12700"}
{"lm loss": 2.11791253, "grad_norm": 0.47760022, "learning_rate": 8.181e-05, "elapsed_time_per_iteration": 4.88826108, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 0s", "remaining_time": "11h 42m 43s", "loss_scale": 1.0, "consumed_samples": 1043200, "global_step/max_steps": "4075/12700"}
{"lm loss": 2.13245749, "grad_norm": 0.37534574, "learning_rate": 8.18e-05, "elapsed_time_per_iteration": 4.83684587, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 5s", "remaining_time": "11h 42m 38s", "loss_scale": 1.0, "consumed_samples": 1043456, "global_step/max_steps": "4076/12700"}
{"lm loss": 2.14992452, "grad_norm": 0.43567634, "learning_rate": 8.179e-05, "elapsed_time_per_iteration": 4.92084861, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 10s", "remaining_time": "11h 42m 33s", "loss_scale": 1.0, "consumed_samples": 1043712, "global_step/max_steps": "4077/12700"}
{"lm loss": 2.15203309, "grad_norm": 0.36216509, "learning_rate": 8.178e-05, "elapsed_time_per_iteration": 4.92080045, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 15s", "remaining_time": "11h 42m 28s", "loss_scale": 1.0, "consumed_samples": 1043968, "global_step/max_steps": "4078/12700"}
{"lm loss": 2.11580443, "grad_norm": 0.39863354, "learning_rate": 8.177e-05, "elapsed_time_per_iteration": 4.98161483, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 20s", "remaining_time": "11h 42m 23s", "loss_scale": 1.0, "consumed_samples": 1044224, "global_step/max_steps": "4079/12700"}
{"lm loss": 2.10945082, "grad_norm": 0.36539483, "learning_rate": 8.176e-05, "elapsed_time_per_iteration": 4.99711752, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 25s", "remaining_time": "11h 42m 19s", "loss_scale": 1.0, "consumed_samples": 1044480, "global_step/max_steps": "4080/12700"}
{"lm loss": 2.11557293, "grad_norm": 0.3972722, "learning_rate": 8.175e-05, "elapsed_time_per_iteration": 4.84036517, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 30s", "remaining_time": "11h 42m 14s", "loss_scale": 1.0, "consumed_samples": 1044736, "global_step/max_steps": "4081/12700"}
{"lm loss": 2.14578032, "grad_norm": 0.41413644, "learning_rate": 8.174e-05, "elapsed_time_per_iteration": 4.83667254, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 34s", "remaining_time": "11h 42m 9s", "loss_scale": 1.0, "consumed_samples": 1044992, "global_step/max_steps": "4082/12700"}
{"lm loss": 2.16156077, "grad_norm": 0.36737329, "learning_rate": 8.173e-05, "elapsed_time_per_iteration": 4.81447768, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 39s", "remaining_time": "11h 42m 4s", "loss_scale": 1.0, "consumed_samples": 1045248, "global_step/max_steps": "4083/12700"}
{"lm loss": 2.1502111, "grad_norm": 0.42352605, "learning_rate": 8.172e-05, "elapsed_time_per_iteration": 4.92867875, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 44s", "remaining_time": "11h 41m 59s", "loss_scale": 1.0, "consumed_samples": 1045504, "global_step/max_steps": "4084/12700"}
{"lm loss": 2.1281991, "grad_norm": 0.35603124, "learning_rate": 8.171e-05, "elapsed_time_per_iteration": 4.84450436, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 49s", "remaining_time": "11h 41m 54s", "loss_scale": 1.0, "consumed_samples": 1045760, "global_step/max_steps": "4085/12700"}
{"lm loss": 2.12270808, "grad_norm": 0.43419018, "learning_rate": 8.17e-05, "elapsed_time_per_iteration": 4.82409763, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 54s", "remaining_time": "11h 41m 49s", "loss_scale": 1.0, "consumed_samples": 1046016, "global_step/max_steps": "4086/12700"}
{"lm loss": 2.11914229, "grad_norm": 0.37895989, "learning_rate": 8.169e-05, "elapsed_time_per_iteration": 4.88780308, "memory(GiB)": 28.98, "elapsed_time": "5h 32m 59s", "remaining_time": "11h 41m 44s", "loss_scale": 1.0, "consumed_samples": 1046272, "global_step/max_steps": "4087/12700"}
{"lm loss": 2.11720276, "grad_norm": 0.41819283, "learning_rate": 8.168e-05, "elapsed_time_per_iteration": 4.82509637, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 3s", "remaining_time": "11h 41m 39s", "loss_scale": 1.0, "consumed_samples": 1046528, "global_step/max_steps": "4088/12700"}
{"lm loss": 2.13214827, "grad_norm": 0.42940548, "learning_rate": 8.167e-05, "elapsed_time_per_iteration": 4.91094184, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 8s", "remaining_time": "11h 41m 34s", "loss_scale": 1.0, "consumed_samples": 1046784, "global_step/max_steps": "4089/12700"}
{"lm loss": 2.14782667, "grad_norm": 0.43074831, "learning_rate": 8.166e-05, "elapsed_time_per_iteration": 4.97413373, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 13s", "remaining_time": "11h 41m 29s", "loss_scale": 1.0, "consumed_samples": 1047040, "global_step/max_steps": "4090/12700"}
{"lm loss": 2.11293507, "grad_norm": 0.4250612, "learning_rate": 8.165e-05, "elapsed_time_per_iteration": 4.82068467, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 18s", "remaining_time": "11h 41m 24s", "loss_scale": 1.0, "consumed_samples": 1047296, "global_step/max_steps": "4091/12700"}
{"lm loss": 2.11699057, "grad_norm": 0.39467117, "learning_rate": 8.164e-05, "elapsed_time_per_iteration": 4.79851556, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 23s", "remaining_time": "11h 41m 19s", "loss_scale": 1.0, "consumed_samples": 1047552, "global_step/max_steps": "4092/12700"}
{"lm loss": 2.15396833, "grad_norm": 0.38043189, "learning_rate": 8.163e-05, "elapsed_time_per_iteration": 4.77327466, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 28s", "remaining_time": "11h 41m 14s", "loss_scale": 1.0, "consumed_samples": 1047808, "global_step/max_steps": "4093/12700"}
{"lm loss": 2.13806033, "grad_norm": 0.41720274, "learning_rate": 8.162e-05, "elapsed_time_per_iteration": 4.81418681, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 33s", "remaining_time": "11h 41m 9s", "loss_scale": 1.0, "consumed_samples": 1048064, "global_step/max_steps": "4094/12700"}
{"lm loss": 2.15365028, "grad_norm": 0.38471162, "learning_rate": 8.161e-05, "elapsed_time_per_iteration": 4.88764763, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 37s", "remaining_time": "11h 41m 4s", "loss_scale": 1.0, "consumed_samples": 1048320, "global_step/max_steps": "4095/12700"}
{"lm loss": 2.15099311, "grad_norm": 0.42506906, "learning_rate": 8.16e-05, "elapsed_time_per_iteration": 4.86320043, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 42s", "remaining_time": "11h 40m 59s", "loss_scale": 1.0, "consumed_samples": 1048576, "global_step/max_steps": "4096/12700"}
{"lm loss": 2.14833117, "grad_norm": 0.3935551, "learning_rate": 8.159e-05, "elapsed_time_per_iteration": 4.84136343, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 47s", "remaining_time": "11h 40m 54s", "loss_scale": 1.0, "consumed_samples": 1048832, "global_step/max_steps": "4097/12700"}
{"lm loss": 2.16839051, "grad_norm": 0.41552848, "learning_rate": 8.158e-05, "elapsed_time_per_iteration": 4.93304539, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 52s", "remaining_time": "11h 40m 49s", "loss_scale": 1.0, "consumed_samples": 1049088, "global_step/max_steps": "4098/12700"}
{"lm loss": 2.12395906, "grad_norm": 0.36608583, "learning_rate": 8.157e-05, "elapsed_time_per_iteration": 4.75809169, "memory(GiB)": 28.98, "elapsed_time": "5h 33m 57s", "remaining_time": "11h 40m 44s", "loss_scale": 1.0, "consumed_samples": 1049344, "global_step/max_steps": "4099/12700"}
{"lm loss": 2.13542247, "grad_norm": 0.48534104, "learning_rate": 8.156e-05, "elapsed_time_per_iteration": 4.86623049, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 2s", "remaining_time": "11h 40m 39s", "loss_scale": 1.0, "consumed_samples": 1049600, "global_step/max_steps": "4100/12700"}
{"lm loss": 2.13783121, "grad_norm": 0.37399188, "learning_rate": 8.155e-05, "elapsed_time_per_iteration": 4.78406358, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 6s", "remaining_time": "11h 40m 34s", "loss_scale": 1.0, "consumed_samples": 1049856, "global_step/max_steps": "4101/12700"}
{"lm loss": 2.11395049, "grad_norm": 0.38136044, "learning_rate": 8.154e-05, "elapsed_time_per_iteration": 4.88219452, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 11s", "remaining_time": "11h 40m 29s", "loss_scale": 1.0, "consumed_samples": 1050112, "global_step/max_steps": "4102/12700"}
{"lm loss": 2.0840764, "grad_norm": 0.42332542, "learning_rate": 8.153e-05, "elapsed_time_per_iteration": 4.90218139, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 16s", "remaining_time": "11h 40m 24s", "loss_scale": 1.0, "consumed_samples": 1050368, "global_step/max_steps": "4103/12700"}
{"lm loss": 2.144382, "grad_norm": 0.40136856, "learning_rate": 8.152e-05, "elapsed_time_per_iteration": 4.80555034, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 21s", "remaining_time": "11h 40m 19s", "loss_scale": 1.0, "consumed_samples": 1050624, "global_step/max_steps": "4104/12700"}
{"lm loss": 2.12912178, "grad_norm": 0.43914557, "learning_rate": 8.151e-05, "elapsed_time_per_iteration": 4.91768241, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 26s", "remaining_time": "11h 40m 15s", "loss_scale": 1.0, "consumed_samples": 1050880, "global_step/max_steps": "4105/12700"}
{"lm loss": 2.13397503, "grad_norm": 0.39932519, "learning_rate": 8.15e-05, "elapsed_time_per_iteration": 4.78614831, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 31s", "remaining_time": "11h 40m 9s", "loss_scale": 1.0, "consumed_samples": 1051136, "global_step/max_steps": "4106/12700"}
{"lm loss": 2.13747907, "grad_norm": 0.43739367, "learning_rate": 8.149e-05, "elapsed_time_per_iteration": 4.90805602, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 36s", "remaining_time": "11h 40m 5s", "loss_scale": 1.0, "consumed_samples": 1051392, "global_step/max_steps": "4107/12700"}
{"lm loss": 2.09521508, "grad_norm": 0.43806428, "learning_rate": 8.148e-05, "elapsed_time_per_iteration": 4.94965506, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 41s", "remaining_time": "11h 40m 0s", "loss_scale": 1.0, "consumed_samples": 1051648, "global_step/max_steps": "4108/12700"}
{"lm loss": 2.13831902, "grad_norm": 0.39400008, "learning_rate": 8.147e-05, "elapsed_time_per_iteration": 4.95479798, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 46s", "remaining_time": "11h 39m 55s", "loss_scale": 1.0, "consumed_samples": 1051904, "global_step/max_steps": "4109/12700"}
{"lm loss": 2.1519928, "grad_norm": 0.4087894, "learning_rate": 8.146e-05, "elapsed_time_per_iteration": 4.82570124, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 50s", "remaining_time": "11h 39m 50s", "loss_scale": 1.0, "consumed_samples": 1052160, "global_step/max_steps": "4110/12700"}
{"lm loss": 2.12483907, "grad_norm": 0.41391322, "learning_rate": 8.145e-05, "elapsed_time_per_iteration": 4.80902433, "memory(GiB)": 28.98, "elapsed_time": "5h 34m 55s", "remaining_time": "11h 39m 45s", "loss_scale": 1.0, "consumed_samples": 1052416, "global_step/max_steps": "4111/12700"}
{"lm loss": 2.11972165, "grad_norm": 0.44500005, "learning_rate": 8.144e-05, "elapsed_time_per_iteration": 4.88853431, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 0s", "remaining_time": "11h 39m 40s", "loss_scale": 1.0, "consumed_samples": 1052672, "global_step/max_steps": "4112/12700"}
{"lm loss": 2.11328316, "grad_norm": 0.38144243, "learning_rate": 8.143e-05, "elapsed_time_per_iteration": 4.97789526, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 5s", "remaining_time": "11h 39m 35s", "loss_scale": 1.0, "consumed_samples": 1052928, "global_step/max_steps": "4113/12700"}
{"lm loss": 2.13062692, "grad_norm": 0.40763652, "learning_rate": 8.142e-05, "elapsed_time_per_iteration": 4.88387918, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 10s", "remaining_time": "11h 39m 30s", "loss_scale": 1.0, "consumed_samples": 1053184, "global_step/max_steps": "4114/12700"}
{"lm loss": 2.14231253, "grad_norm": 0.43196252, "learning_rate": 8.141e-05, "elapsed_time_per_iteration": 4.82636166, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 15s", "remaining_time": "11h 39m 25s", "loss_scale": 1.0, "consumed_samples": 1053440, "global_step/max_steps": "4115/12700"}
{"lm loss": 2.12077689, "grad_norm": 0.39998275, "learning_rate": 8.14e-05, "elapsed_time_per_iteration": 4.87043309, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 20s", "remaining_time": "11h 39m 21s", "loss_scale": 1.0, "consumed_samples": 1053696, "global_step/max_steps": "4116/12700"}
{"lm loss": 2.11560893, "grad_norm": 0.40935349, "learning_rate": 8.139e-05, "elapsed_time_per_iteration": 4.8466506, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 25s", "remaining_time": "11h 39m 16s", "loss_scale": 1.0, "consumed_samples": 1053952, "global_step/max_steps": "4117/12700"}
{"lm loss": 2.17379117, "grad_norm": 0.40315026, "learning_rate": 8.138e-05, "elapsed_time_per_iteration": 4.82180166, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 29s", "remaining_time": "11h 39m 11s", "loss_scale": 1.0, "consumed_samples": 1054208, "global_step/max_steps": "4118/12700"}
{"lm loss": 2.10900044, "grad_norm": 0.41288757, "learning_rate": 8.137e-05, "elapsed_time_per_iteration": 4.87559295, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 34s", "remaining_time": "11h 39m 6s", "loss_scale": 1.0, "consumed_samples": 1054464, "global_step/max_steps": "4119/12700"}
{"lm loss": 2.14409089, "grad_norm": 0.37168643, "learning_rate": 8.136e-05, "elapsed_time_per_iteration": 4.93013716, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 39s", "remaining_time": "11h 39m 1s", "loss_scale": 1.0, "consumed_samples": 1054720, "global_step/max_steps": "4120/12700"}
{"lm loss": 2.12375093, "grad_norm": 0.40753964, "learning_rate": 8.135e-05, "elapsed_time_per_iteration": 4.78512406, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 44s", "remaining_time": "11h 38m 56s", "loss_scale": 1.0, "consumed_samples": 1054976, "global_step/max_steps": "4121/12700"}
{"lm loss": 2.13257408, "grad_norm": 0.3954263, "learning_rate": 8.134e-05, "elapsed_time_per_iteration": 4.89985847, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 49s", "remaining_time": "11h 38m 51s", "loss_scale": 1.0, "consumed_samples": 1055232, "global_step/max_steps": "4122/12700"}
{"lm loss": 2.11688566, "grad_norm": 0.44060177, "learning_rate": 8.133e-05, "elapsed_time_per_iteration": 4.92559767, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 54s", "remaining_time": "11h 38m 46s", "loss_scale": 1.0, "consumed_samples": 1055488, "global_step/max_steps": "4123/12700"}
{"lm loss": 2.14937067, "grad_norm": 0.38839826, "learning_rate": 8.132e-05, "elapsed_time_per_iteration": 4.86962032, "memory(GiB)": 28.98, "elapsed_time": "5h 35m 59s", "remaining_time": "11h 38m 41s", "loss_scale": 1.0, "consumed_samples": 1055744, "global_step/max_steps": "4124/12700"}
{"lm loss": 2.16909409, "grad_norm": 0.42821029, "learning_rate": 8.131e-05, "elapsed_time_per_iteration": 5.08626461, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 4s", "remaining_time": "11h 38m 37s", "loss_scale": 1.0, "consumed_samples": 1056000, "global_step/max_steps": "4125/12700"}
{"lm loss": 2.16334391, "grad_norm": 0.40765637, "learning_rate": 8.13e-05, "elapsed_time_per_iteration": 4.94843435, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 9s", "remaining_time": "11h 38m 32s", "loss_scale": 1.0, "consumed_samples": 1056256, "global_step/max_steps": "4126/12700"}
{"lm loss": 2.11679649, "grad_norm": 0.40678403, "learning_rate": 8.129e-05, "elapsed_time_per_iteration": 4.89245963, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 14s", "remaining_time": "11h 38m 27s", "loss_scale": 1.0, "consumed_samples": 1056512, "global_step/max_steps": "4127/12700"}
{"lm loss": 2.11091185, "grad_norm": 0.39009961, "learning_rate": 8.128e-05, "elapsed_time_per_iteration": 4.90129972, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 18s", "remaining_time": "11h 38m 22s", "loss_scale": 1.0, "consumed_samples": 1056768, "global_step/max_steps": "4128/12700"}
{"lm loss": 2.09827971, "grad_norm": 0.39609978, "learning_rate": 8.127e-05, "elapsed_time_per_iteration": 4.98309469, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 23s", "remaining_time": "11h 38m 17s", "loss_scale": 1.0, "consumed_samples": 1057024, "global_step/max_steps": "4129/12700"}
{"lm loss": 2.14556408, "grad_norm": 0.38146695, "learning_rate": 8.126e-05, "elapsed_time_per_iteration": 4.88921809, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 28s", "remaining_time": "11h 38m 13s", "loss_scale": 1.0, "consumed_samples": 1057280, "global_step/max_steps": "4130/12700"}
{"lm loss": 2.12797141, "grad_norm": 0.38307127, "learning_rate": 8.125e-05, "elapsed_time_per_iteration": 4.87156129, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 33s", "remaining_time": "11h 38m 8s", "loss_scale": 1.0, "consumed_samples": 1057536, "global_step/max_steps": "4131/12700"}
{"lm loss": 2.13360882, "grad_norm": 0.41545871, "learning_rate": 8.124e-05, "elapsed_time_per_iteration": 4.79843283, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 38s", "remaining_time": "11h 38m 3s", "loss_scale": 1.0, "consumed_samples": 1057792, "global_step/max_steps": "4132/12700"}
{"lm loss": 2.12594151, "grad_norm": 0.37789279, "learning_rate": 8.123e-05, "elapsed_time_per_iteration": 4.91412807, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 43s", "remaining_time": "11h 37m 58s", "loss_scale": 1.0, "consumed_samples": 1058048, "global_step/max_steps": "4133/12700"}
{"lm loss": 2.13869524, "grad_norm": 0.39180297, "learning_rate": 8.122e-05, "elapsed_time_per_iteration": 4.9151299, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 48s", "remaining_time": "11h 37m 53s", "loss_scale": 1.0, "consumed_samples": 1058304, "global_step/max_steps": "4134/12700"}
{"lm loss": 2.11856461, "grad_norm": 0.38535124, "learning_rate": 8.121e-05, "elapsed_time_per_iteration": 4.81554198, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 53s", "remaining_time": "11h 37m 48s", "loss_scale": 1.0, "consumed_samples": 1058560, "global_step/max_steps": "4135/12700"}
{"lm loss": 2.13754678, "grad_norm": 0.40693074, "learning_rate": 8.12e-05, "elapsed_time_per_iteration": 4.87323284, "memory(GiB)": 28.98, "elapsed_time": "5h 36m 58s", "remaining_time": "11h 37m 43s", "loss_scale": 1.0, "consumed_samples": 1058816, "global_step/max_steps": "4136/12700"}
{"lm loss": 2.13465762, "grad_norm": 0.37742162, "learning_rate": 8.119e-05, "elapsed_time_per_iteration": 4.96809721, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 2s", "remaining_time": "11h 37m 38s", "loss_scale": 1.0, "consumed_samples": 1059072, "global_step/max_steps": "4137/12700"}
{"lm loss": 2.11642122, "grad_norm": 0.38715473, "learning_rate": 8.118e-05, "elapsed_time_per_iteration": 4.89519119, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 7s", "remaining_time": "11h 37m 33s", "loss_scale": 1.0, "consumed_samples": 1059328, "global_step/max_steps": "4138/12700"}
{"lm loss": 2.14646292, "grad_norm": 0.36891234, "learning_rate": 8.117e-05, "elapsed_time_per_iteration": 4.88310552, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 12s", "remaining_time": "11h 37m 28s", "loss_scale": 1.0, "consumed_samples": 1059584, "global_step/max_steps": "4139/12700"}
{"lm loss": 2.12762403, "grad_norm": 0.39446145, "learning_rate": 8.116e-05, "elapsed_time_per_iteration": 4.77553535, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 17s", "remaining_time": "11h 37m 23s", "loss_scale": 1.0, "consumed_samples": 1059840, "global_step/max_steps": "4140/12700"}
{"lm loss": 2.13781404, "grad_norm": 0.37572265, "learning_rate": 8.115e-05, "elapsed_time_per_iteration": 4.84546089, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 22s", "remaining_time": "11h 37m 18s", "loss_scale": 1.0, "consumed_samples": 1060096, "global_step/max_steps": "4141/12700"}
{"lm loss": 2.0963552, "grad_norm": 0.39353743, "learning_rate": 8.114e-05, "elapsed_time_per_iteration": 4.86950803, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 27s", "remaining_time": "11h 37m 13s", "loss_scale": 1.0, "consumed_samples": 1060352, "global_step/max_steps": "4142/12700"}
{"lm loss": 2.10646653, "grad_norm": 0.38291925, "learning_rate": 8.113e-05, "elapsed_time_per_iteration": 4.88436413, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 32s", "remaining_time": "11h 37m 9s", "loss_scale": 1.0, "consumed_samples": 1060608, "global_step/max_steps": "4143/12700"}
{"lm loss": 2.14119387, "grad_norm": 0.40493992, "learning_rate": 8.112e-05, "elapsed_time_per_iteration": 4.86056781, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 37s", "remaining_time": "11h 37m 4s", "loss_scale": 1.0, "consumed_samples": 1060864, "global_step/max_steps": "4144/12700"}
{"lm loss": 2.11826777, "grad_norm": 0.42209721, "learning_rate": 8.111e-05, "elapsed_time_per_iteration": 4.82702303, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 41s", "remaining_time": "11h 36m 59s", "loss_scale": 1.0, "consumed_samples": 1061120, "global_step/max_steps": "4145/12700"}
{"lm loss": 2.14468336, "grad_norm": 0.38286316, "learning_rate": 8.11e-05, "elapsed_time_per_iteration": 4.89827013, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 46s", "remaining_time": "11h 36m 54s", "loss_scale": 1.0, "consumed_samples": 1061376, "global_step/max_steps": "4146/12700"}
{"lm loss": 2.1231029, "grad_norm": 0.38532215, "learning_rate": 8.109e-05, "elapsed_time_per_iteration": 4.82571816, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 51s", "remaining_time": "11h 36m 49s", "loss_scale": 1.0, "consumed_samples": 1061632, "global_step/max_steps": "4147/12700"}
{"lm loss": 2.151788, "grad_norm": 0.38400286, "learning_rate": 8.108e-05, "elapsed_time_per_iteration": 4.84937334, "memory(GiB)": 28.98, "elapsed_time": "5h 37m 56s", "remaining_time": "11h 36m 44s", "loss_scale": 1.0, "consumed_samples": 1061888, "global_step/max_steps": "4148/12700"}
{"lm loss": 2.12877369, "grad_norm": 0.44919625, "learning_rate": 8.107e-05, "elapsed_time_per_iteration": 4.83538151, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 1s", "remaining_time": "11h 36m 39s", "loss_scale": 1.0, "consumed_samples": 1062144, "global_step/max_steps": "4149/12700"}
{"lm loss": 2.1361444, "grad_norm": 0.43640929, "learning_rate": 8.106e-05, "elapsed_time_per_iteration": 4.90319562, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 6s", "remaining_time": "11h 36m 34s", "loss_scale": 1.0, "consumed_samples": 1062400, "global_step/max_steps": "4150/12700"}
{"lm loss": 2.13121486, "grad_norm": 0.39338127, "learning_rate": 8.105e-05, "elapsed_time_per_iteration": 4.85850525, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 11s", "remaining_time": "11h 36m 29s", "loss_scale": 1.0, "consumed_samples": 1062656, "global_step/max_steps": "4151/12700"}
{"lm loss": 2.13879967, "grad_norm": 0.43010324, "learning_rate": 8.104e-05, "elapsed_time_per_iteration": 4.85341072, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 15s", "remaining_time": "11h 36m 24s", "loss_scale": 1.0, "consumed_samples": 1062912, "global_step/max_steps": "4152/12700"}
{"lm loss": 2.1317637, "grad_norm": 0.36615092, "learning_rate": 8.103e-05, "elapsed_time_per_iteration": 4.870471, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 20s", "remaining_time": "11h 36m 19s", "loss_scale": 1.0, "consumed_samples": 1063168, "global_step/max_steps": "4153/12700"}
{"lm loss": 2.14799547, "grad_norm": 0.39544669, "learning_rate": 8.102e-05, "elapsed_time_per_iteration": 4.85438943, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 25s", "remaining_time": "11h 36m 14s", "loss_scale": 1.0, "consumed_samples": 1063424, "global_step/max_steps": "4154/12700"}
{"lm loss": 2.11480141, "grad_norm": 0.38409016, "learning_rate": 8.101e-05, "elapsed_time_per_iteration": 4.89767385, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 30s", "remaining_time": "11h 36m 9s", "loss_scale": 1.0, "consumed_samples": 1063680, "global_step/max_steps": "4155/12700"}
{"lm loss": 2.13874078, "grad_norm": 0.37892962, "learning_rate": 8.1e-05, "elapsed_time_per_iteration": 4.81079626, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 35s", "remaining_time": "11h 36m 4s", "loss_scale": 1.0, "consumed_samples": 1063936, "global_step/max_steps": "4156/12700"}
{"lm loss": 2.13373756, "grad_norm": 0.38978273, "learning_rate": 8.099e-05, "elapsed_time_per_iteration": 4.89004827, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 40s", "remaining_time": "11h 35m 59s", "loss_scale": 1.0, "consumed_samples": 1064192, "global_step/max_steps": "4157/12700"}
{"lm loss": 2.12611413, "grad_norm": 0.4569442, "learning_rate": 8.098e-05, "elapsed_time_per_iteration": 4.93228745, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 45s", "remaining_time": "11h 35m 54s", "loss_scale": 1.0, "consumed_samples": 1064448, "global_step/max_steps": "4158/12700"}
{"lm loss": 2.11481285, "grad_norm": 0.41721687, "learning_rate": 8.097e-05, "elapsed_time_per_iteration": 4.85305643, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 49s", "remaining_time": "11h 35m 49s", "loss_scale": 1.0, "consumed_samples": 1064704, "global_step/max_steps": "4159/12700"}
{"lm loss": 2.14073205, "grad_norm": 0.38137475, "learning_rate": 8.096e-05, "elapsed_time_per_iteration": 4.86833596, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 54s", "remaining_time": "11h 35m 45s", "loss_scale": 1.0, "consumed_samples": 1064960, "global_step/max_steps": "4160/12700"}
{"lm loss": 2.13272429, "grad_norm": 0.45643359, "learning_rate": 8.095e-05, "elapsed_time_per_iteration": 4.96625328, "memory(GiB)": 28.98, "elapsed_time": "5h 38m 59s", "remaining_time": "11h 35m 40s", "loss_scale": 1.0, "consumed_samples": 1065216, "global_step/max_steps": "4161/12700"}
{"lm loss": 2.16435242, "grad_norm": 0.3672334, "learning_rate": 8.094e-05, "elapsed_time_per_iteration": 4.89768243, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 4s", "remaining_time": "11h 35m 35s", "loss_scale": 1.0, "consumed_samples": 1065472, "global_step/max_steps": "4162/12700"}
{"lm loss": 2.12451982, "grad_norm": 0.44161025, "learning_rate": 8.093e-05, "elapsed_time_per_iteration": 4.8839376, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 9s", "remaining_time": "11h 35m 30s", "loss_scale": 1.0, "consumed_samples": 1065728, "global_step/max_steps": "4163/12700"}
{"lm loss": 2.18383527, "grad_norm": 0.46741512, "learning_rate": 8.092e-05, "elapsed_time_per_iteration": 4.94924808, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 14s", "remaining_time": "11h 35m 25s", "loss_scale": 1.0, "consumed_samples": 1065984, "global_step/max_steps": "4164/12700"}
{"lm loss": 2.16655326, "grad_norm": 0.37390015, "learning_rate": 8.091e-05, "elapsed_time_per_iteration": 4.82913065, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 19s", "remaining_time": "11h 35m 20s", "loss_scale": 1.0, "consumed_samples": 1066240, "global_step/max_steps": "4165/12700"}
{"lm loss": 2.12438703, "grad_norm": 0.46267331, "learning_rate": 8.09e-05, "elapsed_time_per_iteration": 4.8984139, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 24s", "remaining_time": "11h 35m 15s", "loss_scale": 1.0, "consumed_samples": 1066496, "global_step/max_steps": "4166/12700"}
{"lm loss": 2.1050849, "grad_norm": 0.42153123, "learning_rate": 8.089e-05, "elapsed_time_per_iteration": 4.85941434, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 29s", "remaining_time": "11h 35m 10s", "loss_scale": 1.0, "consumed_samples": 1066752, "global_step/max_steps": "4167/12700"}
{"lm loss": 2.09458733, "grad_norm": 0.39297122, "learning_rate": 8.088e-05, "elapsed_time_per_iteration": 4.93265915, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 34s", "remaining_time": "11h 35m 6s", "loss_scale": 1.0, "consumed_samples": 1067008, "global_step/max_steps": "4168/12700"}
{"lm loss": 2.11459017, "grad_norm": 0.44750434, "learning_rate": 8.087e-05, "elapsed_time_per_iteration": 4.87343001, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 38s", "remaining_time": "11h 35m 1s", "loss_scale": 1.0, "consumed_samples": 1067264, "global_step/max_steps": "4169/12700"}
{"lm loss": 2.14859056, "grad_norm": 0.40267867, "learning_rate": 8.086e-05, "elapsed_time_per_iteration": 4.83779287, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 43s", "remaining_time": "11h 34m 56s", "loss_scale": 1.0, "consumed_samples": 1067520, "global_step/max_steps": "4170/12700"}
{"lm loss": 2.14515185, "grad_norm": 0.42746049, "learning_rate": 8.085e-05, "elapsed_time_per_iteration": 4.91953778, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 48s", "remaining_time": "11h 34m 51s", "loss_scale": 1.0, "consumed_samples": 1067776, "global_step/max_steps": "4171/12700"}
{"lm loss": 2.14550519, "grad_norm": 0.38336506, "learning_rate": 8.084e-05, "elapsed_time_per_iteration": 4.85616088, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 53s", "remaining_time": "11h 34m 46s", "loss_scale": 1.0, "consumed_samples": 1068032, "global_step/max_steps": "4172/12700"}
{"lm loss": 2.12588549, "grad_norm": 0.42416045, "learning_rate": 8.083e-05, "elapsed_time_per_iteration": 4.81779432, "memory(GiB)": 28.98, "elapsed_time": "5h 39m 58s", "remaining_time": "11h 34m 41s", "loss_scale": 1.0, "consumed_samples": 1068288, "global_step/max_steps": "4173/12700"}
{"lm loss": 2.13408518, "grad_norm": 0.41883159, "learning_rate": 8.082e-05, "elapsed_time_per_iteration": 4.8467896, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 3s", "remaining_time": "11h 34m 36s", "loss_scale": 1.0, "consumed_samples": 1068544, "global_step/max_steps": "4174/12700"}
{"lm loss": 2.11154985, "grad_norm": 0.4049246, "learning_rate": 8.081e-05, "elapsed_time_per_iteration": 4.86936975, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 8s", "remaining_time": "11h 34m 31s", "loss_scale": 1.0, "consumed_samples": 1068800, "global_step/max_steps": "4175/12700"}
{"lm loss": 2.13084221, "grad_norm": 0.38436219, "learning_rate": 8.08e-05, "elapsed_time_per_iteration": 4.83094573, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 12s", "remaining_time": "11h 34m 26s", "loss_scale": 1.0, "consumed_samples": 1069056, "global_step/max_steps": "4176/12700"}
{"lm loss": 2.13030028, "grad_norm": 0.40941626, "learning_rate": 8.079e-05, "elapsed_time_per_iteration": 4.97660136, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 17s", "remaining_time": "11h 34m 21s", "loss_scale": 1.0, "consumed_samples": 1069312, "global_step/max_steps": "4177/12700"}
{"lm loss": 2.11884117, "grad_norm": 0.38642758, "learning_rate": 8.078e-05, "elapsed_time_per_iteration": 4.93378878, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 22s", "remaining_time": "11h 34m 17s", "loss_scale": 1.0, "consumed_samples": 1069568, "global_step/max_steps": "4178/12700"}
{"lm loss": 2.18750978, "grad_norm": 0.39104205, "learning_rate": 8.077e-05, "elapsed_time_per_iteration": 4.8370862, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 27s", "remaining_time": "11h 34m 12s", "loss_scale": 1.0, "consumed_samples": 1069824, "global_step/max_steps": "4179/12700"}
{"lm loss": 2.13400984, "grad_norm": 0.42344281, "learning_rate": 8.076e-05, "elapsed_time_per_iteration": 4.82130218, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 32s", "remaining_time": "11h 34m 7s", "loss_scale": 1.0, "consumed_samples": 1070080, "global_step/max_steps": "4180/12700"}
{"lm loss": 2.1141386, "grad_norm": 0.41015688, "learning_rate": 8.075e-05, "elapsed_time_per_iteration": 4.82960701, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 37s", "remaining_time": "11h 34m 2s", "loss_scale": 1.0, "consumed_samples": 1070336, "global_step/max_steps": "4181/12700"}
{"lm loss": 2.13312244, "grad_norm": 0.41409141, "learning_rate": 8.074e-05, "elapsed_time_per_iteration": 4.97652817, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 42s", "remaining_time": "11h 33m 57s", "loss_scale": 1.0, "consumed_samples": 1070592, "global_step/max_steps": "4182/12700"}
{"lm loss": 2.12889981, "grad_norm": 0.3843933, "learning_rate": 8.073e-05, "elapsed_time_per_iteration": 4.90812278, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 47s", "remaining_time": "11h 33m 52s", "loss_scale": 1.0, "consumed_samples": 1070848, "global_step/max_steps": "4183/12700"}
{"lm loss": 2.14256525, "grad_norm": 0.44202811, "learning_rate": 8.072e-05, "elapsed_time_per_iteration": 4.91067314, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 52s", "remaining_time": "11h 33m 47s", "loss_scale": 1.0, "consumed_samples": 1071104, "global_step/max_steps": "4184/12700"}
{"lm loss": 2.11491251, "grad_norm": 0.42724532, "learning_rate": 8.071e-05, "elapsed_time_per_iteration": 4.73298025, "memory(GiB)": 28.98, "elapsed_time": "5h 40m 56s", "remaining_time": "11h 33m 42s", "loss_scale": 1.0, "consumed_samples": 1071360, "global_step/max_steps": "4185/12700"}
{"lm loss": 2.13214636, "grad_norm": 0.40045142, "learning_rate": 8.07e-05, "elapsed_time_per_iteration": 4.88485527, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 1s", "remaining_time": "11h 33m 37s", "loss_scale": 1.0, "consumed_samples": 1071616, "global_step/max_steps": "4186/12700"}
{"lm loss": 2.12061429, "grad_norm": 0.38974747, "learning_rate": 8.069e-05, "elapsed_time_per_iteration": 4.80604315, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 6s", "remaining_time": "11h 33m 32s", "loss_scale": 1.0, "consumed_samples": 1071872, "global_step/max_steps": "4187/12700"}
{"lm loss": 2.12721276, "grad_norm": 0.40777737, "learning_rate": 8.068e-05, "elapsed_time_per_iteration": 4.85830593, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 11s", "remaining_time": "11h 33m 27s", "loss_scale": 1.0, "consumed_samples": 1072128, "global_step/max_steps": "4188/12700"}
{"lm loss": 2.14582038, "grad_norm": 0.38986024, "learning_rate": 8.067e-05, "elapsed_time_per_iteration": 4.94888115, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 16s", "remaining_time": "11h 33m 22s", "loss_scale": 1.0, "consumed_samples": 1072384, "global_step/max_steps": "4189/12700"}
{"lm loss": 2.16345286, "grad_norm": 0.42635095, "learning_rate": 8.066e-05, "elapsed_time_per_iteration": 4.80931401, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 21s", "remaining_time": "11h 33m 17s", "loss_scale": 1.0, "consumed_samples": 1072640, "global_step/max_steps": "4190/12700"}
{"lm loss": 2.10762119, "grad_norm": 0.36659297, "learning_rate": 8.065e-05, "elapsed_time_per_iteration": 4.72184038, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 25s", "remaining_time": "11h 33m 12s", "loss_scale": 1.0, "consumed_samples": 1072896, "global_step/max_steps": "4191/12700"}
{"lm loss": 2.15642333, "grad_norm": 0.38713828, "learning_rate": 8.064e-05, "elapsed_time_per_iteration": 4.97559237, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 30s", "remaining_time": "11h 33m 7s", "loss_scale": 1.0, "consumed_samples": 1073152, "global_step/max_steps": "4192/12700"}
{"lm loss": 2.14233279, "grad_norm": 0.37391675, "learning_rate": 8.063e-05, "elapsed_time_per_iteration": 4.88104606, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 35s", "remaining_time": "11h 33m 2s", "loss_scale": 1.0, "consumed_samples": 1073408, "global_step/max_steps": "4193/12700"}
{"lm loss": 2.12508178, "grad_norm": 0.42197165, "learning_rate": 8.062e-05, "elapsed_time_per_iteration": 4.82328796, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 40s", "remaining_time": "11h 32m 57s", "loss_scale": 1.0, "consumed_samples": 1073664, "global_step/max_steps": "4194/12700"}
{"lm loss": 2.14204097, "grad_norm": 0.36793831, "learning_rate": 8.061e-05, "elapsed_time_per_iteration": 4.84600306, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 45s", "remaining_time": "11h 32m 52s", "loss_scale": 1.0, "consumed_samples": 1073920, "global_step/max_steps": "4195/12700"}
{"lm loss": 2.11882901, "grad_norm": 0.44014889, "learning_rate": 8.06e-05, "elapsed_time_per_iteration": 4.84467578, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 50s", "remaining_time": "11h 32m 47s", "loss_scale": 1.0, "consumed_samples": 1074176, "global_step/max_steps": "4196/12700"}
{"lm loss": 2.13588452, "grad_norm": 0.3773227, "learning_rate": 8.059e-05, "elapsed_time_per_iteration": 4.91506386, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 55s", "remaining_time": "11h 32m 43s", "loss_scale": 1.0, "consumed_samples": 1074432, "global_step/max_steps": "4197/12700"}
{"lm loss": 2.1080451, "grad_norm": 0.38722083, "learning_rate": 8.058e-05, "elapsed_time_per_iteration": 4.7800498, "memory(GiB)": 28.98, "elapsed_time": "5h 41m 59s", "remaining_time": "11h 32m 37s", "loss_scale": 1.0, "consumed_samples": 1074688, "global_step/max_steps": "4198/12700"}
{"lm loss": 2.13382745, "grad_norm": 0.3993516, "learning_rate": 8.057e-05, "elapsed_time_per_iteration": 4.82277036, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 4s", "remaining_time": "11h 32m 32s", "loss_scale": 1.0, "consumed_samples": 1074944, "global_step/max_steps": "4199/12700"}
{"lm loss": 2.12520599, "grad_norm": 0.38595304, "learning_rate": 8.056e-05, "elapsed_time_per_iteration": 4.86301112, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 9s", "remaining_time": "11h 32m 28s", "loss_scale": 1.0, "consumed_samples": 1075200, "global_step/max_steps": "4200/12700"}
{"lm loss": 2.13209248, "grad_norm": 0.39218599, "learning_rate": 8.055e-05, "elapsed_time_per_iteration": 4.86043382, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 14s", "remaining_time": "11h 32m 23s", "loss_scale": 1.0, "consumed_samples": 1075456, "global_step/max_steps": "4201/12700"}
{"lm loss": 2.12707782, "grad_norm": 0.36629277, "learning_rate": 8.054e-05, "elapsed_time_per_iteration": 4.87213373, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 19s", "remaining_time": "11h 32m 18s", "loss_scale": 1.0, "consumed_samples": 1075712, "global_step/max_steps": "4202/12700"}
{"lm loss": 2.154531, "grad_norm": 0.39189789, "learning_rate": 8.053e-05, "elapsed_time_per_iteration": 4.85322928, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 24s", "remaining_time": "11h 32m 13s", "loss_scale": 1.0, "consumed_samples": 1075968, "global_step/max_steps": "4203/12700"}
{"lm loss": 2.11721134, "grad_norm": 0.36998665, "learning_rate": 8.052e-05, "elapsed_time_per_iteration": 4.95095968, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 29s", "remaining_time": "11h 32m 8s", "loss_scale": 1.0, "consumed_samples": 1076224, "global_step/max_steps": "4204/12700"}
{"lm loss": 2.12197804, "grad_norm": 0.40243208, "learning_rate": 8.051e-05, "elapsed_time_per_iteration": 4.91620398, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 34s", "remaining_time": "11h 32m 3s", "loss_scale": 1.0, "consumed_samples": 1076480, "global_step/max_steps": "4205/12700"}
{"lm loss": 2.13640952, "grad_norm": 0.36721149, "learning_rate": 8.05e-05, "elapsed_time_per_iteration": 4.84639716, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 38s", "remaining_time": "11h 31m 58s", "loss_scale": 1.0, "consumed_samples": 1076736, "global_step/max_steps": "4206/12700"}
{"lm loss": 2.15091324, "grad_norm": 0.38681003, "learning_rate": 8.049e-05, "elapsed_time_per_iteration": 4.85143328, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 43s", "remaining_time": "11h 31m 53s", "loss_scale": 1.0, "consumed_samples": 1076992, "global_step/max_steps": "4207/12700"}
{"lm loss": 2.11333156, "grad_norm": 0.36818704, "learning_rate": 8.048e-05, "elapsed_time_per_iteration": 4.7774508, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 48s", "remaining_time": "11h 31m 48s", "loss_scale": 1.0, "consumed_samples": 1077248, "global_step/max_steps": "4208/12700"}
{"lm loss": 2.13319945, "grad_norm": 0.38676456, "learning_rate": 8.047e-05, "elapsed_time_per_iteration": 4.80764866, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 53s", "remaining_time": "11h 31m 43s", "loss_scale": 1.0, "consumed_samples": 1077504, "global_step/max_steps": "4209/12700"}
{"lm loss": 2.0972662, "grad_norm": 0.40894631, "learning_rate": 8.046e-05, "elapsed_time_per_iteration": 4.84218669, "memory(GiB)": 28.98, "elapsed_time": "5h 42m 58s", "remaining_time": "11h 31m 38s", "loss_scale": 1.0, "consumed_samples": 1077760, "global_step/max_steps": "4210/12700"}
{"lm loss": 2.10557628, "grad_norm": 0.37157494, "learning_rate": 8.045e-05, "elapsed_time_per_iteration": 4.82178807, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 3s", "remaining_time": "11h 31m 33s", "loss_scale": 1.0, "consumed_samples": 1078016, "global_step/max_steps": "4211/12700"}
{"lm loss": 2.14464664, "grad_norm": 0.4116095, "learning_rate": 8.044e-05, "elapsed_time_per_iteration": 4.81494284, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 7s", "remaining_time": "11h 31m 28s", "loss_scale": 1.0, "consumed_samples": 1078272, "global_step/max_steps": "4212/12700"}
{"lm loss": 2.11933255, "grad_norm": 0.3671777, "learning_rate": 8.043e-05, "elapsed_time_per_iteration": 4.86438704, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 12s", "remaining_time": "11h 31m 23s", "loss_scale": 1.0, "consumed_samples": 1078528, "global_step/max_steps": "4213/12700"}
{"lm loss": 2.12131023, "grad_norm": 0.39412466, "learning_rate": 8.042e-05, "elapsed_time_per_iteration": 5.0236752, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 17s", "remaining_time": "11h 31m 18s", "loss_scale": 1.0, "consumed_samples": 1078784, "global_step/max_steps": "4214/12700"}
{"lm loss": 2.15331316, "grad_norm": 0.39518201, "learning_rate": 8.041e-05, "elapsed_time_per_iteration": 4.86993933, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 22s", "remaining_time": "11h 31m 14s", "loss_scale": 1.0, "consumed_samples": 1079040, "global_step/max_steps": "4215/12700"}
{"lm loss": 2.13997316, "grad_norm": 0.35144317, "learning_rate": 8.04e-05, "elapsed_time_per_iteration": 4.80147958, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 27s", "remaining_time": "11h 31m 8s", "loss_scale": 1.0, "consumed_samples": 1079296, "global_step/max_steps": "4216/12700"}
{"lm loss": 2.10940051, "grad_norm": 0.38589433, "learning_rate": 8.039e-05, "elapsed_time_per_iteration": 4.74737835, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 32s", "remaining_time": "11h 31m 3s", "loss_scale": 1.0, "consumed_samples": 1079552, "global_step/max_steps": "4217/12700"}
{"lm loss": 2.1082778, "grad_norm": 0.37089688, "learning_rate": 8.038e-05, "elapsed_time_per_iteration": 4.85409546, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 36s", "remaining_time": "11h 30m 58s", "loss_scale": 1.0, "consumed_samples": 1079808, "global_step/max_steps": "4218/12700"}
{"lm loss": 2.13764358, "grad_norm": 0.36180687, "learning_rate": 8.037e-05, "elapsed_time_per_iteration": 4.79875278, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 41s", "remaining_time": "11h 30m 53s", "loss_scale": 1.0, "consumed_samples": 1080064, "global_step/max_steps": "4219/12700"}
{"lm loss": 2.11841774, "grad_norm": 0.35776192, "learning_rate": 8.036e-05, "elapsed_time_per_iteration": 4.79559731, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 46s", "remaining_time": "11h 30m 48s", "loss_scale": 1.0, "consumed_samples": 1080320, "global_step/max_steps": "4220/12700"}
{"lm loss": 2.11090994, "grad_norm": 0.35923523, "learning_rate": 8.035e-05, "elapsed_time_per_iteration": 4.89056969, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 51s", "remaining_time": "11h 30m 43s", "loss_scale": 1.0, "consumed_samples": 1080576, "global_step/max_steps": "4221/12700"}
{"lm loss": 2.14072251, "grad_norm": 0.38600612, "learning_rate": 8.034e-05, "elapsed_time_per_iteration": 4.88242269, "memory(GiB)": 28.98, "elapsed_time": "5h 43m 56s", "remaining_time": "11h 30m 38s", "loss_scale": 1.0, "consumed_samples": 1080832, "global_step/max_steps": "4222/12700"}
{"lm loss": 2.10452461, "grad_norm": 0.38279587, "learning_rate": 8.033e-05, "elapsed_time_per_iteration": 4.84078526, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 1s", "remaining_time": "11h 30m 33s", "loss_scale": 1.0, "consumed_samples": 1081088, "global_step/max_steps": "4223/12700"}
{"lm loss": 2.13342428, "grad_norm": 0.37752384, "learning_rate": 8.032e-05, "elapsed_time_per_iteration": 4.9297502, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 6s", "remaining_time": "11h 30m 29s", "loss_scale": 1.0, "consumed_samples": 1081344, "global_step/max_steps": "4224/12700"}
{"lm loss": 2.12862158, "grad_norm": 0.38297227, "learning_rate": 8.031e-05, "elapsed_time_per_iteration": 4.86118078, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 10s", "remaining_time": "11h 30m 24s", "loss_scale": 1.0, "consumed_samples": 1081600, "global_step/max_steps": "4225/12700"}
{"lm loss": 2.16954923, "grad_norm": 0.41471493, "learning_rate": 8.03e-05, "elapsed_time_per_iteration": 4.80839658, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 15s", "remaining_time": "11h 30m 19s", "loss_scale": 1.0, "consumed_samples": 1081856, "global_step/max_steps": "4226/12700"}
{"lm loss": 2.09850812, "grad_norm": 0.35913903, "learning_rate": 8.029e-05, "elapsed_time_per_iteration": 4.90376282, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 20s", "remaining_time": "11h 30m 14s", "loss_scale": 1.0, "consumed_samples": 1082112, "global_step/max_steps": "4227/12700"}
{"lm loss": 2.14345455, "grad_norm": 0.40106028, "learning_rate": 8.028e-05, "elapsed_time_per_iteration": 4.94615507, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 25s", "remaining_time": "11h 30m 9s", "loss_scale": 1.0, "consumed_samples": 1082368, "global_step/max_steps": "4228/12700"}
{"lm loss": 2.11662316, "grad_norm": 0.38618436, "learning_rate": 8.027e-05, "elapsed_time_per_iteration": 4.91271806, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 30s", "remaining_time": "11h 30m 4s", "loss_scale": 1.0, "consumed_samples": 1082624, "global_step/max_steps": "4229/12700"}
{"lm loss": 2.12551713, "grad_norm": 0.38677588, "learning_rate": 8.026e-05, "elapsed_time_per_iteration": 4.85844254, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 35s", "remaining_time": "11h 29m 59s", "loss_scale": 1.0, "consumed_samples": 1082880, "global_step/max_steps": "4230/12700"}
{"lm loss": 2.11888289, "grad_norm": 0.40306354, "learning_rate": 8.025e-05, "elapsed_time_per_iteration": 4.91305113, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 40s", "remaining_time": "11h 29m 54s", "loss_scale": 1.0, "consumed_samples": 1083136, "global_step/max_steps": "4231/12700"}
{"lm loss": 2.11210656, "grad_norm": 0.35941663, "learning_rate": 8.024e-05, "elapsed_time_per_iteration": 4.94805598, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 45s", "remaining_time": "11h 29m 50s", "loss_scale": 1.0, "consumed_samples": 1083392, "global_step/max_steps": "4232/12700"}
{"lm loss": 2.12950683, "grad_norm": 0.39055192, "learning_rate": 8.023e-05, "elapsed_time_per_iteration": 4.88279343, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 50s", "remaining_time": "11h 29m 45s", "loss_scale": 1.0, "consumed_samples": 1083648, "global_step/max_steps": "4233/12700"}
{"lm loss": 2.15745044, "grad_norm": 0.40017587, "learning_rate": 8.022e-05, "elapsed_time_per_iteration": 4.84569192, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 55s", "remaining_time": "11h 29m 40s", "loss_scale": 1.0, "consumed_samples": 1083904, "global_step/max_steps": "4234/12700"}
{"lm loss": 2.10183334, "grad_norm": 0.36970761, "learning_rate": 8.021e-05, "elapsed_time_per_iteration": 4.84598541, "memory(GiB)": 28.98, "elapsed_time": "5h 44m 59s", "remaining_time": "11h 29m 35s", "loss_scale": 1.0, "consumed_samples": 1084160, "global_step/max_steps": "4235/12700"}
{"lm loss": 2.12688446, "grad_norm": 0.37780327, "learning_rate": 8.02e-05, "elapsed_time_per_iteration": 4.87947226, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 4s", "remaining_time": "11h 29m 30s", "loss_scale": 1.0, "consumed_samples": 1084416, "global_step/max_steps": "4236/12700"}
{"lm loss": 2.15412426, "grad_norm": 0.37620592, "learning_rate": 8.019e-05, "elapsed_time_per_iteration": 4.95857143, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 9s", "remaining_time": "11h 29m 25s", "loss_scale": 1.0, "consumed_samples": 1084672, "global_step/max_steps": "4237/12700"}
{"lm loss": 2.17295408, "grad_norm": 0.43207392, "learning_rate": 8.018e-05, "elapsed_time_per_iteration": 4.98063016, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 14s", "remaining_time": "11h 29m 20s", "loss_scale": 1.0, "consumed_samples": 1084928, "global_step/max_steps": "4238/12700"}
{"lm loss": 2.12607241, "grad_norm": 0.37802306, "learning_rate": 8.017e-05, "elapsed_time_per_iteration": 4.9178803, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 19s", "remaining_time": "11h 29m 16s", "loss_scale": 1.0, "consumed_samples": 1085184, "global_step/max_steps": "4239/12700"}
{"lm loss": 2.14428377, "grad_norm": 0.36778682, "learning_rate": 8.016e-05, "elapsed_time_per_iteration": 4.81904459, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 24s", "remaining_time": "11h 29m 11s", "loss_scale": 1.0, "consumed_samples": 1085440, "global_step/max_steps": "4240/12700"}
{"lm loss": 2.15896106, "grad_norm": 0.35634434, "learning_rate": 8.015e-05, "elapsed_time_per_iteration": 4.91084146, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 29s", "remaining_time": "11h 29m 6s", "loss_scale": 1.0, "consumed_samples": 1085696, "global_step/max_steps": "4241/12700"}
{"lm loss": 2.15043831, "grad_norm": 0.38650554, "learning_rate": 8.014e-05, "elapsed_time_per_iteration": 4.94951224, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 34s", "remaining_time": "11h 29m 1s", "loss_scale": 1.0, "consumed_samples": 1085952, "global_step/max_steps": "4242/12700"}
{"lm loss": 2.13342261, "grad_norm": 0.36832249, "learning_rate": 8.012e-05, "elapsed_time_per_iteration": 4.91753006, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 39s", "remaining_time": "11h 28m 56s", "loss_scale": 1.0, "consumed_samples": 1086208, "global_step/max_steps": "4243/12700"}
{"lm loss": 2.12132716, "grad_norm": 0.40093067, "learning_rate": 8.011e-05, "elapsed_time_per_iteration": 4.95991611, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 44s", "remaining_time": "11h 28m 51s", "loss_scale": 1.0, "consumed_samples": 1086464, "global_step/max_steps": "4244/12700"}
{"lm loss": 2.10066056, "grad_norm": 0.37567478, "learning_rate": 8.01e-05, "elapsed_time_per_iteration": 4.87554932, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 49s", "remaining_time": "11h 28m 46s", "loss_scale": 1.0, "consumed_samples": 1086720, "global_step/max_steps": "4245/12700"}
{"lm loss": 2.13903904, "grad_norm": 0.41038853, "learning_rate": 8.009e-05, "elapsed_time_per_iteration": 4.91946363, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 53s", "remaining_time": "11h 28m 42s", "loss_scale": 1.0, "consumed_samples": 1086976, "global_step/max_steps": "4246/12700"}
{"lm loss": 2.12485218, "grad_norm": 0.41947013, "learning_rate": 8.008e-05, "elapsed_time_per_iteration": 4.96275377, "memory(GiB)": 28.98, "elapsed_time": "5h 45m 58s", "remaining_time": "11h 28m 37s", "loss_scale": 1.0, "consumed_samples": 1087232, "global_step/max_steps": "4247/12700"}
{"lm loss": 2.12312818, "grad_norm": 0.38943458, "learning_rate": 8.007e-05, "elapsed_time_per_iteration": 4.90048337, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 3s", "remaining_time": "11h 28m 32s", "loss_scale": 1.0, "consumed_samples": 1087488, "global_step/max_steps": "4248/12700"}
{"lm loss": 2.13478303, "grad_norm": 0.39734146, "learning_rate": 8.006e-05, "elapsed_time_per_iteration": 4.86838055, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 8s", "remaining_time": "11h 28m 27s", "loss_scale": 1.0, "consumed_samples": 1087744, "global_step/max_steps": "4249/12700"}
{"lm loss": 2.11343837, "grad_norm": 0.38914603, "learning_rate": 8.005e-05, "elapsed_time_per_iteration": 4.88758135, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 13s", "remaining_time": "11h 28m 22s", "loss_scale": 1.0, "consumed_samples": 1088000, "global_step/max_steps": "4250/12700"}
{"lm loss": 2.0797894, "grad_norm": 0.41119546, "learning_rate": 8.004e-05, "elapsed_time_per_iteration": 4.93651652, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 18s", "remaining_time": "11h 28m 17s", "loss_scale": 1.0, "consumed_samples": 1088256, "global_step/max_steps": "4251/12700"}
{"lm loss": 2.10764217, "grad_norm": 0.4251368, "learning_rate": 8.003e-05, "elapsed_time_per_iteration": 4.84371734, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 23s", "remaining_time": "11h 28m 12s", "loss_scale": 1.0, "consumed_samples": 1088512, "global_step/max_steps": "4252/12700"}
{"lm loss": 2.12470698, "grad_norm": 0.38720071, "learning_rate": 8.002e-05, "elapsed_time_per_iteration": 4.86425138, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 28s", "remaining_time": "11h 28m 8s", "loss_scale": 1.0, "consumed_samples": 1088768, "global_step/max_steps": "4253/12700"}
{"lm loss": 2.13383603, "grad_norm": 0.4718219, "learning_rate": 8.001e-05, "elapsed_time_per_iteration": 4.95935464, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 33s", "remaining_time": "11h 28m 3s", "loss_scale": 1.0, "consumed_samples": 1089024, "global_step/max_steps": "4254/12700"}
{"lm loss": 2.17993712, "grad_norm": 0.39374137, "learning_rate": 8e-05, "elapsed_time_per_iteration": 4.98923898, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 38s", "remaining_time": "11h 27m 58s", "loss_scale": 1.0, "consumed_samples": 1089280, "global_step/max_steps": "4255/12700"}
{"lm loss": 2.13732457, "grad_norm": 0.40876275, "learning_rate": 7.999e-05, "elapsed_time_per_iteration": 4.91677833, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 43s", "remaining_time": "11h 27m 53s", "loss_scale": 1.0, "consumed_samples": 1089536, "global_step/max_steps": "4256/12700"}
{"lm loss": 2.12249231, "grad_norm": 0.43598396, "learning_rate": 7.998e-05, "elapsed_time_per_iteration": 4.85322905, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 47s", "remaining_time": "11h 27m 48s", "loss_scale": 1.0, "consumed_samples": 1089792, "global_step/max_steps": "4257/12700"}
{"lm loss": 2.1230886, "grad_norm": 0.37026337, "learning_rate": 7.997e-05, "elapsed_time_per_iteration": 4.83945394, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 52s", "remaining_time": "11h 27m 43s", "loss_scale": 1.0, "consumed_samples": 1090048, "global_step/max_steps": "4258/12700"}
{"lm loss": 2.136549, "grad_norm": 0.44591904, "learning_rate": 7.996e-05, "elapsed_time_per_iteration": 4.92588854, "memory(GiB)": 28.98, "elapsed_time": "5h 46m 57s", "remaining_time": "11h 27m 39s", "loss_scale": 1.0, "consumed_samples": 1090304, "global_step/max_steps": "4259/12700"}
{"lm loss": 2.13667846, "grad_norm": 0.41181177, "learning_rate": 7.995e-05, "elapsed_time_per_iteration": 4.9212563, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 2s", "remaining_time": "11h 27m 34s", "loss_scale": 1.0, "consumed_samples": 1090560, "global_step/max_steps": "4260/12700"}
{"lm loss": 2.14074206, "grad_norm": 0.3916783, "learning_rate": 7.994e-05, "elapsed_time_per_iteration": 4.84177899, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 7s", "remaining_time": "11h 27m 29s", "loss_scale": 1.0, "consumed_samples": 1090816, "global_step/max_steps": "4261/12700"}
{"lm loss": 2.13460541, "grad_norm": 0.40924138, "learning_rate": 7.993e-05, "elapsed_time_per_iteration": 4.84253764, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 12s", "remaining_time": "11h 27m 24s", "loss_scale": 1.0, "consumed_samples": 1091072, "global_step/max_steps": "4262/12700"}
{"lm loss": 2.12825608, "grad_norm": 0.37961113, "learning_rate": 7.992e-05, "elapsed_time_per_iteration": 4.82341814, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 17s", "remaining_time": "11h 27m 19s", "loss_scale": 1.0, "consumed_samples": 1091328, "global_step/max_steps": "4263/12700"}
{"lm loss": 2.17452216, "grad_norm": 0.40361434, "learning_rate": 7.991e-05, "elapsed_time_per_iteration": 4.80121112, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 21s", "remaining_time": "11h 27m 14s", "loss_scale": 1.0, "consumed_samples": 1091584, "global_step/max_steps": "4264/12700"}
{"lm loss": 2.10639095, "grad_norm": 0.36697909, "learning_rate": 7.99e-05, "elapsed_time_per_iteration": 4.82479286, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 26s", "remaining_time": "11h 27m 9s", "loss_scale": 1.0, "consumed_samples": 1091840, "global_step/max_steps": "4265/12700"}
{"lm loss": 2.12283134, "grad_norm": 0.44115975, "learning_rate": 7.989e-05, "elapsed_time_per_iteration": 4.88734031, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 31s", "remaining_time": "11h 27m 4s", "loss_scale": 1.0, "consumed_samples": 1092096, "global_step/max_steps": "4266/12700"}
{"lm loss": 2.14685273, "grad_norm": 0.42952353, "learning_rate": 7.988e-05, "elapsed_time_per_iteration": 4.89072442, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 36s", "remaining_time": "11h 26m 59s", "loss_scale": 1.0, "consumed_samples": 1092352, "global_step/max_steps": "4267/12700"}
{"lm loss": 2.11132669, "grad_norm": 0.39436892, "learning_rate": 7.987e-05, "elapsed_time_per_iteration": 4.91302013, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 41s", "remaining_time": "11h 26m 54s", "loss_scale": 1.0, "consumed_samples": 1092608, "global_step/max_steps": "4268/12700"}
{"lm loss": 2.10861015, "grad_norm": 0.42158619, "learning_rate": 7.986e-05, "elapsed_time_per_iteration": 4.95460463, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 46s", "remaining_time": "11h 26m 49s", "loss_scale": 1.0, "consumed_samples": 1092864, "global_step/max_steps": "4269/12700"}
{"lm loss": 2.15008759, "grad_norm": 0.44069138, "learning_rate": 7.985e-05, "elapsed_time_per_iteration": 4.88264966, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 51s", "remaining_time": "11h 26m 44s", "loss_scale": 1.0, "consumed_samples": 1093120, "global_step/max_steps": "4270/12700"}
{"lm loss": 2.11750245, "grad_norm": 0.38155887, "learning_rate": 7.984e-05, "elapsed_time_per_iteration": 4.8747375, "memory(GiB)": 28.98, "elapsed_time": "5h 47m 56s", "remaining_time": "11h 26m 39s", "loss_scale": 1.0, "consumed_samples": 1093376, "global_step/max_steps": "4271/12700"}
{"lm loss": 2.09802556, "grad_norm": 0.43998116, "learning_rate": 7.983e-05, "elapsed_time_per_iteration": 4.78002715, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 0s", "remaining_time": "11h 26m 34s", "loss_scale": 1.0, "consumed_samples": 1093632, "global_step/max_steps": "4272/12700"}
{"lm loss": 2.135144, "grad_norm": 0.42537838, "learning_rate": 7.982e-05, "elapsed_time_per_iteration": 4.89794922, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 5s", "remaining_time": "11h 26m 29s", "loss_scale": 1.0, "consumed_samples": 1093888, "global_step/max_steps": "4273/12700"}
{"lm loss": 2.13261604, "grad_norm": 0.3657203, "learning_rate": 7.981e-05, "elapsed_time_per_iteration": 4.86315632, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 10s", "remaining_time": "11h 26m 25s", "loss_scale": 1.0, "consumed_samples": 1094144, "global_step/max_steps": "4274/12700"}
{"lm loss": 2.09359145, "grad_norm": 0.40597451, "learning_rate": 7.98e-05, "elapsed_time_per_iteration": 4.99614882, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 15s", "remaining_time": "11h 26m 20s", "loss_scale": 1.0, "consumed_samples": 1094400, "global_step/max_steps": "4275/12700"}
{"lm loss": 2.1283145, "grad_norm": 0.39368793, "learning_rate": 7.979e-05, "elapsed_time_per_iteration": 4.8596344, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 20s", "remaining_time": "11h 26m 15s", "loss_scale": 1.0, "consumed_samples": 1094656, "global_step/max_steps": "4276/12700"}
{"lm loss": 2.10975766, "grad_norm": 0.39511627, "learning_rate": 7.978e-05, "elapsed_time_per_iteration": 4.84983277, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 25s", "remaining_time": "11h 26m 10s", "loss_scale": 1.0, "consumed_samples": 1094912, "global_step/max_steps": "4277/12700"}
{"lm loss": 2.14219236, "grad_norm": 0.40006632, "learning_rate": 7.977e-05, "elapsed_time_per_iteration": 4.9515717, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 30s", "remaining_time": "11h 26m 5s", "loss_scale": 1.0, "consumed_samples": 1095168, "global_step/max_steps": "4278/12700"}
{"lm loss": 2.14719343, "grad_norm": 0.38340652, "learning_rate": 7.976e-05, "elapsed_time_per_iteration": 4.93051028, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 35s", "remaining_time": "11h 26m 0s", "loss_scale": 1.0, "consumed_samples": 1095424, "global_step/max_steps": "4279/12700"}
{"lm loss": 2.14615583, "grad_norm": 0.40435219, "learning_rate": 7.975e-05, "elapsed_time_per_iteration": 4.90181828, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 40s", "remaining_time": "11h 25m 56s", "loss_scale": 1.0, "consumed_samples": 1095680, "global_step/max_steps": "4280/12700"}
{"lm loss": 2.14643312, "grad_norm": 0.3732022, "learning_rate": 7.974e-05, "elapsed_time_per_iteration": 4.88559365, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 45s", "remaining_time": "11h 25m 51s", "loss_scale": 1.0, "consumed_samples": 1095936, "global_step/max_steps": "4281/12700"}
{"lm loss": 2.14659023, "grad_norm": 0.40682963, "learning_rate": 7.973e-05, "elapsed_time_per_iteration": 4.92175841, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 49s", "remaining_time": "11h 25m 46s", "loss_scale": 1.0, "consumed_samples": 1096192, "global_step/max_steps": "4282/12700"}
{"lm loss": 2.10011506, "grad_norm": 0.38937354, "learning_rate": 7.972e-05, "elapsed_time_per_iteration": 4.89157915, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 54s", "remaining_time": "11h 25m 41s", "loss_scale": 1.0, "consumed_samples": 1096448, "global_step/max_steps": "4283/12700"}
{"lm loss": 2.1414566, "grad_norm": 0.42226553, "learning_rate": 7.971e-05, "elapsed_time_per_iteration": 4.8477757, "memory(GiB)": 28.98, "elapsed_time": "5h 48m 59s", "remaining_time": "11h 25m 36s", "loss_scale": 1.0, "consumed_samples": 1096704, "global_step/max_steps": "4284/12700"}
{"lm loss": 2.11954236, "grad_norm": 0.36529329, "learning_rate": 7.97e-05, "elapsed_time_per_iteration": 4.79301143, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 4s", "remaining_time": "11h 25m 31s", "loss_scale": 1.0, "consumed_samples": 1096960, "global_step/max_steps": "4285/12700"}
{"lm loss": 2.16643476, "grad_norm": 0.41415459, "learning_rate": 7.968e-05, "elapsed_time_per_iteration": 4.90347195, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 9s", "remaining_time": "11h 25m 26s", "loss_scale": 1.0, "consumed_samples": 1097216, "global_step/max_steps": "4286/12700"}
{"lm loss": 2.12424684, "grad_norm": 0.4073568, "learning_rate": 7.967e-05, "elapsed_time_per_iteration": 4.8071115, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 14s", "remaining_time": "11h 25m 21s", "loss_scale": 1.0, "consumed_samples": 1097472, "global_step/max_steps": "4287/12700"}
{"lm loss": 2.13570619, "grad_norm": 0.39946714, "learning_rate": 7.966e-05, "elapsed_time_per_iteration": 4.89708662, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 19s", "remaining_time": "11h 25m 16s", "loss_scale": 1.0, "consumed_samples": 1097728, "global_step/max_steps": "4288/12700"}
{"lm loss": 2.14287066, "grad_norm": 0.37318578, "learning_rate": 7.965e-05, "elapsed_time_per_iteration": 4.95768762, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 24s", "remaining_time": "11h 25m 11s", "loss_scale": 1.0, "consumed_samples": 1097984, "global_step/max_steps": "4289/12700"}
{"lm loss": 2.1191299, "grad_norm": 0.40990773, "learning_rate": 7.964e-05, "elapsed_time_per_iteration": 5.02354574, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 29s", "remaining_time": "11h 25m 7s", "loss_scale": 1.0, "consumed_samples": 1098240, "global_step/max_steps": "4290/12700"}
{"lm loss": 2.11908555, "grad_norm": 0.41582659, "learning_rate": 7.963e-05, "elapsed_time_per_iteration": 4.89810205, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 34s", "remaining_time": "11h 25m 2s", "loss_scale": 1.0, "consumed_samples": 1098496, "global_step/max_steps": "4291/12700"}
{"lm loss": 2.14373183, "grad_norm": 0.37874347, "learning_rate": 7.962e-05, "elapsed_time_per_iteration": 4.85010815, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 38s", "remaining_time": "11h 24m 57s", "loss_scale": 1.0, "consumed_samples": 1098752, "global_step/max_steps": "4292/12700"}
{"lm loss": 2.09331203, "grad_norm": 0.42140543, "learning_rate": 7.961e-05, "elapsed_time_per_iteration": 4.85170484, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 43s", "remaining_time": "11h 24m 52s", "loss_scale": 1.0, "consumed_samples": 1099008, "global_step/max_steps": "4293/12700"}
{"lm loss": 2.13008118, "grad_norm": 0.43883467, "learning_rate": 7.96e-05, "elapsed_time_per_iteration": 4.87977505, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 48s", "remaining_time": "11h 24m 47s", "loss_scale": 1.0, "consumed_samples": 1099264, "global_step/max_steps": "4294/12700"}
{"lm loss": 2.16770148, "grad_norm": 0.37384284, "learning_rate": 7.959e-05, "elapsed_time_per_iteration": 4.88676119, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 53s", "remaining_time": "11h 24m 42s", "loss_scale": 1.0, "consumed_samples": 1099520, "global_step/max_steps": "4295/12700"}
{"lm loss": 2.13423419, "grad_norm": 0.38478392, "learning_rate": 7.958e-05, "elapsed_time_per_iteration": 4.90758681, "memory(GiB)": 28.98, "elapsed_time": "5h 49m 58s", "remaining_time": "11h 24m 37s", "loss_scale": 1.0, "consumed_samples": 1099776, "global_step/max_steps": "4296/12700"}
{"lm loss": 2.10207891, "grad_norm": 0.41319996, "learning_rate": 7.957e-05, "elapsed_time_per_iteration": 4.79587841, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 3s", "remaining_time": "11h 24m 32s", "loss_scale": 1.0, "consumed_samples": 1100032, "global_step/max_steps": "4297/12700"}
{"lm loss": 2.17129278, "grad_norm": 0.40907565, "learning_rate": 7.956e-05, "elapsed_time_per_iteration": 4.78599143, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 7s", "remaining_time": "11h 24m 27s", "loss_scale": 1.0, "consumed_samples": 1100288, "global_step/max_steps": "4298/12700"}
{"lm loss": 2.08595109, "grad_norm": 0.40657094, "learning_rate": 7.955e-05, "elapsed_time_per_iteration": 4.84635854, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 12s", "remaining_time": "11h 24m 22s", "loss_scale": 1.0, "consumed_samples": 1100544, "global_step/max_steps": "4299/12700"}
{"lm loss": 2.14455295, "grad_norm": 0.3558853, "learning_rate": 7.954e-05, "elapsed_time_per_iteration": 4.87207556, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 17s", "remaining_time": "11h 24m 17s", "loss_scale": 1.0, "consumed_samples": 1100800, "global_step/max_steps": "4300/12700"}
{"lm loss": 2.10448575, "grad_norm": 0.41101339, "learning_rate": 7.953e-05, "elapsed_time_per_iteration": 4.74224758, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 22s", "remaining_time": "11h 24m 12s", "loss_scale": 1.0, "consumed_samples": 1101056, "global_step/max_steps": "4301/12700"}
{"lm loss": 2.16055632, "grad_norm": 0.37951156, "learning_rate": 7.952e-05, "elapsed_time_per_iteration": 4.94370151, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 27s", "remaining_time": "11h 24m 7s", "loss_scale": 1.0, "consumed_samples": 1101312, "global_step/max_steps": "4302/12700"}
{"lm loss": 2.1369133, "grad_norm": 0.37655833, "learning_rate": 7.951e-05, "elapsed_time_per_iteration": 4.88362455, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 32s", "remaining_time": "11h 24m 2s", "loss_scale": 1.0, "consumed_samples": 1101568, "global_step/max_steps": "4303/12700"}
{"lm loss": 2.12592149, "grad_norm": 0.38216123, "learning_rate": 7.95e-05, "elapsed_time_per_iteration": 4.94303799, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 37s", "remaining_time": "11h 23m 58s", "loss_scale": 1.0, "consumed_samples": 1101824, "global_step/max_steps": "4304/12700"}
{"lm loss": 2.10672116, "grad_norm": 0.38628325, "learning_rate": 7.949e-05, "elapsed_time_per_iteration": 4.9566071, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 42s", "remaining_time": "11h 23m 53s", "loss_scale": 1.0, "consumed_samples": 1102080, "global_step/max_steps": "4305/12700"}
{"lm loss": 2.11337495, "grad_norm": 0.37873027, "learning_rate": 7.948e-05, "elapsed_time_per_iteration": 4.75229764, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 46s", "remaining_time": "11h 23m 48s", "loss_scale": 1.0, "consumed_samples": 1102336, "global_step/max_steps": "4306/12700"}
{"lm loss": 2.15097809, "grad_norm": 0.37354222, "learning_rate": 7.947e-05, "elapsed_time_per_iteration": 4.82734799, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 51s", "remaining_time": "11h 23m 43s", "loss_scale": 1.0, "consumed_samples": 1102592, "global_step/max_steps": "4307/12700"}
{"lm loss": 2.11801171, "grad_norm": 0.4051995, "learning_rate": 7.946e-05, "elapsed_time_per_iteration": 4.90397477, "memory(GiB)": 28.98, "elapsed_time": "5h 50m 56s", "remaining_time": "11h 23m 38s", "loss_scale": 1.0, "consumed_samples": 1102848, "global_step/max_steps": "4308/12700"}
{"lm loss": 2.10344028, "grad_norm": 0.36313978, "learning_rate": 7.945e-05, "elapsed_time_per_iteration": 5.0861516, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 1s", "remaining_time": "11h 23m 33s", "loss_scale": 1.0, "consumed_samples": 1103104, "global_step/max_steps": "4309/12700"}
{"lm loss": 2.10026908, "grad_norm": 0.38885671, "learning_rate": 7.944e-05, "elapsed_time_per_iteration": 4.81610274, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 6s", "remaining_time": "11h 23m 28s", "loss_scale": 1.0, "consumed_samples": 1103360, "global_step/max_steps": "4310/12700"}
{"lm loss": 2.09631038, "grad_norm": 0.40647066, "learning_rate": 7.943e-05, "elapsed_time_per_iteration": 4.92947316, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 11s", "remaining_time": "11h 23m 24s", "loss_scale": 1.0, "consumed_samples": 1103616, "global_step/max_steps": "4311/12700"}
{"lm loss": 2.0879302, "grad_norm": 0.40551469, "learning_rate": 7.942e-05, "elapsed_time_per_iteration": 4.8599143, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 16s", "remaining_time": "11h 23m 19s", "loss_scale": 1.0, "consumed_samples": 1103872, "global_step/max_steps": "4312/12700"}
{"lm loss": 2.13131881, "grad_norm": 0.41996086, "learning_rate": 7.941e-05, "elapsed_time_per_iteration": 4.9592607, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 21s", "remaining_time": "11h 23m 14s", "loss_scale": 1.0, "consumed_samples": 1104128, "global_step/max_steps": "4313/12700"}
{"lm loss": 2.13324761, "grad_norm": 0.38659486, "learning_rate": 7.94e-05, "elapsed_time_per_iteration": 4.88519979, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 26s", "remaining_time": "11h 23m 9s", "loss_scale": 1.0, "consumed_samples": 1104384, "global_step/max_steps": "4314/12700"}
{"lm loss": 2.12736607, "grad_norm": 0.41216215, "learning_rate": 7.939e-05, "elapsed_time_per_iteration": 5.07442284, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 31s", "remaining_time": "11h 23m 4s", "loss_scale": 1.0, "consumed_samples": 1104640, "global_step/max_steps": "4315/12700"}
{"lm loss": 2.14423656, "grad_norm": 0.37500188, "learning_rate": 7.938e-05, "elapsed_time_per_iteration": 4.88584757, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 36s", "remaining_time": "11h 23m 0s", "loss_scale": 1.0, "consumed_samples": 1104896, "global_step/max_steps": "4316/12700"}
{"lm loss": 2.09443402, "grad_norm": 0.39003542, "learning_rate": 7.937e-05, "elapsed_time_per_iteration": 4.8152163, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 40s", "remaining_time": "11h 22m 55s", "loss_scale": 1.0, "consumed_samples": 1105152, "global_step/max_steps": "4317/12700"}
{"lm loss": 2.12549591, "grad_norm": 0.40261191, "learning_rate": 7.935e-05, "elapsed_time_per_iteration": 4.93646097, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 45s", "remaining_time": "11h 22m 50s", "loss_scale": 1.0, "consumed_samples": 1105408, "global_step/max_steps": "4318/12700"}
{"lm loss": 2.12665796, "grad_norm": 0.36868557, "learning_rate": 7.934e-05, "elapsed_time_per_iteration": 4.87468481, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 50s", "remaining_time": "11h 22m 45s", "loss_scale": 1.0, "consumed_samples": 1105664, "global_step/max_steps": "4319/12700"}
{"lm loss": 2.13484335, "grad_norm": 0.36689925, "learning_rate": 7.933e-05, "elapsed_time_per_iteration": 4.88880301, "memory(GiB)": 28.98, "elapsed_time": "5h 51m 55s", "remaining_time": "11h 22m 40s", "loss_scale": 1.0, "consumed_samples": 1105920, "global_step/max_steps": "4320/12700"}
{"lm loss": 2.13113046, "grad_norm": 0.38786694, "learning_rate": 7.932e-05, "elapsed_time_per_iteration": 4.79115534, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 0s", "remaining_time": "11h 22m 35s", "loss_scale": 1.0, "consumed_samples": 1106176, "global_step/max_steps": "4321/12700"}
{"lm loss": 2.13623405, "grad_norm": 0.35910323, "learning_rate": 7.931e-05, "elapsed_time_per_iteration": 4.88216209, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 5s", "remaining_time": "11h 22m 30s", "loss_scale": 1.0, "consumed_samples": 1106432, "global_step/max_steps": "4322/12700"}
{"lm loss": 2.16037202, "grad_norm": 0.42159703, "learning_rate": 7.93e-05, "elapsed_time_per_iteration": 4.88634658, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 10s", "remaining_time": "11h 22m 25s", "loss_scale": 1.0, "consumed_samples": 1106688, "global_step/max_steps": "4323/12700"}
{"lm loss": 2.12930584, "grad_norm": 0.35844851, "learning_rate": 7.929e-05, "elapsed_time_per_iteration": 4.85290098, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 15s", "remaining_time": "11h 22m 20s", "loss_scale": 1.0, "consumed_samples": 1106944, "global_step/max_steps": "4324/12700"}
{"lm loss": 2.12297273, "grad_norm": 0.36521253, "learning_rate": 7.928e-05, "elapsed_time_per_iteration": 4.85346246, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 19s", "remaining_time": "11h 22m 15s", "loss_scale": 1.0, "consumed_samples": 1107200, "global_step/max_steps": "4325/12700"}
{"lm loss": 2.15194798, "grad_norm": 0.36031979, "learning_rate": 7.927e-05, "elapsed_time_per_iteration": 4.96134949, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 24s", "remaining_time": "11h 22m 10s", "loss_scale": 1.0, "consumed_samples": 1107456, "global_step/max_steps": "4326/12700"}
{"lm loss": 2.10131192, "grad_norm": 0.37193879, "learning_rate": 7.926e-05, "elapsed_time_per_iteration": 4.85182524, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 29s", "remaining_time": "11h 22m 5s", "loss_scale": 1.0, "consumed_samples": 1107712, "global_step/max_steps": "4327/12700"}
{"lm loss": 2.12532687, "grad_norm": 0.35186622, "learning_rate": 7.925e-05, "elapsed_time_per_iteration": 4.98648024, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 34s", "remaining_time": "11h 22m 1s", "loss_scale": 1.0, "consumed_samples": 1107968, "global_step/max_steps": "4328/12700"}
{"lm loss": 2.13785863, "grad_norm": 0.37850615, "learning_rate": 7.924e-05, "elapsed_time_per_iteration": 4.84536457, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 39s", "remaining_time": "11h 21m 56s", "loss_scale": 1.0, "consumed_samples": 1108224, "global_step/max_steps": "4329/12700"}
{"lm loss": 2.10487866, "grad_norm": 0.3796744, "learning_rate": 7.923e-05, "elapsed_time_per_iteration": 4.86330485, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 44s", "remaining_time": "11h 21m 51s", "loss_scale": 1.0, "consumed_samples": 1108480, "global_step/max_steps": "4330/12700"}
{"lm loss": 2.15588832, "grad_norm": 0.37335479, "learning_rate": 7.922e-05, "elapsed_time_per_iteration": 4.93016577, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 49s", "remaining_time": "11h 21m 46s", "loss_scale": 1.0, "consumed_samples": 1108736, "global_step/max_steps": "4331/12700"}
{"lm loss": 2.10021901, "grad_norm": 0.3837775, "learning_rate": 7.921e-05, "elapsed_time_per_iteration": 4.84492731, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 54s", "remaining_time": "11h 21m 41s", "loss_scale": 1.0, "consumed_samples": 1108992, "global_step/max_steps": "4332/12700"}
{"lm loss": 2.07469296, "grad_norm": 0.37752262, "learning_rate": 7.92e-05, "elapsed_time_per_iteration": 4.82593679, "memory(GiB)": 28.98, "elapsed_time": "5h 52m 59s", "remaining_time": "11h 21m 36s", "loss_scale": 1.0, "consumed_samples": 1109248, "global_step/max_steps": "4333/12700"}
{"lm loss": 2.10943055, "grad_norm": 0.41588277, "learning_rate": 7.919e-05, "elapsed_time_per_iteration": 4.85519457, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 3s", "remaining_time": "11h 21m 31s", "loss_scale": 1.0, "consumed_samples": 1109504, "global_step/max_steps": "4334/12700"}
{"lm loss": 2.14693356, "grad_norm": 0.39897633, "learning_rate": 7.918e-05, "elapsed_time_per_iteration": 4.86825347, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 8s", "remaining_time": "11h 21m 26s", "loss_scale": 1.0, "consumed_samples": 1109760, "global_step/max_steps": "4335/12700"}
{"lm loss": 2.14752436, "grad_norm": 0.39291048, "learning_rate": 7.917e-05, "elapsed_time_per_iteration": 4.86502409, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 13s", "remaining_time": "11h 21m 21s", "loss_scale": 1.0, "consumed_samples": 1110016, "global_step/max_steps": "4336/12700"}
{"lm loss": 2.15423536, "grad_norm": 0.43029979, "learning_rate": 7.916e-05, "elapsed_time_per_iteration": 4.84296894, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 18s", "remaining_time": "11h 21m 16s", "loss_scale": 1.0, "consumed_samples": 1110272, "global_step/max_steps": "4337/12700"}
{"lm loss": 2.10568643, "grad_norm": 0.40022862, "learning_rate": 7.915e-05, "elapsed_time_per_iteration": 4.99363875, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 23s", "remaining_time": "11h 21m 12s", "loss_scale": 1.0, "consumed_samples": 1110528, "global_step/max_steps": "4338/12700"}
{"lm loss": 2.15343046, "grad_norm": 0.37593696, "learning_rate": 7.914e-05, "elapsed_time_per_iteration": 4.83030415, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 28s", "remaining_time": "11h 21m 7s", "loss_scale": 1.0, "consumed_samples": 1110784, "global_step/max_steps": "4339/12700"}
{"lm loss": 2.13248992, "grad_norm": 0.36553431, "learning_rate": 7.913e-05, "elapsed_time_per_iteration": 4.99147296, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 33s", "remaining_time": "11h 21m 2s", "loss_scale": 1.0, "consumed_samples": 1111040, "global_step/max_steps": "4340/12700"}
{"lm loss": 2.09740353, "grad_norm": 0.37612891, "learning_rate": 7.912e-05, "elapsed_time_per_iteration": 4.82694197, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 38s", "remaining_time": "11h 20m 57s", "loss_scale": 1.0, "consumed_samples": 1111296, "global_step/max_steps": "4341/12700"}
{"lm loss": 2.08793592, "grad_norm": 0.37740594, "learning_rate": 7.911e-05, "elapsed_time_per_iteration": 4.81005859, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 42s", "remaining_time": "11h 20m 52s", "loss_scale": 1.0, "consumed_samples": 1111552, "global_step/max_steps": "4342/12700"}
{"lm loss": 2.13444734, "grad_norm": 0.37959021, "learning_rate": 7.91e-05, "elapsed_time_per_iteration": 4.89628005, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 47s", "remaining_time": "11h 20m 47s", "loss_scale": 1.0, "consumed_samples": 1111808, "global_step/max_steps": "4343/12700"}
{"lm loss": 2.1479342, "grad_norm": 0.39406127, "learning_rate": 7.909e-05, "elapsed_time_per_iteration": 4.84267354, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 52s", "remaining_time": "11h 20m 42s", "loss_scale": 1.0, "consumed_samples": 1112064, "global_step/max_steps": "4344/12700"}
{"lm loss": 2.10546899, "grad_norm": 0.38567713, "learning_rate": 7.908e-05, "elapsed_time_per_iteration": 4.84908986, "memory(GiB)": 28.98, "elapsed_time": "5h 53m 57s", "remaining_time": "11h 20m 37s", "loss_scale": 1.0, "consumed_samples": 1112320, "global_step/max_steps": "4345/12700"}
{"lm loss": 2.09425044, "grad_norm": 0.39559069, "learning_rate": 7.906e-05, "elapsed_time_per_iteration": 4.8821156, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 2s", "remaining_time": "11h 20m 32s", "loss_scale": 1.0, "consumed_samples": 1112576, "global_step/max_steps": "4346/12700"}
{"lm loss": 2.14005613, "grad_norm": 0.40842789, "learning_rate": 7.905e-05, "elapsed_time_per_iteration": 4.87164497, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 7s", "remaining_time": "11h 20m 27s", "loss_scale": 1.0, "consumed_samples": 1112832, "global_step/max_steps": "4347/12700"}
{"lm loss": 2.15799141, "grad_norm": 0.39215812, "learning_rate": 7.904e-05, "elapsed_time_per_iteration": 4.83343291, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 12s", "remaining_time": "11h 20m 22s", "loss_scale": 1.0, "consumed_samples": 1113088, "global_step/max_steps": "4348/12700"}
{"lm loss": 2.10650063, "grad_norm": 0.38327762, "learning_rate": 7.903e-05, "elapsed_time_per_iteration": 4.81990314, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 16s", "remaining_time": "11h 20m 17s", "loss_scale": 1.0, "consumed_samples": 1113344, "global_step/max_steps": "4349/12700"}
{"lm loss": 2.1286242, "grad_norm": 0.3640801, "learning_rate": 7.902e-05, "elapsed_time_per_iteration": 4.97015762, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 21s", "remaining_time": "11h 20m 13s", "loss_scale": 1.0, "consumed_samples": 1113600, "global_step/max_steps": "4350/12700"}
{"lm loss": 2.08565354, "grad_norm": 0.35815799, "learning_rate": 7.901e-05, "elapsed_time_per_iteration": 4.87801051, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 26s", "remaining_time": "11h 20m 8s", "loss_scale": 1.0, "consumed_samples": 1113856, "global_step/max_steps": "4351/12700"}
{"lm loss": 2.13711238, "grad_norm": 0.39806283, "learning_rate": 7.9e-05, "elapsed_time_per_iteration": 4.74164939, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 31s", "remaining_time": "11h 20m 2s", "loss_scale": 1.0, "consumed_samples": 1114112, "global_step/max_steps": "4352/12700"}
{"lm loss": 2.12602925, "grad_norm": 0.34998983, "learning_rate": 7.899e-05, "elapsed_time_per_iteration": 4.90269136, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 36s", "remaining_time": "11h 19m 58s", "loss_scale": 1.0, "consumed_samples": 1114368, "global_step/max_steps": "4353/12700"}
{"lm loss": 2.10425496, "grad_norm": 0.38287401, "learning_rate": 7.898e-05, "elapsed_time_per_iteration": 4.89954591, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 41s", "remaining_time": "11h 19m 53s", "loss_scale": 1.0, "consumed_samples": 1114624, "global_step/max_steps": "4354/12700"}
{"lm loss": 2.16024947, "grad_norm": 0.37324736, "learning_rate": 7.897e-05, "elapsed_time_per_iteration": 4.93732238, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 46s", "remaining_time": "11h 19m 48s", "loss_scale": 1.0, "consumed_samples": 1114880, "global_step/max_steps": "4355/12700"}
{"lm loss": 2.10589957, "grad_norm": 0.40549827, "learning_rate": 7.896e-05, "elapsed_time_per_iteration": 4.83467627, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 51s", "remaining_time": "11h 19m 43s", "loss_scale": 1.0, "consumed_samples": 1115136, "global_step/max_steps": "4356/12700"}
{"lm loss": 2.12730169, "grad_norm": 0.369964, "learning_rate": 7.895e-05, "elapsed_time_per_iteration": 4.83735228, "memory(GiB)": 28.98, "elapsed_time": "5h 54m 55s", "remaining_time": "11h 19m 38s", "loss_scale": 1.0, "consumed_samples": 1115392, "global_step/max_steps": "4357/12700"}
{"lm loss": 2.14199996, "grad_norm": 0.43559238, "learning_rate": 7.894e-05, "elapsed_time_per_iteration": 4.84555626, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 0s", "remaining_time": "11h 19m 33s", "loss_scale": 1.0, "consumed_samples": 1115648, "global_step/max_steps": "4358/12700"}
{"lm loss": 2.13980913, "grad_norm": 0.42887449, "learning_rate": 7.893e-05, "elapsed_time_per_iteration": 4.79276609, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 5s", "remaining_time": "11h 19m 28s", "loss_scale": 1.0, "consumed_samples": 1115904, "global_step/max_steps": "4359/12700"}
{"lm loss": 2.14182138, "grad_norm": 0.38796157, "learning_rate": 7.892e-05, "elapsed_time_per_iteration": 4.86445999, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 10s", "remaining_time": "11h 19m 23s", "loss_scale": 1.0, "consumed_samples": 1116160, "global_step/max_steps": "4360/12700"}
{"lm loss": 2.12422037, "grad_norm": 0.38569862, "learning_rate": 7.891e-05, "elapsed_time_per_iteration": 4.88875365, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 15s", "remaining_time": "11h 19m 18s", "loss_scale": 1.0, "consumed_samples": 1116416, "global_step/max_steps": "4361/12700"}
{"lm loss": 2.13554668, "grad_norm": 0.38509721, "learning_rate": 7.89e-05, "elapsed_time_per_iteration": 5.06814075, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 20s", "remaining_time": "11h 19m 14s", "loss_scale": 1.0, "consumed_samples": 1116672, "global_step/max_steps": "4362/12700"}
{"lm loss": 2.07841539, "grad_norm": 0.38379306, "learning_rate": 7.889e-05, "elapsed_time_per_iteration": 4.85425639, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 25s", "remaining_time": "11h 19m 9s", "loss_scale": 1.0, "consumed_samples": 1116928, "global_step/max_steps": "4363/12700"}
{"lm loss": 2.10540462, "grad_norm": 0.38117287, "learning_rate": 7.888e-05, "elapsed_time_per_iteration": 5.06105757, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 30s", "remaining_time": "11h 19m 4s", "loss_scale": 1.0, "consumed_samples": 1117184, "global_step/max_steps": "4364/12700"}
{"lm loss": 2.12390208, "grad_norm": 0.35975176, "learning_rate": 7.887e-05, "elapsed_time_per_iteration": 4.93278265, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 35s", "remaining_time": "11h 18m 59s", "loss_scale": 1.0, "consumed_samples": 1117440, "global_step/max_steps": "4365/12700"}
{"lm loss": 2.13253617, "grad_norm": 0.39781219, "learning_rate": 7.886e-05, "elapsed_time_per_iteration": 4.90681291, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 40s", "remaining_time": "11h 18m 54s", "loss_scale": 1.0, "consumed_samples": 1117696, "global_step/max_steps": "4366/12700"}
{"lm loss": 2.14324474, "grad_norm": 0.35292101, "learning_rate": 7.885e-05, "elapsed_time_per_iteration": 4.89456248, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 45s", "remaining_time": "11h 18m 50s", "loss_scale": 1.0, "consumed_samples": 1117952, "global_step/max_steps": "4367/12700"}
{"lm loss": 2.11073756, "grad_norm": 0.37263051, "learning_rate": 7.884e-05, "elapsed_time_per_iteration": 4.81498837, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 49s", "remaining_time": "11h 18m 44s", "loss_scale": 1.0, "consumed_samples": 1118208, "global_step/max_steps": "4368/12700"}
{"lm loss": 2.1178267, "grad_norm": 0.39658633, "learning_rate": 7.883e-05, "elapsed_time_per_iteration": 4.80202818, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 54s", "remaining_time": "11h 18m 39s", "loss_scale": 1.0, "consumed_samples": 1118464, "global_step/max_steps": "4369/12700"}
{"lm loss": 2.09977818, "grad_norm": 0.36269063, "learning_rate": 7.881e-05, "elapsed_time_per_iteration": 5.00409555, "memory(GiB)": 28.98, "elapsed_time": "5h 55m 59s", "remaining_time": "11h 18m 35s", "loss_scale": 1.0, "consumed_samples": 1118720, "global_step/max_steps": "4370/12700"}
{"lm loss": 2.14733863, "grad_norm": 0.37631309, "learning_rate": 7.88e-05, "elapsed_time_per_iteration": 4.95720291, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 4s", "remaining_time": "11h 18m 30s", "loss_scale": 1.0, "consumed_samples": 1118976, "global_step/max_steps": "4371/12700"}
{"lm loss": 2.11198282, "grad_norm": 0.37509084, "learning_rate": 7.879e-05, "elapsed_time_per_iteration": 4.88421249, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 9s", "remaining_time": "11h 18m 25s", "loss_scale": 1.0, "consumed_samples": 1119232, "global_step/max_steps": "4372/12700"}
{"lm loss": 2.11225247, "grad_norm": 0.38888541, "learning_rate": 7.878e-05, "elapsed_time_per_iteration": 4.86414456, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 14s", "remaining_time": "11h 18m 20s", "loss_scale": 1.0, "consumed_samples": 1119488, "global_step/max_steps": "4373/12700"}
{"lm loss": 2.10399151, "grad_norm": 0.36433902, "learning_rate": 7.877e-05, "elapsed_time_per_iteration": 4.8224597, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 19s", "remaining_time": "11h 18m 15s", "loss_scale": 1.0, "consumed_samples": 1119744, "global_step/max_steps": "4374/12700"}
{"lm loss": 2.12995243, "grad_norm": 0.36571935, "learning_rate": 7.876e-05, "elapsed_time_per_iteration": 4.9268744, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 24s", "remaining_time": "11h 18m 10s", "loss_scale": 1.0, "consumed_samples": 1120000, "global_step/max_steps": "4375/12700"}
{"lm loss": 2.12540293, "grad_norm": 0.3629716, "learning_rate": 7.875e-05, "elapsed_time_per_iteration": 4.78394413, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 28s", "remaining_time": "11h 18m 5s", "loss_scale": 1.0, "consumed_samples": 1120256, "global_step/max_steps": "4376/12700"}
{"lm loss": 2.1297822, "grad_norm": 0.37617582, "learning_rate": 7.874e-05, "elapsed_time_per_iteration": 4.92787933, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 33s", "remaining_time": "11h 18m 0s", "loss_scale": 1.0, "consumed_samples": 1120512, "global_step/max_steps": "4377/12700"}
{"lm loss": 2.08465958, "grad_norm": 0.36767083, "learning_rate": 7.873e-05, "elapsed_time_per_iteration": 4.97977734, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 38s", "remaining_time": "11h 17m 56s", "loss_scale": 1.0, "consumed_samples": 1120768, "global_step/max_steps": "4378/12700"}
{"lm loss": 2.11459327, "grad_norm": 0.36224636, "learning_rate": 7.872e-05, "elapsed_time_per_iteration": 4.79055691, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 43s", "remaining_time": "11h 17m 51s", "loss_scale": 1.0, "consumed_samples": 1121024, "global_step/max_steps": "4379/12700"}
{"lm loss": 2.12477231, "grad_norm": 0.37928203, "learning_rate": 7.871e-05, "elapsed_time_per_iteration": 4.92182016, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 48s", "remaining_time": "11h 17m 46s", "loss_scale": 1.0, "consumed_samples": 1121280, "global_step/max_steps": "4380/12700"}
{"lm loss": 2.1171155, "grad_norm": 0.36775288, "learning_rate": 7.87e-05, "elapsed_time_per_iteration": 4.85442948, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 53s", "remaining_time": "11h 17m 41s", "loss_scale": 1.0, "consumed_samples": 1121536, "global_step/max_steps": "4381/12700"}
{"lm loss": 2.11081982, "grad_norm": 0.3888227, "learning_rate": 7.869e-05, "elapsed_time_per_iteration": 4.86861372, "memory(GiB)": 28.98, "elapsed_time": "5h 56m 58s", "remaining_time": "11h 17m 36s", "loss_scale": 1.0, "consumed_samples": 1121792, "global_step/max_steps": "4382/12700"}
{"lm loss": 2.13780785, "grad_norm": 0.38465124, "learning_rate": 7.868e-05, "elapsed_time_per_iteration": 4.88516831, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 3s", "remaining_time": "11h 17m 31s", "loss_scale": 1.0, "consumed_samples": 1122048, "global_step/max_steps": "4383/12700"}
{"lm loss": 2.08936214, "grad_norm": 0.36584708, "learning_rate": 7.867e-05, "elapsed_time_per_iteration": 4.85445642, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 7s", "remaining_time": "11h 17m 26s", "loss_scale": 1.0, "consumed_samples": 1122304, "global_step/max_steps": "4384/12700"}
{"lm loss": 2.12618828, "grad_norm": 0.40584841, "learning_rate": 7.866e-05, "elapsed_time_per_iteration": 4.77245092, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 12s", "remaining_time": "11h 17m 21s", "loss_scale": 1.0, "consumed_samples": 1122560, "global_step/max_steps": "4385/12700"}
{"lm loss": 2.10159159, "grad_norm": 0.37067527, "learning_rate": 7.865e-05, "elapsed_time_per_iteration": 4.80009031, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 17s", "remaining_time": "11h 17m 16s", "loss_scale": 1.0, "consumed_samples": 1122816, "global_step/max_steps": "4386/12700"}
{"lm loss": 2.12790704, "grad_norm": 0.3945801, "learning_rate": 7.864e-05, "elapsed_time_per_iteration": 4.84161782, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 22s", "remaining_time": "11h 17m 11s", "loss_scale": 1.0, "consumed_samples": 1123072, "global_step/max_steps": "4387/12700"}
{"lm loss": 2.09802175, "grad_norm": 0.43072981, "learning_rate": 7.863e-05, "elapsed_time_per_iteration": 4.87996507, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 27s", "remaining_time": "11h 17m 6s", "loss_scale": 1.0, "consumed_samples": 1123328, "global_step/max_steps": "4388/12700"}
{"lm loss": 2.1099596, "grad_norm": 0.35509983, "learning_rate": 7.862e-05, "elapsed_time_per_iteration": 4.87846017, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 32s", "remaining_time": "11h 17m 1s", "loss_scale": 1.0, "consumed_samples": 1123584, "global_step/max_steps": "4389/12700"}
{"lm loss": 2.14177394, "grad_norm": 0.38278952, "learning_rate": 7.861e-05, "elapsed_time_per_iteration": 4.80527401, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 36s", "remaining_time": "11h 16m 56s", "loss_scale": 1.0, "consumed_samples": 1123840, "global_step/max_steps": "4390/12700"}
{"lm loss": 2.09823918, "grad_norm": 0.35529381, "learning_rate": 7.86e-05, "elapsed_time_per_iteration": 4.86613512, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 41s", "remaining_time": "11h 16m 51s", "loss_scale": 1.0, "consumed_samples": 1124096, "global_step/max_steps": "4391/12700"}
{"lm loss": 2.17291284, "grad_norm": 0.38871041, "learning_rate": 7.858e-05, "elapsed_time_per_iteration": 4.92422485, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 46s", "remaining_time": "11h 16m 46s", "loss_scale": 1.0, "consumed_samples": 1124352, "global_step/max_steps": "4392/12700"}
{"lm loss": 2.15406084, "grad_norm": 0.38738573, "learning_rate": 7.857e-05, "elapsed_time_per_iteration": 4.84348965, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 51s", "remaining_time": "11h 16m 41s", "loss_scale": 1.0, "consumed_samples": 1124608, "global_step/max_steps": "4393/12700"}
{"lm loss": 2.1136055, "grad_norm": 0.38304147, "learning_rate": 7.856e-05, "elapsed_time_per_iteration": 4.93964005, "memory(GiB)": 28.98, "elapsed_time": "5h 57m 56s", "remaining_time": "11h 16m 37s", "loss_scale": 1.0, "consumed_samples": 1124864, "global_step/max_steps": "4394/12700"}
{"lm loss": 2.12252259, "grad_norm": 0.39268225, "learning_rate": 7.855e-05, "elapsed_time_per_iteration": 4.88174367, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 1s", "remaining_time": "11h 16m 32s", "loss_scale": 1.0, "consumed_samples": 1125120, "global_step/max_steps": "4395/12700"}
{"lm loss": 2.0882833, "grad_norm": 0.3921743, "learning_rate": 7.854e-05, "elapsed_time_per_iteration": 4.86149311, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 6s", "remaining_time": "11h 16m 27s", "loss_scale": 1.0, "consumed_samples": 1125376, "global_step/max_steps": "4396/12700"}
{"lm loss": 2.14687634, "grad_norm": 0.39638141, "learning_rate": 7.853e-05, "elapsed_time_per_iteration": 4.87030363, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 11s", "remaining_time": "11h 16m 22s", "loss_scale": 1.0, "consumed_samples": 1125632, "global_step/max_steps": "4397/12700"}
{"lm loss": 2.1304698, "grad_norm": 0.37362817, "learning_rate": 7.852e-05, "elapsed_time_per_iteration": 4.81583714, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 15s", "remaining_time": "11h 16m 17s", "loss_scale": 1.0, "consumed_samples": 1125888, "global_step/max_steps": "4398/12700"}
{"lm loss": 2.14783907, "grad_norm": 0.38997242, "learning_rate": 7.851e-05, "elapsed_time_per_iteration": 4.88942981, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 20s", "remaining_time": "11h 16m 12s", "loss_scale": 1.0, "consumed_samples": 1126144, "global_step/max_steps": "4399/12700"}
{"lm loss": 2.11071754, "grad_norm": 0.38417518, "learning_rate": 7.85e-05, "elapsed_time_per_iteration": 4.93653297, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 25s", "remaining_time": "11h 16m 7s", "loss_scale": 1.0, "consumed_samples": 1126400, "global_step/max_steps": "4400/12700"}
{"lm loss": 2.13488555, "grad_norm": 0.42643973, "learning_rate": 7.849e-05, "elapsed_time_per_iteration": 4.89325666, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 30s", "remaining_time": "11h 16m 2s", "loss_scale": 1.0, "consumed_samples": 1126656, "global_step/max_steps": "4401/12700"}
{"lm loss": 2.13690281, "grad_norm": 0.37084791, "learning_rate": 7.848e-05, "elapsed_time_per_iteration": 4.95900249, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 35s", "remaining_time": "11h 15m 58s", "loss_scale": 1.0, "consumed_samples": 1126912, "global_step/max_steps": "4402/12700"}
{"lm loss": 2.11870193, "grad_norm": 0.41293311, "learning_rate": 7.847e-05, "elapsed_time_per_iteration": 4.85246086, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 40s", "remaining_time": "11h 15m 53s", "loss_scale": 1.0, "consumed_samples": 1127168, "global_step/max_steps": "4403/12700"}
{"lm loss": 2.11239409, "grad_norm": 0.40865442, "learning_rate": 7.846e-05, "elapsed_time_per_iteration": 4.95283365, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 45s", "remaining_time": "11h 15m 48s", "loss_scale": 1.0, "consumed_samples": 1127424, "global_step/max_steps": "4404/12700"}
{"lm loss": 2.05755663, "grad_norm": 0.3835687, "learning_rate": 7.845e-05, "elapsed_time_per_iteration": 4.87975216, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 50s", "remaining_time": "11h 15m 43s", "loss_scale": 1.0, "consumed_samples": 1127680, "global_step/max_steps": "4405/12700"}
{"lm loss": 2.11570477, "grad_norm": 0.41752231, "learning_rate": 7.844e-05, "elapsed_time_per_iteration": 4.8582077, "memory(GiB)": 28.98, "elapsed_time": "5h 58m 55s", "remaining_time": "11h 15m 38s", "loss_scale": 1.0, "consumed_samples": 1127936, "global_step/max_steps": "4406/12700"}
{"lm loss": 2.13489175, "grad_norm": 0.41301203, "learning_rate": 7.843e-05, "elapsed_time_per_iteration": 4.86334372, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 0s", "remaining_time": "11h 15m 33s", "loss_scale": 1.0, "consumed_samples": 1128192, "global_step/max_steps": "4407/12700"}
{"lm loss": 2.17631364, "grad_norm": 0.36615187, "learning_rate": 7.842e-05, "elapsed_time_per_iteration": 4.85256386, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 4s", "remaining_time": "11h 15m 28s", "loss_scale": 1.0, "consumed_samples": 1128448, "global_step/max_steps": "4408/12700"}
{"lm loss": 2.10979462, "grad_norm": 0.39205495, "learning_rate": 7.841e-05, "elapsed_time_per_iteration": 4.86358333, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 9s", "remaining_time": "11h 15m 23s", "loss_scale": 1.0, "consumed_samples": 1128704, "global_step/max_steps": "4409/12700"}
{"lm loss": 2.1296041, "grad_norm": 0.41549522, "learning_rate": 7.84e-05, "elapsed_time_per_iteration": 4.77595448, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 14s", "remaining_time": "11h 15m 18s", "loss_scale": 1.0, "consumed_samples": 1128960, "global_step/max_steps": "4410/12700"}
{"lm loss": 2.08620501, "grad_norm": 0.40116131, "learning_rate": 7.839e-05, "elapsed_time_per_iteration": 5.00193024, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 19s", "remaining_time": "11h 15m 13s", "loss_scale": 1.0, "consumed_samples": 1129216, "global_step/max_steps": "4411/12700"}
{"lm loss": 2.14719725, "grad_norm": 0.42152259, "learning_rate": 7.837e-05, "elapsed_time_per_iteration": 4.7976439, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 24s", "remaining_time": "11h 15m 8s", "loss_scale": 1.0, "consumed_samples": 1129472, "global_step/max_steps": "4412/12700"}
{"lm loss": 2.13061118, "grad_norm": 0.43296811, "learning_rate": 7.836e-05, "elapsed_time_per_iteration": 5.02285171, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 29s", "remaining_time": "11h 15m 4s", "loss_scale": 1.0, "consumed_samples": 1129728, "global_step/max_steps": "4413/12700"}
{"lm loss": 2.11349869, "grad_norm": 0.44793114, "learning_rate": 7.835e-05, "elapsed_time_per_iteration": 4.93542337, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 34s", "remaining_time": "11h 14m 59s", "loss_scale": 1.0, "consumed_samples": 1129984, "global_step/max_steps": "4414/12700"}
{"lm loss": 2.16361475, "grad_norm": 0.43057835, "learning_rate": 7.834e-05, "elapsed_time_per_iteration": 4.92733407, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 39s", "remaining_time": "11h 14m 54s", "loss_scale": 1.0, "consumed_samples": 1130240, "global_step/max_steps": "4415/12700"}
{"lm loss": 2.13935137, "grad_norm": 0.3767049, "learning_rate": 7.833e-05, "elapsed_time_per_iteration": 4.80256248, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 43s", "remaining_time": "11h 14m 49s", "loss_scale": 1.0, "consumed_samples": 1130496, "global_step/max_steps": "4416/12700"}
{"lm loss": 2.11764741, "grad_norm": 0.38745999, "learning_rate": 7.832e-05, "elapsed_time_per_iteration": 4.85562587, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 48s", "remaining_time": "11h 14m 44s", "loss_scale": 1.0, "consumed_samples": 1130752, "global_step/max_steps": "4417/12700"}
{"lm loss": 2.12519836, "grad_norm": 0.4210318, "learning_rate": 7.831e-05, "elapsed_time_per_iteration": 4.84778428, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 53s", "remaining_time": "11h 14m 39s", "loss_scale": 1.0, "consumed_samples": 1131008, "global_step/max_steps": "4418/12700"}
{"lm loss": 2.14002037, "grad_norm": 0.40397322, "learning_rate": 7.83e-05, "elapsed_time_per_iteration": 4.90814424, "memory(GiB)": 28.98, "elapsed_time": "5h 59m 58s", "remaining_time": "11h 14m 34s", "loss_scale": 1.0, "consumed_samples": 1131264, "global_step/max_steps": "4419/12700"}
{"lm loss": 2.12437987, "grad_norm": 0.37773767, "learning_rate": 7.829e-05, "elapsed_time_per_iteration": 4.90847158, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 3s", "remaining_time": "11h 14m 29s", "loss_scale": 1.0, "consumed_samples": 1131520, "global_step/max_steps": "4420/12700"}
{"lm loss": 2.10706162, "grad_norm": 0.39805737, "learning_rate": 7.828e-05, "elapsed_time_per_iteration": 4.81305432, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 8s", "remaining_time": "11h 14m 24s", "loss_scale": 1.0, "consumed_samples": 1131776, "global_step/max_steps": "4421/12700"}
{"lm loss": 2.11485505, "grad_norm": 0.3767195, "learning_rate": 7.827e-05, "elapsed_time_per_iteration": 4.88048911, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 13s", "remaining_time": "11h 14m 20s", "loss_scale": 1.0, "consumed_samples": 1132032, "global_step/max_steps": "4422/12700"}
{"lm loss": 2.15741062, "grad_norm": 0.39674824, "learning_rate": 7.826e-05, "elapsed_time_per_iteration": 4.84505892, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 18s", "remaining_time": "11h 14m 15s", "loss_scale": 1.0, "consumed_samples": 1132288, "global_step/max_steps": "4423/12700"}
{"lm loss": 2.12294102, "grad_norm": 0.37995252, "learning_rate": 7.825e-05, "elapsed_time_per_iteration": 4.91001153, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 22s", "remaining_time": "11h 14m 10s", "loss_scale": 1.0, "consumed_samples": 1132544, "global_step/max_steps": "4424/12700"}
{"lm loss": 2.15452123, "grad_norm": 0.39567369, "learning_rate": 7.824e-05, "elapsed_time_per_iteration": 4.94431543, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 27s", "remaining_time": "11h 14m 5s", "loss_scale": 1.0, "consumed_samples": 1132800, "global_step/max_steps": "4425/12700"}
{"lm loss": 2.15368605, "grad_norm": 0.37408271, "learning_rate": 7.823e-05, "elapsed_time_per_iteration": 4.89122629, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 32s", "remaining_time": "11h 14m 0s", "loss_scale": 1.0, "consumed_samples": 1133056, "global_step/max_steps": "4426/12700"}
{"lm loss": 2.12309504, "grad_norm": 0.37700593, "learning_rate": 7.822e-05, "elapsed_time_per_iteration": 4.81361818, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 37s", "remaining_time": "11h 13m 55s", "loss_scale": 1.0, "consumed_samples": 1133312, "global_step/max_steps": "4427/12700"}
{"lm loss": 2.13260031, "grad_norm": 0.39712489, "learning_rate": 7.821e-05, "elapsed_time_per_iteration": 4.82557845, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 42s", "remaining_time": "11h 13m 50s", "loss_scale": 1.0, "consumed_samples": 1133568, "global_step/max_steps": "4428/12700"}
{"lm loss": 2.16790748, "grad_norm": 0.40675807, "learning_rate": 7.82e-05, "elapsed_time_per_iteration": 4.82872534, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 47s", "remaining_time": "11h 13m 45s", "loss_scale": 1.0, "consumed_samples": 1133824, "global_step/max_steps": "4429/12700"}
{"lm loss": 2.10519409, "grad_norm": 0.37775692, "learning_rate": 7.819e-05, "elapsed_time_per_iteration": 4.89839506, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 52s", "remaining_time": "11h 13m 40s", "loss_scale": 1.0, "consumed_samples": 1134080, "global_step/max_steps": "4430/12700"}
{"lm loss": 2.12704968, "grad_norm": 0.39069244, "learning_rate": 7.817e-05, "elapsed_time_per_iteration": 4.95439553, "memory(GiB)": 28.98, "elapsed_time": "6h 0m 57s", "remaining_time": "11h 13m 35s", "loss_scale": 1.0, "consumed_samples": 1134336, "global_step/max_steps": "4431/12700"}
{"lm loss": 2.10655499, "grad_norm": 0.38061118, "learning_rate": 7.816e-05, "elapsed_time_per_iteration": 4.79516816, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 1s", "remaining_time": "11h 13m 30s", "loss_scale": 1.0, "consumed_samples": 1134592, "global_step/max_steps": "4432/12700"}
{"lm loss": 2.10825515, "grad_norm": 0.39586225, "learning_rate": 7.815e-05, "elapsed_time_per_iteration": 4.94801664, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 6s", "remaining_time": "11h 13m 26s", "loss_scale": 1.0, "consumed_samples": 1134848, "global_step/max_steps": "4433/12700"}
{"lm loss": 2.07169962, "grad_norm": 0.38907337, "learning_rate": 7.814e-05, "elapsed_time_per_iteration": 4.84612346, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 11s", "remaining_time": "11h 13m 21s", "loss_scale": 1.0, "consumed_samples": 1135104, "global_step/max_steps": "4434/12700"}
{"lm loss": 2.07490826, "grad_norm": 0.35758099, "learning_rate": 7.813e-05, "elapsed_time_per_iteration": 4.82234383, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 16s", "remaining_time": "11h 13m 16s", "loss_scale": 1.0, "consumed_samples": 1135360, "global_step/max_steps": "4435/12700"}
{"lm loss": 2.13166547, "grad_norm": 0.40428773, "learning_rate": 7.812e-05, "elapsed_time_per_iteration": 4.81539607, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 21s", "remaining_time": "11h 13m 11s", "loss_scale": 1.0, "consumed_samples": 1135616, "global_step/max_steps": "4436/12700"}
{"lm loss": 2.12076211, "grad_norm": 0.38636047, "learning_rate": 7.811e-05, "elapsed_time_per_iteration": 4.95520282, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 26s", "remaining_time": "11h 13m 6s", "loss_scale": 1.0, "consumed_samples": 1135872, "global_step/max_steps": "4437/12700"}
{"lm loss": 2.09243917, "grad_norm": 0.35427049, "learning_rate": 7.81e-05, "elapsed_time_per_iteration": 4.95530057, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 31s", "remaining_time": "11h 13m 1s", "loss_scale": 1.0, "consumed_samples": 1136128, "global_step/max_steps": "4438/12700"}
{"lm loss": 2.16490936, "grad_norm": 0.38599533, "learning_rate": 7.809e-05, "elapsed_time_per_iteration": 4.96850872, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 36s", "remaining_time": "11h 12m 56s", "loss_scale": 1.0, "consumed_samples": 1136384, "global_step/max_steps": "4439/12700"}
{"lm loss": 2.14095521, "grad_norm": 0.35629356, "learning_rate": 7.808e-05, "elapsed_time_per_iteration": 4.95639563, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 41s", "remaining_time": "11h 12m 52s", "loss_scale": 1.0, "consumed_samples": 1136640, "global_step/max_steps": "4440/12700"}
{"lm loss": 2.1778841, "grad_norm": 0.38602093, "learning_rate": 7.807e-05, "elapsed_time_per_iteration": 4.89717579, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 46s", "remaining_time": "11h 12m 47s", "loss_scale": 1.0, "consumed_samples": 1136896, "global_step/max_steps": "4441/12700"}
{"lm loss": 2.12078834, "grad_norm": 0.37974367, "learning_rate": 7.806e-05, "elapsed_time_per_iteration": 4.89370513, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 50s", "remaining_time": "11h 12m 42s", "loss_scale": 1.0, "consumed_samples": 1137152, "global_step/max_steps": "4442/12700"}
{"lm loss": 2.11665845, "grad_norm": 0.3820709, "learning_rate": 7.805e-05, "elapsed_time_per_iteration": 4.91246057, "memory(GiB)": 28.98, "elapsed_time": "6h 1m 55s", "remaining_time": "11h 12m 37s", "loss_scale": 1.0, "consumed_samples": 1137408, "global_step/max_steps": "4443/12700"}
{"lm loss": 2.10320497, "grad_norm": 0.37149233, "learning_rate": 7.804e-05, "elapsed_time_per_iteration": 4.92000771, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 0s", "remaining_time": "11h 12m 32s", "loss_scale": 1.0, "consumed_samples": 1137664, "global_step/max_steps": "4444/12700"}
{"lm loss": 2.10037899, "grad_norm": 0.39500949, "learning_rate": 7.803e-05, "elapsed_time_per_iteration": 4.98323441, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 5s", "remaining_time": "11h 12m 27s", "loss_scale": 1.0, "consumed_samples": 1137920, "global_step/max_steps": "4445/12700"}
{"lm loss": 2.10499644, "grad_norm": 0.36837175, "learning_rate": 7.802e-05, "elapsed_time_per_iteration": 5.05986404, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 10s", "remaining_time": "11h 12m 23s", "loss_scale": 1.0, "consumed_samples": 1138176, "global_step/max_steps": "4446/12700"}
{"lm loss": 2.16144729, "grad_norm": 0.36499509, "learning_rate": 7.801e-05, "elapsed_time_per_iteration": 4.81793141, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 15s", "remaining_time": "11h 12m 18s", "loss_scale": 1.0, "consumed_samples": 1138432, "global_step/max_steps": "4447/12700"}
{"lm loss": 2.13108063, "grad_norm": 0.37000915, "learning_rate": 7.8e-05, "elapsed_time_per_iteration": 4.9613905, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 20s", "remaining_time": "11h 12m 13s", "loss_scale": 1.0, "consumed_samples": 1138688, "global_step/max_steps": "4448/12700"}
{"lm loss": 2.13913608, "grad_norm": 0.35725388, "learning_rate": 7.798e-05, "elapsed_time_per_iteration": 4.84287453, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 25s", "remaining_time": "11h 12m 8s", "loss_scale": 1.0, "consumed_samples": 1138944, "global_step/max_steps": "4449/12700"}
{"lm loss": 2.10728621, "grad_norm": 0.37646049, "learning_rate": 7.797e-05, "elapsed_time_per_iteration": 4.86801291, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 30s", "remaining_time": "11h 12m 3s", "loss_scale": 1.0, "consumed_samples": 1139200, "global_step/max_steps": "4450/12700"}
{"lm loss": 2.13709259, "grad_norm": 0.38800696, "learning_rate": 7.796e-05, "elapsed_time_per_iteration": 4.87283373, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 35s", "remaining_time": "11h 11m 58s", "loss_scale": 1.0, "consumed_samples": 1139456, "global_step/max_steps": "4451/12700"}
{"lm loss": 2.11921763, "grad_norm": 0.35858279, "learning_rate": 7.795e-05, "elapsed_time_per_iteration": 4.78171349, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 39s", "remaining_time": "11h 11m 53s", "loss_scale": 1.0, "consumed_samples": 1139712, "global_step/max_steps": "4452/12700"}
{"lm loss": 2.16342163, "grad_norm": 0.42106998, "learning_rate": 7.794e-05, "elapsed_time_per_iteration": 4.77078891, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 44s", "remaining_time": "11h 11m 48s", "loss_scale": 1.0, "consumed_samples": 1139968, "global_step/max_steps": "4453/12700"}
{"lm loss": 2.12351513, "grad_norm": 0.37065351, "learning_rate": 7.793e-05, "elapsed_time_per_iteration": 4.82159925, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 49s", "remaining_time": "11h 11m 43s", "loss_scale": 1.0, "consumed_samples": 1140224, "global_step/max_steps": "4454/12700"}
{"lm loss": 2.14802551, "grad_norm": 0.39529568, "learning_rate": 7.792e-05, "elapsed_time_per_iteration": 4.80402541, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 54s", "remaining_time": "11h 11m 38s", "loss_scale": 1.0, "consumed_samples": 1140480, "global_step/max_steps": "4455/12700"}
{"lm loss": 2.10654259, "grad_norm": 0.39969528, "learning_rate": 7.791e-05, "elapsed_time_per_iteration": 4.8597858, "memory(GiB)": 28.98, "elapsed_time": "6h 2m 59s", "remaining_time": "11h 11m 33s", "loss_scale": 1.0, "consumed_samples": 1140736, "global_step/max_steps": "4456/12700"}
{"lm loss": 2.10956645, "grad_norm": 0.40759107, "learning_rate": 7.79e-05, "elapsed_time_per_iteration": 4.88992524, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 4s", "remaining_time": "11h 11m 28s", "loss_scale": 1.0, "consumed_samples": 1140992, "global_step/max_steps": "4457/12700"}
{"lm loss": 2.10872149, "grad_norm": 0.38129464, "learning_rate": 7.789e-05, "elapsed_time_per_iteration": 4.83606172, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 8s", "remaining_time": "11h 11m 23s", "loss_scale": 1.0, "consumed_samples": 1141248, "global_step/max_steps": "4458/12700"}
{"lm loss": 2.15815568, "grad_norm": 0.37790257, "learning_rate": 7.788e-05, "elapsed_time_per_iteration": 4.7972703, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 13s", "remaining_time": "11h 11m 18s", "loss_scale": 1.0, "consumed_samples": 1141504, "global_step/max_steps": "4459/12700"}
{"lm loss": 2.1084857, "grad_norm": 0.39011171, "learning_rate": 7.787e-05, "elapsed_time_per_iteration": 5.0520792, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 18s", "remaining_time": "11h 11m 14s", "loss_scale": 1.0, "consumed_samples": 1141760, "global_step/max_steps": "4460/12700"}
{"lm loss": 2.13416767, "grad_norm": 0.37847281, "learning_rate": 7.786e-05, "elapsed_time_per_iteration": 4.91701198, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 23s", "remaining_time": "11h 11m 9s", "loss_scale": 1.0, "consumed_samples": 1142016, "global_step/max_steps": "4461/12700"}
{"lm loss": 2.12476254, "grad_norm": 0.37113592, "learning_rate": 7.785e-05, "elapsed_time_per_iteration": 4.9918232, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 28s", "remaining_time": "11h 11m 4s", "loss_scale": 1.0, "consumed_samples": 1142272, "global_step/max_steps": "4462/12700"}
{"lm loss": 2.1054678, "grad_norm": 0.4028556, "learning_rate": 7.784e-05, "elapsed_time_per_iteration": 4.88882399, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 33s", "remaining_time": "11h 10m 59s", "loss_scale": 1.0, "consumed_samples": 1142528, "global_step/max_steps": "4463/12700"}
{"lm loss": 2.14613366, "grad_norm": 0.35901636, "learning_rate": 7.783e-05, "elapsed_time_per_iteration": 4.86742043, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 38s", "remaining_time": "11h 10m 54s", "loss_scale": 1.0, "consumed_samples": 1142784, "global_step/max_steps": "4464/12700"}
{"lm loss": 2.10568237, "grad_norm": 0.37270555, "learning_rate": 7.782e-05, "elapsed_time_per_iteration": 4.82536054, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 43s", "remaining_time": "11h 10m 49s", "loss_scale": 1.0, "consumed_samples": 1143040, "global_step/max_steps": "4465/12700"}
{"lm loss": 2.10152459, "grad_norm": 0.37862673, "learning_rate": 7.78e-05, "elapsed_time_per_iteration": 4.84279156, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 48s", "remaining_time": "11h 10m 44s", "loss_scale": 1.0, "consumed_samples": 1143296, "global_step/max_steps": "4466/12700"}
{"lm loss": 2.15072966, "grad_norm": 0.36313337, "learning_rate": 7.779e-05, "elapsed_time_per_iteration": 4.90573096, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 53s", "remaining_time": "11h 10m 39s", "loss_scale": 1.0, "consumed_samples": 1143552, "global_step/max_steps": "4467/12700"}
{"lm loss": 2.09680319, "grad_norm": 0.38156256, "learning_rate": 7.778e-05, "elapsed_time_per_iteration": 4.90556884, "memory(GiB)": 28.98, "elapsed_time": "6h 3m 57s", "remaining_time": "11h 10m 35s", "loss_scale": 1.0, "consumed_samples": 1143808, "global_step/max_steps": "4468/12700"}
{"lm loss": 2.12566113, "grad_norm": 0.37399739, "learning_rate": 7.777e-05, "elapsed_time_per_iteration": 4.87752032, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 2s", "remaining_time": "11h 10m 30s", "loss_scale": 1.0, "consumed_samples": 1144064, "global_step/max_steps": "4469/12700"}
{"lm loss": 2.13286424, "grad_norm": 0.39071694, "learning_rate": 7.776e-05, "elapsed_time_per_iteration": 4.85796762, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 7s", "remaining_time": "11h 10m 25s", "loss_scale": 1.0, "consumed_samples": 1144320, "global_step/max_steps": "4470/12700"}
{"lm loss": 2.15965843, "grad_norm": 0.35671678, "learning_rate": 7.775e-05, "elapsed_time_per_iteration": 4.84171081, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 12s", "remaining_time": "11h 10m 20s", "loss_scale": 1.0, "consumed_samples": 1144576, "global_step/max_steps": "4471/12700"}
{"lm loss": 2.14405179, "grad_norm": 0.3863053, "learning_rate": 7.774e-05, "elapsed_time_per_iteration": 4.84397626, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 17s", "remaining_time": "11h 10m 15s", "loss_scale": 1.0, "consumed_samples": 1144832, "global_step/max_steps": "4472/12700"}
{"lm loss": 2.14127898, "grad_norm": 0.36746123, "learning_rate": 7.773e-05, "elapsed_time_per_iteration": 4.91522431, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 22s", "remaining_time": "11h 10m 10s", "loss_scale": 1.0, "consumed_samples": 1145088, "global_step/max_steps": "4473/12700"}
{"lm loss": 2.16330767, "grad_norm": 0.38140455, "learning_rate": 7.772e-05, "elapsed_time_per_iteration": 4.90178514, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 27s", "remaining_time": "11h 10m 5s", "loss_scale": 1.0, "consumed_samples": 1145344, "global_step/max_steps": "4474/12700"}
{"lm loss": 2.12400699, "grad_norm": 0.37628546, "learning_rate": 7.771e-05, "elapsed_time_per_iteration": 4.86485982, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 32s", "remaining_time": "11h 10m 0s", "loss_scale": 1.0, "consumed_samples": 1145600, "global_step/max_steps": "4475/12700"}
{"lm loss": 2.12517929, "grad_norm": 0.38787681, "learning_rate": 7.77e-05, "elapsed_time_per_iteration": 4.88582158, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 36s", "remaining_time": "11h 9m 55s", "loss_scale": 1.0, "consumed_samples": 1145856, "global_step/max_steps": "4476/12700"}
{"lm loss": 2.09600735, "grad_norm": 0.36899707, "learning_rate": 7.769e-05, "elapsed_time_per_iteration": 5.06726527, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 42s", "remaining_time": "11h 9m 51s", "loss_scale": 1.0, "consumed_samples": 1146112, "global_step/max_steps": "4477/12700"}
{"lm loss": 2.16909933, "grad_norm": 0.38710749, "learning_rate": 7.768e-05, "elapsed_time_per_iteration": 4.80356169, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 46s", "remaining_time": "11h 9m 46s", "loss_scale": 1.0, "consumed_samples": 1146368, "global_step/max_steps": "4478/12700"}
{"lm loss": 2.100384, "grad_norm": 0.34244058, "learning_rate": 7.767e-05, "elapsed_time_per_iteration": 4.80649447, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 51s", "remaining_time": "11h 9m 41s", "loss_scale": 1.0, "consumed_samples": 1146624, "global_step/max_steps": "4479/12700"}
{"lm loss": 2.10782957, "grad_norm": 0.36663204, "learning_rate": 7.766e-05, "elapsed_time_per_iteration": 5.04092836, "memory(GiB)": 28.98, "elapsed_time": "6h 4m 56s", "remaining_time": "11h 9m 36s", "loss_scale": 1.0, "consumed_samples": 1146880, "global_step/max_steps": "4480/12700"}
{"lm loss": 2.1122942, "grad_norm": 0.37462607, "learning_rate": 7.765e-05, "elapsed_time_per_iteration": 4.81990051, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 1s", "remaining_time": "11h 9m 31s", "loss_scale": 1.0, "consumed_samples": 1147136, "global_step/max_steps": "4481/12700"}
{"lm loss": 2.12436008, "grad_norm": 0.38350606, "learning_rate": 7.763e-05, "elapsed_time_per_iteration": 4.86756349, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 6s", "remaining_time": "11h 9m 26s", "loss_scale": 1.0, "consumed_samples": 1147392, "global_step/max_steps": "4482/12700"}
{"lm loss": 2.11637044, "grad_norm": 0.39467523, "learning_rate": 7.762e-05, "elapsed_time_per_iteration": 4.98347259, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 11s", "remaining_time": "11h 9m 21s", "loss_scale": 1.0, "consumed_samples": 1147648, "global_step/max_steps": "4483/12700"}
{"lm loss": 2.15459609, "grad_norm": 0.36874706, "learning_rate": 7.761e-05, "elapsed_time_per_iteration": 4.95825028, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 16s", "remaining_time": "11h 9m 17s", "loss_scale": 1.0, "consumed_samples": 1147904, "global_step/max_steps": "4484/12700"}
{"lm loss": 2.1271255, "grad_norm": 0.37657455, "learning_rate": 7.76e-05, "elapsed_time_per_iteration": 4.8367188, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 21s", "remaining_time": "11h 9m 12s", "loss_scale": 1.0, "consumed_samples": 1148160, "global_step/max_steps": "4485/12700"}
{"lm loss": 2.11819577, "grad_norm": 0.37624645, "learning_rate": 7.759e-05, "elapsed_time_per_iteration": 4.99703407, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 26s", "remaining_time": "11h 9m 7s", "loss_scale": 1.0, "consumed_samples": 1148416, "global_step/max_steps": "4486/12700"}
{"lm loss": 2.10862827, "grad_norm": 0.38213339, "learning_rate": 7.758e-05, "elapsed_time_per_iteration": 4.96506333, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 31s", "remaining_time": "11h 9m 2s", "loss_scale": 1.0, "consumed_samples": 1148672, "global_step/max_steps": "4487/12700"}
{"lm loss": 2.14291024, "grad_norm": 0.39117843, "learning_rate": 7.757e-05, "elapsed_time_per_iteration": 4.88786364, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 35s", "remaining_time": "11h 8m 57s", "loss_scale": 1.0, "consumed_samples": 1148928, "global_step/max_steps": "4488/12700"}
{"lm loss": 2.15254617, "grad_norm": 0.3814204, "learning_rate": 7.756e-05, "elapsed_time_per_iteration": 4.87982368, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 40s", "remaining_time": "11h 8m 52s", "loss_scale": 1.0, "consumed_samples": 1149184, "global_step/max_steps": "4489/12700"}
{"lm loss": 2.14031649, "grad_norm": 0.37714693, "learning_rate": 7.755e-05, "elapsed_time_per_iteration": 4.91084671, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 45s", "remaining_time": "11h 8m 48s", "loss_scale": 1.0, "consumed_samples": 1149440, "global_step/max_steps": "4490/12700"}
{"lm loss": 2.15493083, "grad_norm": 0.4066627, "learning_rate": 7.754e-05, "elapsed_time_per_iteration": 4.95776606, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 50s", "remaining_time": "11h 8m 43s", "loss_scale": 1.0, "consumed_samples": 1149696, "global_step/max_steps": "4491/12700"}
{"lm loss": 2.12545013, "grad_norm": 0.40212023, "learning_rate": 7.753e-05, "elapsed_time_per_iteration": 4.88180876, "memory(GiB)": 28.98, "elapsed_time": "6h 5m 55s", "remaining_time": "11h 8m 38s", "loss_scale": 1.0, "consumed_samples": 1149952, "global_step/max_steps": "4492/12700"}
{"lm loss": 2.16407943, "grad_norm": 0.3975037, "learning_rate": 7.752e-05, "elapsed_time_per_iteration": 4.86642504, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 0s", "remaining_time": "11h 8m 33s", "loss_scale": 1.0, "consumed_samples": 1150208, "global_step/max_steps": "4493/12700"}
{"lm loss": 2.09697056, "grad_norm": 0.3927044, "learning_rate": 7.751e-05, "elapsed_time_per_iteration": 4.82613659, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 5s", "remaining_time": "11h 8m 28s", "loss_scale": 1.0, "consumed_samples": 1150464, "global_step/max_steps": "4494/12700"}
{"lm loss": 2.1296525, "grad_norm": 0.37612879, "learning_rate": 7.75e-05, "elapsed_time_per_iteration": 4.89275599, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 10s", "remaining_time": "11h 8m 23s", "loss_scale": 1.0, "consumed_samples": 1150720, "global_step/max_steps": "4495/12700"}
{"lm loss": 2.13245845, "grad_norm": 0.40649912, "learning_rate": 7.749e-05, "elapsed_time_per_iteration": 4.83910155, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 15s", "remaining_time": "11h 8m 18s", "loss_scale": 1.0, "consumed_samples": 1150976, "global_step/max_steps": "4496/12700"}
{"lm loss": 2.13832378, "grad_norm": 0.35556674, "learning_rate": 7.747e-05, "elapsed_time_per_iteration": 4.81273746, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 19s", "remaining_time": "11h 8m 13s", "loss_scale": 1.0, "consumed_samples": 1151232, "global_step/max_steps": "4497/12700"}
{"lm loss": 2.09735274, "grad_norm": 0.38924491, "learning_rate": 7.746e-05, "elapsed_time_per_iteration": 4.8862865, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 24s", "remaining_time": "11h 8m 8s", "loss_scale": 1.0, "consumed_samples": 1151488, "global_step/max_steps": "4498/12700"}
{"lm loss": 2.13985157, "grad_norm": 0.37903446, "learning_rate": 7.745e-05, "elapsed_time_per_iteration": 4.88457894, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 29s", "remaining_time": "11h 8m 3s", "loss_scale": 1.0, "consumed_samples": 1151744, "global_step/max_steps": "4499/12700"}
{"lm loss": 2.11108375, "grad_norm": 0.39951736, "learning_rate": 7.744e-05, "elapsed_time_per_iteration": 4.83747363, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 34s", "remaining_time": "11h 7m 58s", "loss_scale": 1.0, "consumed_samples": 1152000, "global_step/max_steps": "4500/12700"}
{"lm loss": 2.12551641, "grad_norm": 0.38246715, "learning_rate": 7.743e-05, "elapsed_time_per_iteration": 4.88249016, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 39s", "remaining_time": "11h 7m 53s", "loss_scale": 1.0, "consumed_samples": 1152256, "global_step/max_steps": "4501/12700"}
{"lm loss": 2.09006834, "grad_norm": 0.37378934, "learning_rate": 7.742e-05, "elapsed_time_per_iteration": 4.92256165, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 44s", "remaining_time": "11h 7m 49s", "loss_scale": 1.0, "consumed_samples": 1152512, "global_step/max_steps": "4502/12700"}
{"lm loss": 2.14300823, "grad_norm": 0.42538857, "learning_rate": 7.741e-05, "elapsed_time_per_iteration": 4.87722945, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 49s", "remaining_time": "11h 7m 44s", "loss_scale": 1.0, "consumed_samples": 1152768, "global_step/max_steps": "4503/12700"}
{"lm loss": 2.10861135, "grad_norm": 0.36656368, "learning_rate": 7.74e-05, "elapsed_time_per_iteration": 4.87842441, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 54s", "remaining_time": "11h 7m 39s", "loss_scale": 1.0, "consumed_samples": 1153024, "global_step/max_steps": "4504/12700"}
{"lm loss": 2.15511489, "grad_norm": 0.38284874, "learning_rate": 7.739e-05, "elapsed_time_per_iteration": 4.88992786, "memory(GiB)": 28.98, "elapsed_time": "6h 6m 58s", "remaining_time": "11h 7m 34s", "loss_scale": 1.0, "consumed_samples": 1153280, "global_step/max_steps": "4505/12700"}
{"lm loss": 2.14065981, "grad_norm": 0.38959083, "learning_rate": 7.738e-05, "elapsed_time_per_iteration": 4.89104438, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 3s", "remaining_time": "11h 7m 29s", "loss_scale": 1.0, "consumed_samples": 1153536, "global_step/max_steps": "4506/12700"}
{"lm loss": 2.13008642, "grad_norm": 0.39495614, "learning_rate": 7.737e-05, "elapsed_time_per_iteration": 4.83316231, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 8s", "remaining_time": "11h 7m 24s", "loss_scale": 1.0, "consumed_samples": 1153792, "global_step/max_steps": "4507/12700"}
{"lm loss": 2.15391827, "grad_norm": 0.3718845, "learning_rate": 7.736e-05, "elapsed_time_per_iteration": 4.79889774, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 13s", "remaining_time": "11h 7m 19s", "loss_scale": 1.0, "consumed_samples": 1154048, "global_step/max_steps": "4508/12700"}
{"lm loss": 2.12426996, "grad_norm": 0.3565942, "learning_rate": 7.735e-05, "elapsed_time_per_iteration": 4.88635182, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 18s", "remaining_time": "11h 7m 14s", "loss_scale": 1.0, "consumed_samples": 1154304, "global_step/max_steps": "4509/12700"}
{"lm loss": 2.1225493, "grad_norm": 0.42745098, "learning_rate": 7.734e-05, "elapsed_time_per_iteration": 5.00997186, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 23s", "remaining_time": "11h 7m 9s", "loss_scale": 1.0, "consumed_samples": 1154560, "global_step/max_steps": "4510/12700"}
{"lm loss": 2.14078426, "grad_norm": 0.39965609, "learning_rate": 7.733e-05, "elapsed_time_per_iteration": 4.86856246, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 28s", "remaining_time": "11h 7m 4s", "loss_scale": 1.0, "consumed_samples": 1154816, "global_step/max_steps": "4511/12700"}
{"lm loss": 2.10866952, "grad_norm": 0.38924283, "learning_rate": 7.731e-05, "elapsed_time_per_iteration": 4.80607796, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 33s", "remaining_time": "11h 6m 59s", "loss_scale": 1.0, "consumed_samples": 1155072, "global_step/max_steps": "4512/12700"}
{"lm loss": 2.13269019, "grad_norm": 0.37777784, "learning_rate": 7.73e-05, "elapsed_time_per_iteration": 4.84322953, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 37s", "remaining_time": "11h 6m 54s", "loss_scale": 1.0, "consumed_samples": 1155328, "global_step/max_steps": "4513/12700"}
{"lm loss": 2.14385986, "grad_norm": 0.39909396, "learning_rate": 7.729e-05, "elapsed_time_per_iteration": 4.98320794, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 42s", "remaining_time": "11h 6m 50s", "loss_scale": 1.0, "consumed_samples": 1155584, "global_step/max_steps": "4514/12700"}
{"lm loss": 2.10593891, "grad_norm": 0.38322681, "learning_rate": 7.728e-05, "elapsed_time_per_iteration": 4.86187816, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 47s", "remaining_time": "11h 6m 45s", "loss_scale": 1.0, "consumed_samples": 1155840, "global_step/max_steps": "4515/12700"}
{"lm loss": 2.12871885, "grad_norm": 0.42062688, "learning_rate": 7.727e-05, "elapsed_time_per_iteration": 4.85089231, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 52s", "remaining_time": "11h 6m 40s", "loss_scale": 1.0, "consumed_samples": 1156096, "global_step/max_steps": "4516/12700"}
{"lm loss": 2.13337159, "grad_norm": 0.39704257, "learning_rate": 7.726e-05, "elapsed_time_per_iteration": 4.81535578, "memory(GiB)": 28.98, "elapsed_time": "6h 7m 57s", "remaining_time": "11h 6m 35s", "loss_scale": 1.0, "consumed_samples": 1156352, "global_step/max_steps": "4517/12700"}
{"lm loss": 2.14637089, "grad_norm": 0.3742843, "learning_rate": 7.725e-05, "elapsed_time_per_iteration": 4.83791065, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 2s", "remaining_time": "11h 6m 30s", "loss_scale": 1.0, "consumed_samples": 1156608, "global_step/max_steps": "4518/12700"}
{"lm loss": 2.15222025, "grad_norm": 0.3809374, "learning_rate": 7.724e-05, "elapsed_time_per_iteration": 4.87068605, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 7s", "remaining_time": "11h 6m 25s", "loss_scale": 1.0, "consumed_samples": 1156864, "global_step/max_steps": "4519/12700"}
{"lm loss": 2.14788413, "grad_norm": 0.38854787, "learning_rate": 7.723e-05, "elapsed_time_per_iteration": 4.88841915, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 11s", "remaining_time": "11h 6m 20s", "loss_scale": 1.0, "consumed_samples": 1157120, "global_step/max_steps": "4520/12700"}
{"lm loss": 2.11980319, "grad_norm": 0.36599138, "learning_rate": 7.722e-05, "elapsed_time_per_iteration": 4.88959646, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 16s", "remaining_time": "11h 6m 15s", "loss_scale": 1.0, "consumed_samples": 1157376, "global_step/max_steps": "4521/12700"}
{"lm loss": 2.16782594, "grad_norm": 0.38108459, "learning_rate": 7.721e-05, "elapsed_time_per_iteration": 4.86317539, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 21s", "remaining_time": "11h 6m 10s", "loss_scale": 1.0, "consumed_samples": 1157632, "global_step/max_steps": "4522/12700"}
{"lm loss": 2.15197325, "grad_norm": 0.37954876, "learning_rate": 7.72e-05, "elapsed_time_per_iteration": 4.86093211, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 26s", "remaining_time": "11h 6m 5s", "loss_scale": 1.0, "consumed_samples": 1157888, "global_step/max_steps": "4523/12700"}
{"lm loss": 2.1388011, "grad_norm": 0.37987611, "learning_rate": 7.719e-05, "elapsed_time_per_iteration": 4.8135078, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 31s", "remaining_time": "11h 6m 0s", "loss_scale": 1.0, "consumed_samples": 1158144, "global_step/max_steps": "4524/12700"}
{"lm loss": 2.13270974, "grad_norm": 0.36975187, "learning_rate": 7.718e-05, "elapsed_time_per_iteration": 4.84006262, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 36s", "remaining_time": "11h 5m 55s", "loss_scale": 1.0, "consumed_samples": 1158400, "global_step/max_steps": "4525/12700"}
{"lm loss": 2.16149616, "grad_norm": 0.37093517, "learning_rate": 7.716e-05, "elapsed_time_per_iteration": 4.95637321, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 41s", "remaining_time": "11h 5m 51s", "loss_scale": 1.0, "consumed_samples": 1158656, "global_step/max_steps": "4526/12700"}
{"lm loss": 2.1166122, "grad_norm": 0.36755592, "learning_rate": 7.715e-05, "elapsed_time_per_iteration": 4.95323062, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 46s", "remaining_time": "11h 5m 46s", "loss_scale": 1.0, "consumed_samples": 1158912, "global_step/max_steps": "4527/12700"}
{"lm loss": 2.14359975, "grad_norm": 0.38597685, "learning_rate": 7.714e-05, "elapsed_time_per_iteration": 4.93695974, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 51s", "remaining_time": "11h 5m 41s", "loss_scale": 1.0, "consumed_samples": 1159168, "global_step/max_steps": "4528/12700"}
{"lm loss": 2.12144947, "grad_norm": 0.39885506, "learning_rate": 7.713e-05, "elapsed_time_per_iteration": 4.83815956, "memory(GiB)": 28.98, "elapsed_time": "6h 8m 55s", "remaining_time": "11h 5m 36s", "loss_scale": 1.0, "consumed_samples": 1159424, "global_step/max_steps": "4529/12700"}
{"lm loss": 2.13855052, "grad_norm": 0.3856971, "learning_rate": 7.712e-05, "elapsed_time_per_iteration": 4.79599214, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 0s", "remaining_time": "11h 5m 31s", "loss_scale": 1.0, "consumed_samples": 1159680, "global_step/max_steps": "4530/12700"}
{"lm loss": 2.13845873, "grad_norm": 0.38522103, "learning_rate": 7.711e-05, "elapsed_time_per_iteration": 4.89100552, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 5s", "remaining_time": "11h 5m 26s", "loss_scale": 1.0, "consumed_samples": 1159936, "global_step/max_steps": "4531/12700"}
{"lm loss": 2.13092184, "grad_norm": 0.42867845, "learning_rate": 7.71e-05, "elapsed_time_per_iteration": 4.83786654, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 10s", "remaining_time": "11h 5m 21s", "loss_scale": 1.0, "consumed_samples": 1160192, "global_step/max_steps": "4532/12700"}
{"lm loss": 2.13275695, "grad_norm": 0.38769019, "learning_rate": 7.709e-05, "elapsed_time_per_iteration": 4.82055783, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 15s", "remaining_time": "11h 5m 16s", "loss_scale": 1.0, "consumed_samples": 1160448, "global_step/max_steps": "4533/12700"}
{"lm loss": 2.11814451, "grad_norm": 0.41688102, "learning_rate": 7.708e-05, "elapsed_time_per_iteration": 4.92469454, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 20s", "remaining_time": "11h 5m 11s", "loss_scale": 1.0, "consumed_samples": 1160704, "global_step/max_steps": "4534/12700"}
{"lm loss": 2.11335039, "grad_norm": 0.37680227, "learning_rate": 7.707e-05, "elapsed_time_per_iteration": 4.82319188, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 25s", "remaining_time": "11h 5m 6s", "loss_scale": 1.0, "consumed_samples": 1160960, "global_step/max_steps": "4535/12700"}
{"lm loss": 2.10967875, "grad_norm": 0.39533949, "learning_rate": 7.706e-05, "elapsed_time_per_iteration": 4.88235784, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 29s", "remaining_time": "11h 5m 1s", "loss_scale": 1.0, "consumed_samples": 1161216, "global_step/max_steps": "4536/12700"}
{"lm loss": 2.14803362, "grad_norm": 0.40237406, "learning_rate": 7.705e-05, "elapsed_time_per_iteration": 4.94509888, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 34s", "remaining_time": "11h 4m 57s", "loss_scale": 1.0, "consumed_samples": 1161472, "global_step/max_steps": "4537/12700"}
{"lm loss": 2.12641144, "grad_norm": 0.38912576, "learning_rate": 7.704e-05, "elapsed_time_per_iteration": 4.90553045, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 39s", "remaining_time": "11h 4m 52s", "loss_scale": 1.0, "consumed_samples": 1161728, "global_step/max_steps": "4538/12700"}
{"lm loss": 2.16756868, "grad_norm": 0.3862367, "learning_rate": 7.703e-05, "elapsed_time_per_iteration": 4.96362615, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 44s", "remaining_time": "11h 4m 47s", "loss_scale": 1.0, "consumed_samples": 1161984, "global_step/max_steps": "4539/12700"}
{"lm loss": 2.1079092, "grad_norm": 0.38499042, "learning_rate": 7.701e-05, "elapsed_time_per_iteration": 4.97592974, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 49s", "remaining_time": "11h 4m 42s", "loss_scale": 1.0, "consumed_samples": 1162240, "global_step/max_steps": "4540/12700"}
{"lm loss": 2.12986994, "grad_norm": 0.40834123, "learning_rate": 7.7e-05, "elapsed_time_per_iteration": 4.91510868, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 54s", "remaining_time": "11h 4m 37s", "loss_scale": 1.0, "consumed_samples": 1162496, "global_step/max_steps": "4541/12700"}
{"lm loss": 2.16904235, "grad_norm": 0.40583333, "learning_rate": 7.699e-05, "elapsed_time_per_iteration": 5.01354599, "memory(GiB)": 28.98, "elapsed_time": "6h 9m 59s", "remaining_time": "11h 4m 33s", "loss_scale": 1.0, "consumed_samples": 1162752, "global_step/max_steps": "4542/12700"}
{"lm loss": 2.1146071, "grad_norm": 0.40374121, "learning_rate": 7.698e-05, "elapsed_time_per_iteration": 4.88828731, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 4s", "remaining_time": "11h 4m 28s", "loss_scale": 1.0, "consumed_samples": 1163008, "global_step/max_steps": "4543/12700"}
{"lm loss": 2.15670109, "grad_norm": 0.39325023, "learning_rate": 7.697e-05, "elapsed_time_per_iteration": 4.85739088, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 9s", "remaining_time": "11h 4m 23s", "loss_scale": 1.0, "consumed_samples": 1163264, "global_step/max_steps": "4544/12700"}
{"lm loss": 2.15759873, "grad_norm": 0.40936893, "learning_rate": 7.696e-05, "elapsed_time_per_iteration": 4.80985165, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 14s", "remaining_time": "11h 4m 18s", "loss_scale": 1.0, "consumed_samples": 1163520, "global_step/max_steps": "4545/12700"}
{"lm loss": 2.13926387, "grad_norm": 0.38744986, "learning_rate": 7.695e-05, "elapsed_time_per_iteration": 4.8709271, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 19s", "remaining_time": "11h 4m 13s", "loss_scale": 1.0, "consumed_samples": 1163776, "global_step/max_steps": "4546/12700"}
{"lm loss": 2.12897635, "grad_norm": 0.3457846, "learning_rate": 7.694e-05, "elapsed_time_per_iteration": 4.83829284, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 23s", "remaining_time": "11h 4m 8s", "loss_scale": 1.0, "consumed_samples": 1164032, "global_step/max_steps": "4547/12700"}
{"lm loss": 2.13418293, "grad_norm": 0.39118835, "learning_rate": 7.693e-05, "elapsed_time_per_iteration": 4.82664776, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 28s", "remaining_time": "11h 4m 3s", "loss_scale": 1.0, "consumed_samples": 1164288, "global_step/max_steps": "4548/12700"}
{"lm loss": 2.13021016, "grad_norm": 0.3857736, "learning_rate": 7.692e-05, "elapsed_time_per_iteration": 4.86009479, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 33s", "remaining_time": "11h 3m 58s", "loss_scale": 1.0, "consumed_samples": 1164544, "global_step/max_steps": "4549/12700"}
{"lm loss": 2.1406455, "grad_norm": 0.38738653, "learning_rate": 7.691e-05, "elapsed_time_per_iteration": 4.82193184, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 38s", "remaining_time": "11h 3m 53s", "loss_scale": 1.0, "consumed_samples": 1164800, "global_step/max_steps": "4550/12700"}
{"lm loss": 2.12908745, "grad_norm": 0.38548204, "learning_rate": 7.69e-05, "elapsed_time_per_iteration": 4.88913178, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 43s", "remaining_time": "11h 3m 48s", "loss_scale": 1.0, "consumed_samples": 1165056, "global_step/max_steps": "4551/12700"}
{"lm loss": 2.09969687, "grad_norm": 0.39799201, "learning_rate": 7.689e-05, "elapsed_time_per_iteration": 4.91385627, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 48s", "remaining_time": "11h 3m 43s", "loss_scale": 1.0, "consumed_samples": 1165312, "global_step/max_steps": "4552/12700"}
{"lm loss": 2.15242052, "grad_norm": 0.37548977, "learning_rate": 7.687e-05, "elapsed_time_per_iteration": 4.97172999, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 53s", "remaining_time": "11h 3m 39s", "loss_scale": 1.0, "consumed_samples": 1165568, "global_step/max_steps": "4553/12700"}
{"lm loss": 2.132761, "grad_norm": 0.39374235, "learning_rate": 7.686e-05, "elapsed_time_per_iteration": 4.84764171, "memory(GiB)": 28.98, "elapsed_time": "6h 10m 58s", "remaining_time": "11h 3m 34s", "loss_scale": 1.0, "consumed_samples": 1165824, "global_step/max_steps": "4554/12700"}
{"lm loss": 2.12270236, "grad_norm": 0.39707074, "learning_rate": 7.685e-05, "elapsed_time_per_iteration": 4.97952843, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 2s", "remaining_time": "11h 3m 29s", "loss_scale": 1.0, "consumed_samples": 1166080, "global_step/max_steps": "4555/12700"}
{"lm loss": 2.11244226, "grad_norm": 0.36779585, "learning_rate": 7.684e-05, "elapsed_time_per_iteration": 4.93622303, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 7s", "remaining_time": "11h 3m 24s", "loss_scale": 1.0, "consumed_samples": 1166336, "global_step/max_steps": "4556/12700"}
{"lm loss": 2.12380481, "grad_norm": 0.37802529, "learning_rate": 7.683e-05, "elapsed_time_per_iteration": 4.87470555, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 12s", "remaining_time": "11h 3m 19s", "loss_scale": 1.0, "consumed_samples": 1166592, "global_step/max_steps": "4557/12700"}
{"lm loss": 2.12019634, "grad_norm": 0.39810246, "learning_rate": 7.682e-05, "elapsed_time_per_iteration": 4.93143749, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 17s", "remaining_time": "11h 3m 14s", "loss_scale": 1.0, "consumed_samples": 1166848, "global_step/max_steps": "4558/12700"}
{"lm loss": 2.11209106, "grad_norm": 0.4162282, "learning_rate": 7.681e-05, "elapsed_time_per_iteration": 4.76953936, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 22s", "remaining_time": "11h 3m 9s", "loss_scale": 1.0, "consumed_samples": 1167104, "global_step/max_steps": "4559/12700"}
{"lm loss": 2.11891937, "grad_norm": 0.37624159, "learning_rate": 7.68e-05, "elapsed_time_per_iteration": 4.80710149, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 27s", "remaining_time": "11h 3m 4s", "loss_scale": 1.0, "consumed_samples": 1167360, "global_step/max_steps": "4560/12700"}
{"lm loss": 2.11202335, "grad_norm": 0.42513019, "learning_rate": 7.679e-05, "elapsed_time_per_iteration": 4.87807751, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 32s", "remaining_time": "11h 2m 59s", "loss_scale": 1.0, "consumed_samples": 1167616, "global_step/max_steps": "4561/12700"}
{"lm loss": 2.15019703, "grad_norm": 0.38162366, "learning_rate": 7.678e-05, "elapsed_time_per_iteration": 4.85823989, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 37s", "remaining_time": "11h 2m 54s", "loss_scale": 1.0, "consumed_samples": 1167872, "global_step/max_steps": "4562/12700"}
{"lm loss": 2.14542484, "grad_norm": 0.41470671, "learning_rate": 7.677e-05, "elapsed_time_per_iteration": 4.85076237, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 41s", "remaining_time": "11h 2m 49s", "loss_scale": 1.0, "consumed_samples": 1168128, "global_step/max_steps": "4563/12700"}
{"lm loss": 2.14234924, "grad_norm": 0.46967894, "learning_rate": 7.676e-05, "elapsed_time_per_iteration": 4.96829295, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 46s", "remaining_time": "11h 2m 45s", "loss_scale": 1.0, "consumed_samples": 1168384, "global_step/max_steps": "4564/12700"}
{"lm loss": 2.1475749, "grad_norm": 0.37934583, "learning_rate": 7.675e-05, "elapsed_time_per_iteration": 4.8740871, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 51s", "remaining_time": "11h 2m 40s", "loss_scale": 1.0, "consumed_samples": 1168640, "global_step/max_steps": "4565/12700"}
{"lm loss": 2.11822844, "grad_norm": 0.42472264, "learning_rate": 7.673e-05, "elapsed_time_per_iteration": 4.8612721, "memory(GiB)": 28.98, "elapsed_time": "6h 11m 56s", "remaining_time": "11h 2m 35s", "loss_scale": 1.0, "consumed_samples": 1168896, "global_step/max_steps": "4566/12700"}
{"lm loss": 2.1385715, "grad_norm": 0.3791233, "learning_rate": 7.672e-05, "elapsed_time_per_iteration": 4.88795137, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 1s", "remaining_time": "11h 2m 30s", "loss_scale": 1.0, "consumed_samples": 1169152, "global_step/max_steps": "4567/12700"}
{"lm loss": 2.12796807, "grad_norm": 0.39667597, "learning_rate": 7.671e-05, "elapsed_time_per_iteration": 4.84228349, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 6s", "remaining_time": "11h 2m 25s", "loss_scale": 1.0, "consumed_samples": 1169408, "global_step/max_steps": "4568/12700"}
{"lm loss": 2.14499259, "grad_norm": 0.38440016, "learning_rate": 7.67e-05, "elapsed_time_per_iteration": 4.82805014, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 11s", "remaining_time": "11h 2m 20s", "loss_scale": 1.0, "consumed_samples": 1169664, "global_step/max_steps": "4569/12700"}
{"lm loss": 2.149405, "grad_norm": 0.36309019, "learning_rate": 7.669e-05, "elapsed_time_per_iteration": 4.85280704, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 16s", "remaining_time": "11h 2m 15s", "loss_scale": 1.0, "consumed_samples": 1169920, "global_step/max_steps": "4570/12700"}
{"lm loss": 2.09517646, "grad_norm": 0.38044333, "learning_rate": 7.668e-05, "elapsed_time_per_iteration": 4.88649011, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 20s", "remaining_time": "11h 2m 10s", "loss_scale": 1.0, "consumed_samples": 1170176, "global_step/max_steps": "4571/12700"}
{"lm loss": 2.1609621, "grad_norm": 0.38350722, "learning_rate": 7.667e-05, "elapsed_time_per_iteration": 4.84255719, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 25s", "remaining_time": "11h 2m 5s", "loss_scale": 1.0, "consumed_samples": 1170432, "global_step/max_steps": "4572/12700"}
{"lm loss": 2.11208296, "grad_norm": 0.35230643, "learning_rate": 7.666e-05, "elapsed_time_per_iteration": 4.90328836, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 30s", "remaining_time": "11h 2m 0s", "loss_scale": 1.0, "consumed_samples": 1170688, "global_step/max_steps": "4573/12700"}
{"lm loss": 2.11597252, "grad_norm": 0.38887623, "learning_rate": 7.665e-05, "elapsed_time_per_iteration": 4.78439379, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 35s", "remaining_time": "11h 1m 55s", "loss_scale": 1.0, "consumed_samples": 1170944, "global_step/max_steps": "4574/12700"}
{"lm loss": 2.13012338, "grad_norm": 0.38191372, "learning_rate": 7.664e-05, "elapsed_time_per_iteration": 4.80907488, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 40s", "remaining_time": "11h 1m 50s", "loss_scale": 1.0, "consumed_samples": 1171200, "global_step/max_steps": "4575/12700"}
{"lm loss": 2.10846996, "grad_norm": 0.37413144, "learning_rate": 7.663e-05, "elapsed_time_per_iteration": 4.89366031, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 45s", "remaining_time": "11h 1m 45s", "loss_scale": 1.0, "consumed_samples": 1171456, "global_step/max_steps": "4576/12700"}
{"lm loss": 2.08005548, "grad_norm": 0.37724012, "learning_rate": 7.662e-05, "elapsed_time_per_iteration": 4.82967734, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 49s", "remaining_time": "11h 1m 40s", "loss_scale": 1.0, "consumed_samples": 1171712, "global_step/max_steps": "4577/12700"}
{"lm loss": 2.12049866, "grad_norm": 0.3740631, "learning_rate": 7.661e-05, "elapsed_time_per_iteration": 4.76560831, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 54s", "remaining_time": "11h 1m 35s", "loss_scale": 1.0, "consumed_samples": 1171968, "global_step/max_steps": "4578/12700"}
{"lm loss": 2.13866925, "grad_norm": 0.37236562, "learning_rate": 7.659e-05, "elapsed_time_per_iteration": 4.87079763, "memory(GiB)": 28.98, "elapsed_time": "6h 12m 59s", "remaining_time": "11h 1m 30s", "loss_scale": 1.0, "consumed_samples": 1172224, "global_step/max_steps": "4579/12700"}
{"lm loss": 2.08602905, "grad_norm": 0.37365508, "learning_rate": 7.658e-05, "elapsed_time_per_iteration": 4.87189293, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 4s", "remaining_time": "11h 1m 25s", "loss_scale": 1.0, "consumed_samples": 1172480, "global_step/max_steps": "4580/12700"}
{"lm loss": 2.12966394, "grad_norm": 0.39338598, "learning_rate": 7.657e-05, "elapsed_time_per_iteration": 4.86380863, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 9s", "remaining_time": "11h 1m 21s", "loss_scale": 1.0, "consumed_samples": 1172736, "global_step/max_steps": "4581/12700"}
{"lm loss": 2.11022949, "grad_norm": 0.37593818, "learning_rate": 7.656e-05, "elapsed_time_per_iteration": 4.85804391, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 14s", "remaining_time": "11h 1m 16s", "loss_scale": 1.0, "consumed_samples": 1172992, "global_step/max_steps": "4582/12700"}
{"lm loss": 2.14529157, "grad_norm": 0.37881136, "learning_rate": 7.655e-05, "elapsed_time_per_iteration": 4.89952087, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 19s", "remaining_time": "11h 1m 11s", "loss_scale": 1.0, "consumed_samples": 1173248, "global_step/max_steps": "4583/12700"}
{"lm loss": 2.15387678, "grad_norm": 0.37985024, "learning_rate": 7.654e-05, "elapsed_time_per_iteration": 4.81803441, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 23s", "remaining_time": "11h 1m 6s", "loss_scale": 1.0, "consumed_samples": 1173504, "global_step/max_steps": "4584/12700"}
{"lm loss": 2.10860062, "grad_norm": 0.40710944, "learning_rate": 7.653e-05, "elapsed_time_per_iteration": 4.86736679, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 28s", "remaining_time": "11h 1m 1s", "loss_scale": 1.0, "consumed_samples": 1173760, "global_step/max_steps": "4585/12700"}
{"lm loss": 2.11821246, "grad_norm": 0.37954471, "learning_rate": 7.652e-05, "elapsed_time_per_iteration": 4.80025077, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 33s", "remaining_time": "11h 0m 56s", "loss_scale": 1.0, "consumed_samples": 1174016, "global_step/max_steps": "4586/12700"}
{"lm loss": 2.10597539, "grad_norm": 0.3913506, "learning_rate": 7.651e-05, "elapsed_time_per_iteration": 4.74204326, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 38s", "remaining_time": "11h 0m 51s", "loss_scale": 1.0, "consumed_samples": 1174272, "global_step/max_steps": "4587/12700"}
{"lm loss": 2.12022018, "grad_norm": 0.36649141, "learning_rate": 7.65e-05, "elapsed_time_per_iteration": 4.85421991, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 43s", "remaining_time": "11h 0m 46s", "loss_scale": 1.0, "consumed_samples": 1174528, "global_step/max_steps": "4588/12700"}
{"lm loss": 2.12761426, "grad_norm": 0.39547479, "learning_rate": 7.649e-05, "elapsed_time_per_iteration": 4.90949392, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 48s", "remaining_time": "11h 0m 41s", "loss_scale": 1.0, "consumed_samples": 1174784, "global_step/max_steps": "4589/12700"}
{"lm loss": 2.12438989, "grad_norm": 0.36293337, "learning_rate": 7.648e-05, "elapsed_time_per_iteration": 4.86706042, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 52s", "remaining_time": "11h 0m 36s", "loss_scale": 1.0, "consumed_samples": 1175040, "global_step/max_steps": "4590/12700"}
{"lm loss": 2.12165666, "grad_norm": 0.38287562, "learning_rate": 7.646e-05, "elapsed_time_per_iteration": 4.84944224, "memory(GiB)": 28.98, "elapsed_time": "6h 13m 57s", "remaining_time": "11h 0m 31s", "loss_scale": 1.0, "consumed_samples": 1175296, "global_step/max_steps": "4591/12700"}
{"lm loss": 2.14493823, "grad_norm": 0.3640542, "learning_rate": 7.645e-05, "elapsed_time_per_iteration": 4.84882164, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 2s", "remaining_time": "11h 0m 26s", "loss_scale": 1.0, "consumed_samples": 1175552, "global_step/max_steps": "4592/12700"}
{"lm loss": 2.09873343, "grad_norm": 0.38421026, "learning_rate": 7.644e-05, "elapsed_time_per_iteration": 4.94958544, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 7s", "remaining_time": "11h 0m 21s", "loss_scale": 1.0, "consumed_samples": 1175808, "global_step/max_steps": "4593/12700"}
{"lm loss": 2.11563277, "grad_norm": 0.38156492, "learning_rate": 7.643e-05, "elapsed_time_per_iteration": 4.83235598, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 12s", "remaining_time": "11h 0m 16s", "loss_scale": 1.0, "consumed_samples": 1176064, "global_step/max_steps": "4594/12700"}
{"lm loss": 2.10625601, "grad_norm": 0.38785031, "learning_rate": 7.642e-05, "elapsed_time_per_iteration": 4.96453309, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 17s", "remaining_time": "11h 0m 12s", "loss_scale": 1.0, "consumed_samples": 1176320, "global_step/max_steps": "4595/12700"}
{"lm loss": 2.13557577, "grad_norm": 0.41159642, "learning_rate": 7.641e-05, "elapsed_time_per_iteration": 4.89149857, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 22s", "remaining_time": "11h 0m 7s", "loss_scale": 1.0, "consumed_samples": 1176576, "global_step/max_steps": "4596/12700"}
{"lm loss": 2.16887283, "grad_norm": 0.39459467, "learning_rate": 7.64e-05, "elapsed_time_per_iteration": 4.889184, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 27s", "remaining_time": "11h 0m 2s", "loss_scale": 1.0, "consumed_samples": 1176832, "global_step/max_steps": "4597/12700"}
{"lm loss": 2.12319493, "grad_norm": 0.43344787, "learning_rate": 7.639e-05, "elapsed_time_per_iteration": 4.84489489, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 32s", "remaining_time": "10h 59m 57s", "loss_scale": 1.0, "consumed_samples": 1177088, "global_step/max_steps": "4598/12700"}
{"lm loss": 2.14972854, "grad_norm": 0.38913172, "learning_rate": 7.638e-05, "elapsed_time_per_iteration": 4.86466956, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 36s", "remaining_time": "10h 59m 52s", "loss_scale": 1.0, "consumed_samples": 1177344, "global_step/max_steps": "4599/12700"}
{"lm loss": 2.15526104, "grad_norm": 0.41655529, "learning_rate": 7.637e-05, "elapsed_time_per_iteration": 4.9698081, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 41s", "remaining_time": "10h 59m 47s", "loss_scale": 1.0, "consumed_samples": 1177600, "global_step/max_steps": "4600/12700"}
{"lm loss": 2.15898323, "grad_norm": 0.43990788, "learning_rate": 7.636e-05, "elapsed_time_per_iteration": 4.83578587, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 46s", "remaining_time": "10h 59m 42s", "loss_scale": 1.0, "consumed_samples": 1177856, "global_step/max_steps": "4601/12700"}
{"lm loss": 2.09787655, "grad_norm": 0.37981454, "learning_rate": 7.635e-05, "elapsed_time_per_iteration": 4.8367734, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 51s", "remaining_time": "10h 59m 37s", "loss_scale": 1.0, "consumed_samples": 1178112, "global_step/max_steps": "4602/12700"}
{"lm loss": 2.12510514, "grad_norm": 0.36419445, "learning_rate": 7.633e-05, "elapsed_time_per_iteration": 4.88664651, "memory(GiB)": 28.98, "elapsed_time": "6h 14m 56s", "remaining_time": "10h 59m 32s", "loss_scale": 1.0, "consumed_samples": 1178368, "global_step/max_steps": "4603/12700"}
{"lm loss": 2.16275024, "grad_norm": 0.41763276, "learning_rate": 7.632e-05, "elapsed_time_per_iteration": 4.74375534, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 1s", "remaining_time": "10h 59m 27s", "loss_scale": 1.0, "consumed_samples": 1178624, "global_step/max_steps": "4604/12700"}
{"lm loss": 2.14355397, "grad_norm": 0.3712391, "learning_rate": 7.631e-05, "elapsed_time_per_iteration": 4.94159722, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 6s", "remaining_time": "10h 59m 22s", "loss_scale": 1.0, "consumed_samples": 1178880, "global_step/max_steps": "4605/12700"}
{"lm loss": 2.11894011, "grad_norm": 0.41081801, "learning_rate": 7.63e-05, "elapsed_time_per_iteration": 4.86761475, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 10s", "remaining_time": "10h 59m 17s", "loss_scale": 1.0, "consumed_samples": 1179136, "global_step/max_steps": "4606/12700"}
{"lm loss": 2.09170866, "grad_norm": 0.3876071, "learning_rate": 7.629e-05, "elapsed_time_per_iteration": 4.79240894, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 15s", "remaining_time": "10h 59m 12s", "loss_scale": 1.0, "consumed_samples": 1179392, "global_step/max_steps": "4607/12700"}
{"lm loss": 2.11348343, "grad_norm": 0.41101542, "learning_rate": 7.628e-05, "elapsed_time_per_iteration": 4.91061974, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 20s", "remaining_time": "10h 59m 8s", "loss_scale": 1.0, "consumed_samples": 1179648, "global_step/max_steps": "4608/12700"}
{"lm loss": 2.09726691, "grad_norm": 0.40502468, "learning_rate": 7.627e-05, "elapsed_time_per_iteration": 4.78329897, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 25s", "remaining_time": "10h 59m 2s", "loss_scale": 1.0, "consumed_samples": 1179904, "global_step/max_steps": "4609/12700"}
{"lm loss": 2.13331652, "grad_norm": 0.40244436, "learning_rate": 7.626e-05, "elapsed_time_per_iteration": 4.84057426, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 30s", "remaining_time": "10h 58m 57s", "loss_scale": 1.0, "consumed_samples": 1180160, "global_step/max_steps": "4610/12700"}
{"lm loss": 2.11125016, "grad_norm": 0.42481294, "learning_rate": 7.625e-05, "elapsed_time_per_iteration": 4.92450356, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 35s", "remaining_time": "10h 58m 53s", "loss_scale": 1.0, "consumed_samples": 1180416, "global_step/max_steps": "4611/12700"}
{"lm loss": 2.07566047, "grad_norm": 0.39096707, "learning_rate": 7.624e-05, "elapsed_time_per_iteration": 4.92630649, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 40s", "remaining_time": "10h 58m 48s", "loss_scale": 1.0, "consumed_samples": 1180672, "global_step/max_steps": "4612/12700"}
{"lm loss": 2.12369466, "grad_norm": 0.40291095, "learning_rate": 7.623e-05, "elapsed_time_per_iteration": 4.84463334, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 44s", "remaining_time": "10h 58m 43s", "loss_scale": 1.0, "consumed_samples": 1180928, "global_step/max_steps": "4613/12700"}
{"lm loss": 2.1052134, "grad_norm": 0.40406704, "learning_rate": 7.622e-05, "elapsed_time_per_iteration": 4.86152697, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 49s", "remaining_time": "10h 58m 38s", "loss_scale": 1.0, "consumed_samples": 1181184, "global_step/max_steps": "4614/12700"}
{"lm loss": 2.14166856, "grad_norm": 0.37956154, "learning_rate": 7.62e-05, "elapsed_time_per_iteration": 4.86610532, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 54s", "remaining_time": "10h 58m 33s", "loss_scale": 1.0, "consumed_samples": 1181440, "global_step/max_steps": "4615/12700"}
{"lm loss": 2.1163826, "grad_norm": 0.39252156, "learning_rate": 7.619e-05, "elapsed_time_per_iteration": 4.99040747, "memory(GiB)": 28.98, "elapsed_time": "6h 15m 59s", "remaining_time": "10h 58m 28s", "loss_scale": 1.0, "consumed_samples": 1181696, "global_step/max_steps": "4616/12700"}
{"lm loss": 2.14426684, "grad_norm": 0.4417012, "learning_rate": 7.618e-05, "elapsed_time_per_iteration": 4.86541271, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 4s", "remaining_time": "10h 58m 23s", "loss_scale": 1.0, "consumed_samples": 1181952, "global_step/max_steps": "4617/12700"}
{"lm loss": 2.14502931, "grad_norm": 0.46042347, "learning_rate": 7.617e-05, "elapsed_time_per_iteration": 4.81724072, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 9s", "remaining_time": "10h 58m 18s", "loss_scale": 1.0, "consumed_samples": 1182208, "global_step/max_steps": "4618/12700"}
{"lm loss": 2.11825705, "grad_norm": 0.36321726, "learning_rate": 7.616e-05, "elapsed_time_per_iteration": 4.89686966, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 14s", "remaining_time": "10h 58m 13s", "loss_scale": 1.0, "consumed_samples": 1182464, "global_step/max_steps": "4619/12700"}
{"lm loss": 2.11004257, "grad_norm": 0.40248099, "learning_rate": 7.615e-05, "elapsed_time_per_iteration": 4.78326941, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 19s", "remaining_time": "10h 58m 8s", "loss_scale": 1.0, "consumed_samples": 1182720, "global_step/max_steps": "4620/12700"}
{"lm loss": 2.13545012, "grad_norm": 0.35735518, "learning_rate": 7.614e-05, "elapsed_time_per_iteration": 4.9527173, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 24s", "remaining_time": "10h 58m 4s", "loss_scale": 1.0, "consumed_samples": 1182976, "global_step/max_steps": "4621/12700"}
{"lm loss": 2.15107989, "grad_norm": 0.39724258, "learning_rate": 7.613e-05, "elapsed_time_per_iteration": 4.85269737, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 28s", "remaining_time": "10h 57m 59s", "loss_scale": 1.0, "consumed_samples": 1183232, "global_step/max_steps": "4622/12700"}
{"lm loss": 2.11823988, "grad_norm": 0.37676957, "learning_rate": 7.612e-05, "elapsed_time_per_iteration": 4.99968481, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 33s", "remaining_time": "10h 57m 54s", "loss_scale": 1.0, "consumed_samples": 1183488, "global_step/max_steps": "4623/12700"}
{"lm loss": 2.09093666, "grad_norm": 0.37980169, "learning_rate": 7.611e-05, "elapsed_time_per_iteration": 4.85845137, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 38s", "remaining_time": "10h 57m 49s", "loss_scale": 1.0, "consumed_samples": 1183744, "global_step/max_steps": "4624/12700"}
{"lm loss": 2.09855771, "grad_norm": 0.37938708, "learning_rate": 7.61e-05, "elapsed_time_per_iteration": 4.86785126, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 43s", "remaining_time": "10h 57m 44s", "loss_scale": 1.0, "consumed_samples": 1184000, "global_step/max_steps": "4625/12700"}
{"lm loss": 2.13492346, "grad_norm": 0.35333487, "learning_rate": 7.608e-05, "elapsed_time_per_iteration": 4.85374117, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 48s", "remaining_time": "10h 57m 39s", "loss_scale": 1.0, "consumed_samples": 1184256, "global_step/max_steps": "4626/12700"}
{"lm loss": 2.13750863, "grad_norm": 0.34012225, "learning_rate": 7.607e-05, "elapsed_time_per_iteration": 4.91909552, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 53s", "remaining_time": "10h 57m 34s", "loss_scale": 1.0, "consumed_samples": 1184512, "global_step/max_steps": "4627/12700"}
{"lm loss": 2.10725045, "grad_norm": 0.35539636, "learning_rate": 7.606e-05, "elapsed_time_per_iteration": 4.86426973, "memory(GiB)": 28.98, "elapsed_time": "6h 16m 58s", "remaining_time": "10h 57m 29s", "loss_scale": 1.0, "consumed_samples": 1184768, "global_step/max_steps": "4628/12700"}
{"lm loss": 2.10678887, "grad_norm": 0.34052187, "learning_rate": 7.605e-05, "elapsed_time_per_iteration": 4.82949829, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 3s", "remaining_time": "10h 57m 24s", "loss_scale": 1.0, "consumed_samples": 1185024, "global_step/max_steps": "4629/12700"}
{"lm loss": 2.10967875, "grad_norm": 0.38010061, "learning_rate": 7.604e-05, "elapsed_time_per_iteration": 4.80579185, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 7s", "remaining_time": "10h 57m 19s", "loss_scale": 1.0, "consumed_samples": 1185280, "global_step/max_steps": "4630/12700"}
{"lm loss": 2.11777711, "grad_norm": 0.37481251, "learning_rate": 7.603e-05, "elapsed_time_per_iteration": 4.93975115, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 12s", "remaining_time": "10h 57m 15s", "loss_scale": 1.0, "consumed_samples": 1185536, "global_step/max_steps": "4631/12700"}
{"lm loss": 2.13663054, "grad_norm": 0.36275092, "learning_rate": 7.602e-05, "elapsed_time_per_iteration": 4.95629907, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 17s", "remaining_time": "10h 57m 10s", "loss_scale": 1.0, "consumed_samples": 1185792, "global_step/max_steps": "4632/12700"}
{"lm loss": 2.11530328, "grad_norm": 0.38687605, "learning_rate": 7.601e-05, "elapsed_time_per_iteration": 4.83777237, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 22s", "remaining_time": "10h 57m 5s", "loss_scale": 1.0, "consumed_samples": 1186048, "global_step/max_steps": "4633/12700"}
{"lm loss": 2.1289134, "grad_norm": 0.36849353, "learning_rate": 7.6e-05, "elapsed_time_per_iteration": 4.99484444, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 27s", "remaining_time": "10h 57m 0s", "loss_scale": 1.0, "consumed_samples": 1186304, "global_step/max_steps": "4634/12700"}
{"lm loss": 2.12076759, "grad_norm": 0.38807413, "learning_rate": 7.599e-05, "elapsed_time_per_iteration": 4.87021947, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 32s", "remaining_time": "10h 56m 55s", "loss_scale": 1.0, "consumed_samples": 1186560, "global_step/max_steps": "4635/12700"}
{"lm loss": 2.1137352, "grad_norm": 0.37136719, "learning_rate": 7.598e-05, "elapsed_time_per_iteration": 4.90723681, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 37s", "remaining_time": "10h 56m 50s", "loss_scale": 1.0, "consumed_samples": 1186816, "global_step/max_steps": "4636/12700"}
{"lm loss": 2.12044907, "grad_norm": 0.37505975, "learning_rate": 7.596e-05, "elapsed_time_per_iteration": 4.88592029, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 42s", "remaining_time": "10h 56m 46s", "loss_scale": 1.0, "consumed_samples": 1187072, "global_step/max_steps": "4637/12700"}
{"lm loss": 2.13143444, "grad_norm": 0.40209737, "learning_rate": 7.595e-05, "elapsed_time_per_iteration": 4.91249943, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 47s", "remaining_time": "10h 56m 41s", "loss_scale": 1.0, "consumed_samples": 1187328, "global_step/max_steps": "4638/12700"}
{"lm loss": 2.11593199, "grad_norm": 0.39657709, "learning_rate": 7.594e-05, "elapsed_time_per_iteration": 4.88467622, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 52s", "remaining_time": "10h 56m 36s", "loss_scale": 1.0, "consumed_samples": 1187584, "global_step/max_steps": "4639/12700"}
{"lm loss": 2.12463355, "grad_norm": 0.38389143, "learning_rate": 7.593e-05, "elapsed_time_per_iteration": 4.92152262, "memory(GiB)": 28.98, "elapsed_time": "6h 17m 56s", "remaining_time": "10h 56m 31s", "loss_scale": 1.0, "consumed_samples": 1187840, "global_step/max_steps": "4640/12700"}
{"lm loss": 2.13385296, "grad_norm": 0.44024095, "learning_rate": 7.592e-05, "elapsed_time_per_iteration": 4.82274437, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 1s", "remaining_time": "10h 56m 26s", "loss_scale": 1.0, "consumed_samples": 1188096, "global_step/max_steps": "4641/12700"}
{"lm loss": 2.11316657, "grad_norm": 0.37035951, "learning_rate": 7.591e-05, "elapsed_time_per_iteration": 4.93203664, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 6s", "remaining_time": "10h 56m 21s", "loss_scale": 1.0, "consumed_samples": 1188352, "global_step/max_steps": "4642/12700"}
{"lm loss": 2.12594724, "grad_norm": 0.37934858, "learning_rate": 7.59e-05, "elapsed_time_per_iteration": 4.81803417, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 11s", "remaining_time": "10h 56m 16s", "loss_scale": 1.0, "consumed_samples": 1188608, "global_step/max_steps": "4643/12700"}
{"lm loss": 2.11022663, "grad_norm": 0.42966723, "learning_rate": 7.589e-05, "elapsed_time_per_iteration": 4.83741617, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 16s", "remaining_time": "10h 56m 11s", "loss_scale": 1.0, "consumed_samples": 1188864, "global_step/max_steps": "4644/12700"}
{"lm loss": 2.12840605, "grad_norm": 0.35975775, "learning_rate": 7.588e-05, "elapsed_time_per_iteration": 4.96053743, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 21s", "remaining_time": "10h 56m 6s", "loss_scale": 1.0, "consumed_samples": 1189120, "global_step/max_steps": "4645/12700"}
{"lm loss": 2.10774469, "grad_norm": 0.4454062, "learning_rate": 7.587e-05, "elapsed_time_per_iteration": 4.85700297, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 26s", "remaining_time": "10h 56m 1s", "loss_scale": 1.0, "consumed_samples": 1189376, "global_step/max_steps": "4646/12700"}
{"lm loss": 2.12710261, "grad_norm": 0.44459403, "learning_rate": 7.586e-05, "elapsed_time_per_iteration": 4.8405304, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 31s", "remaining_time": "10h 55m 57s", "loss_scale": 1.0, "consumed_samples": 1189632, "global_step/max_steps": "4647/12700"}
{"lm loss": 2.0878005, "grad_norm": 0.37215716, "learning_rate": 7.584e-05, "elapsed_time_per_iteration": 4.79334378, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 35s", "remaining_time": "10h 55m 51s", "loss_scale": 1.0, "consumed_samples": 1189888, "global_step/max_steps": "4648/12700"}
{"lm loss": 2.10069084, "grad_norm": 0.41784126, "learning_rate": 7.583e-05, "elapsed_time_per_iteration": 4.92446542, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 40s", "remaining_time": "10h 55m 47s", "loss_scale": 1.0, "consumed_samples": 1190144, "global_step/max_steps": "4649/12700"}
{"lm loss": 2.12125921, "grad_norm": 0.37684363, "learning_rate": 7.582e-05, "elapsed_time_per_iteration": 4.87635732, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 45s", "remaining_time": "10h 55m 42s", "loss_scale": 1.0, "consumed_samples": 1190400, "global_step/max_steps": "4650/12700"}
{"lm loss": 2.13597846, "grad_norm": 0.36945242, "learning_rate": 7.581e-05, "elapsed_time_per_iteration": 4.8305378, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 50s", "remaining_time": "10h 55m 37s", "loss_scale": 1.0, "consumed_samples": 1190656, "global_step/max_steps": "4651/12700"}
{"lm loss": 2.09932733, "grad_norm": 0.38083208, "learning_rate": 7.58e-05, "elapsed_time_per_iteration": 4.88771439, "memory(GiB)": 28.98, "elapsed_time": "6h 18m 55s", "remaining_time": "10h 55m 32s", "loss_scale": 1.0, "consumed_samples": 1190912, "global_step/max_steps": "4652/12700"}
{"lm loss": 2.11880779, "grad_norm": 0.3597737, "learning_rate": 7.579e-05, "elapsed_time_per_iteration": 4.77123189, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 0s", "remaining_time": "10h 55m 27s", "loss_scale": 1.0, "consumed_samples": 1191168, "global_step/max_steps": "4653/12700"}
{"lm loss": 2.12501192, "grad_norm": 0.38411, "learning_rate": 7.578e-05, "elapsed_time_per_iteration": 4.89160037, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 5s", "remaining_time": "10h 55m 22s", "loss_scale": 1.0, "consumed_samples": 1191424, "global_step/max_steps": "4654/12700"}
{"lm loss": 2.14172769, "grad_norm": 0.37297997, "learning_rate": 7.577e-05, "elapsed_time_per_iteration": 4.92150402, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 9s", "remaining_time": "10h 55m 17s", "loss_scale": 1.0, "consumed_samples": 1191680, "global_step/max_steps": "4655/12700"}
{"lm loss": 2.10132647, "grad_norm": 0.39801705, "learning_rate": 7.576e-05, "elapsed_time_per_iteration": 4.95343971, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 14s", "remaining_time": "10h 55m 12s", "loss_scale": 1.0, "consumed_samples": 1191936, "global_step/max_steps": "4656/12700"}
{"lm loss": 2.15303326, "grad_norm": 0.37240252, "learning_rate": 7.575e-05, "elapsed_time_per_iteration": 4.93025136, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 19s", "remaining_time": "10h 55m 7s", "loss_scale": 1.0, "consumed_samples": 1192192, "global_step/max_steps": "4657/12700"}
{"lm loss": 2.10288954, "grad_norm": 0.40359169, "learning_rate": 7.574e-05, "elapsed_time_per_iteration": 4.86423087, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 24s", "remaining_time": "10h 55m 3s", "loss_scale": 1.0, "consumed_samples": 1192448, "global_step/max_steps": "4658/12700"}
{"lm loss": 2.11344004, "grad_norm": 0.37712646, "learning_rate": 7.572e-05, "elapsed_time_per_iteration": 4.8149724, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 29s", "remaining_time": "10h 54m 58s", "loss_scale": 1.0, "consumed_samples": 1192704, "global_step/max_steps": "4659/12700"}
{"lm loss": 2.14032531, "grad_norm": 0.39104852, "learning_rate": 7.571e-05, "elapsed_time_per_iteration": 4.91426969, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 34s", "remaining_time": "10h 54m 53s", "loss_scale": 1.0, "consumed_samples": 1192960, "global_step/max_steps": "4660/12700"}
{"lm loss": 2.12946105, "grad_norm": 0.37452608, "learning_rate": 7.57e-05, "elapsed_time_per_iteration": 4.93556285, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 39s", "remaining_time": "10h 54m 48s", "loss_scale": 1.0, "consumed_samples": 1193216, "global_step/max_steps": "4661/12700"}
{"lm loss": 2.12407279, "grad_norm": 0.34364903, "learning_rate": 7.569e-05, "elapsed_time_per_iteration": 4.88821983, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 44s", "remaining_time": "10h 54m 43s", "loss_scale": 1.0, "consumed_samples": 1193472, "global_step/max_steps": "4662/12700"}
{"lm loss": 2.13375902, "grad_norm": 0.37943855, "learning_rate": 7.568e-05, "elapsed_time_per_iteration": 4.9265399, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 49s", "remaining_time": "10h 54m 38s", "loss_scale": 1.0, "consumed_samples": 1193728, "global_step/max_steps": "4663/12700"}
{"lm loss": 2.12653613, "grad_norm": 0.41391227, "learning_rate": 7.567e-05, "elapsed_time_per_iteration": 4.9506588, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 54s", "remaining_time": "10h 54m 33s", "loss_scale": 1.0, "consumed_samples": 1193984, "global_step/max_steps": "4664/12700"}
{"lm loss": 2.12592864, "grad_norm": 0.39249188, "learning_rate": 7.566e-05, "elapsed_time_per_iteration": 4.88299251, "memory(GiB)": 28.98, "elapsed_time": "6h 19m 59s", "remaining_time": "10h 54m 29s", "loss_scale": 1.0, "consumed_samples": 1194240, "global_step/max_steps": "4665/12700"}
{"lm loss": 2.11327958, "grad_norm": 0.36370569, "learning_rate": 7.565e-05, "elapsed_time_per_iteration": 4.88869977, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 3s", "remaining_time": "10h 54m 24s", "loss_scale": 1.0, "consumed_samples": 1194496, "global_step/max_steps": "4666/12700"}
{"lm loss": 2.13641572, "grad_norm": 0.40536937, "learning_rate": 7.564e-05, "elapsed_time_per_iteration": 5.06002474, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 8s", "remaining_time": "10h 54m 19s", "loss_scale": 1.0, "consumed_samples": 1194752, "global_step/max_steps": "4667/12700"}
{"lm loss": 2.11275434, "grad_norm": 0.42480856, "learning_rate": 7.563e-05, "elapsed_time_per_iteration": 4.84362364, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 13s", "remaining_time": "10h 54m 14s", "loss_scale": 1.0, "consumed_samples": 1195008, "global_step/max_steps": "4668/12700"}
{"lm loss": 2.08199501, "grad_norm": 0.3720175, "learning_rate": 7.561e-05, "elapsed_time_per_iteration": 4.80191779, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 18s", "remaining_time": "10h 54m 9s", "loss_scale": 1.0, "consumed_samples": 1195264, "global_step/max_steps": "4669/12700"}
{"lm loss": 2.12370801, "grad_norm": 0.38754386, "learning_rate": 7.56e-05, "elapsed_time_per_iteration": 4.88755918, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 23s", "remaining_time": "10h 54m 4s", "loss_scale": 1.0, "consumed_samples": 1195520, "global_step/max_steps": "4670/12700"}
{"lm loss": 2.15015388, "grad_norm": 0.38142967, "learning_rate": 7.559e-05, "elapsed_time_per_iteration": 4.85987353, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 28s", "remaining_time": "10h 53m 59s", "loss_scale": 1.0, "consumed_samples": 1195776, "global_step/max_steps": "4671/12700"}
{"lm loss": 2.13053298, "grad_norm": 0.36107698, "learning_rate": 7.558e-05, "elapsed_time_per_iteration": 4.87167215, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 33s", "remaining_time": "10h 53m 54s", "loss_scale": 1.0, "consumed_samples": 1196032, "global_step/max_steps": "4672/12700"}
{"lm loss": 2.10211158, "grad_norm": 0.39426881, "learning_rate": 7.557e-05, "elapsed_time_per_iteration": 4.84140539, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 38s", "remaining_time": "10h 53m 49s", "loss_scale": 1.0, "consumed_samples": 1196288, "global_step/max_steps": "4673/12700"}
{"lm loss": 2.11604095, "grad_norm": 0.42219484, "learning_rate": 7.556e-05, "elapsed_time_per_iteration": 4.84651375, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 42s", "remaining_time": "10h 53m 44s", "loss_scale": 1.0, "consumed_samples": 1196544, "global_step/max_steps": "4674/12700"}
{"lm loss": 2.11636281, "grad_norm": 0.41659939, "learning_rate": 7.555e-05, "elapsed_time_per_iteration": 4.79360747, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 47s", "remaining_time": "10h 53m 39s", "loss_scale": 1.0, "consumed_samples": 1196800, "global_step/max_steps": "4675/12700"}
{"lm loss": 2.13716412, "grad_norm": 0.41151807, "learning_rate": 7.554e-05, "elapsed_time_per_iteration": 4.91866374, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 52s", "remaining_time": "10h 53m 35s", "loss_scale": 1.0, "consumed_samples": 1197056, "global_step/max_steps": "4676/12700"}
{"lm loss": 2.12145662, "grad_norm": 0.43584666, "learning_rate": 7.553e-05, "elapsed_time_per_iteration": 4.82877159, "memory(GiB)": 28.98, "elapsed_time": "6h 20m 57s", "remaining_time": "10h 53m 30s", "loss_scale": 1.0, "consumed_samples": 1197312, "global_step/max_steps": "4677/12700"}
{"lm loss": 2.14378738, "grad_norm": 0.3834891, "learning_rate": 7.552e-05, "elapsed_time_per_iteration": 4.89157057, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 2s", "remaining_time": "10h 53m 25s", "loss_scale": 1.0, "consumed_samples": 1197568, "global_step/max_steps": "4678/12700"}
{"lm loss": 2.09252214, "grad_norm": 0.38482228, "learning_rate": 7.551e-05, "elapsed_time_per_iteration": 4.86717582, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 7s", "remaining_time": "10h 53m 20s", "loss_scale": 1.0, "consumed_samples": 1197824, "global_step/max_steps": "4679/12700"}
{"lm loss": 2.09890723, "grad_norm": 0.39460331, "learning_rate": 7.549e-05, "elapsed_time_per_iteration": 4.86337805, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 12s", "remaining_time": "10h 53m 15s", "loss_scale": 1.0, "consumed_samples": 1198080, "global_step/max_steps": "4680/12700"}
{"lm loss": 2.10931396, "grad_norm": 0.42031229, "learning_rate": 7.548e-05, "elapsed_time_per_iteration": 4.77714181, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 16s", "remaining_time": "10h 53m 10s", "loss_scale": 1.0, "consumed_samples": 1198336, "global_step/max_steps": "4681/12700"}
{"lm loss": 2.10533023, "grad_norm": 0.39227816, "learning_rate": 7.547e-05, "elapsed_time_per_iteration": 4.90336728, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 21s", "remaining_time": "10h 53m 5s", "loss_scale": 1.0, "consumed_samples": 1198592, "global_step/max_steps": "4682/12700"}
{"lm loss": 2.1718812, "grad_norm": 0.38390648, "learning_rate": 7.546e-05, "elapsed_time_per_iteration": 4.78409243, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 26s", "remaining_time": "10h 53m 0s", "loss_scale": 1.0, "consumed_samples": 1198848, "global_step/max_steps": "4683/12700"}
{"lm loss": 2.11976218, "grad_norm": 0.40629753, "learning_rate": 7.545e-05, "elapsed_time_per_iteration": 4.83458686, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 31s", "remaining_time": "10h 52m 55s", "loss_scale": 1.0, "consumed_samples": 1199104, "global_step/max_steps": "4684/12700"}
{"lm loss": 2.14101434, "grad_norm": 0.40471426, "learning_rate": 7.544e-05, "elapsed_time_per_iteration": 4.84913754, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 36s", "remaining_time": "10h 52m 50s", "loss_scale": 1.0, "consumed_samples": 1199360, "global_step/max_steps": "4685/12700"}
{"lm loss": 2.12527204, "grad_norm": 0.38752538, "learning_rate": 7.543e-05, "elapsed_time_per_iteration": 4.88038969, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 41s", "remaining_time": "10h 52m 45s", "loss_scale": 1.0, "consumed_samples": 1199616, "global_step/max_steps": "4686/12700"}
{"lm loss": 2.11693454, "grad_norm": 0.37708998, "learning_rate": 7.542e-05, "elapsed_time_per_iteration": 4.89875007, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 45s", "remaining_time": "10h 52m 40s", "loss_scale": 1.0, "consumed_samples": 1199872, "global_step/max_steps": "4687/12700"}
{"lm loss": 2.12617111, "grad_norm": 0.4041422, "learning_rate": 7.541e-05, "elapsed_time_per_iteration": 4.88730669, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 50s", "remaining_time": "10h 52m 35s", "loss_scale": 1.0, "consumed_samples": 1200128, "global_step/max_steps": "4688/12700"}
{"lm loss": 2.12241387, "grad_norm": 0.37292385, "learning_rate": 7.54e-05, "elapsed_time_per_iteration": 4.92212677, "memory(GiB)": 28.98, "elapsed_time": "6h 21m 55s", "remaining_time": "10h 52m 30s", "loss_scale": 1.0, "consumed_samples": 1200384, "global_step/max_steps": "4689/12700"}
{"lm loss": 2.11427784, "grad_norm": 0.43233928, "learning_rate": 7.538e-05, "elapsed_time_per_iteration": 5.00814819, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 0s", "remaining_time": "10h 52m 26s", "loss_scale": 1.0, "consumed_samples": 1200640, "global_step/max_steps": "4690/12700"}
{"lm loss": 2.15448952, "grad_norm": 0.37901238, "learning_rate": 7.537e-05, "elapsed_time_per_iteration": 4.84958267, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 5s", "remaining_time": "10h 52m 21s", "loss_scale": 1.0, "consumed_samples": 1200896, "global_step/max_steps": "4691/12700"}
{"lm loss": 2.11707902, "grad_norm": 0.40032107, "learning_rate": 7.536e-05, "elapsed_time_per_iteration": 4.90466499, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 10s", "remaining_time": "10h 52m 16s", "loss_scale": 1.0, "consumed_samples": 1201152, "global_step/max_steps": "4692/12700"}
{"lm loss": 2.09350657, "grad_norm": 0.38452667, "learning_rate": 7.535e-05, "elapsed_time_per_iteration": 4.96642399, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 15s", "remaining_time": "10h 52m 11s", "loss_scale": 1.0, "consumed_samples": 1201408, "global_step/max_steps": "4693/12700"}
{"lm loss": 2.09561896, "grad_norm": 0.38499019, "learning_rate": 7.534e-05, "elapsed_time_per_iteration": 4.93788815, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 20s", "remaining_time": "10h 52m 6s", "loss_scale": 1.0, "consumed_samples": 1201664, "global_step/max_steps": "4694/12700"}
{"lm loss": 2.12448692, "grad_norm": 0.41416612, "learning_rate": 7.533e-05, "elapsed_time_per_iteration": 4.89624858, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 25s", "remaining_time": "10h 52m 1s", "loss_scale": 1.0, "consumed_samples": 1201920, "global_step/max_steps": "4695/12700"}
{"lm loss": 2.08675551, "grad_norm": 0.38598266, "learning_rate": 7.532e-05, "elapsed_time_per_iteration": 4.8340292, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 30s", "remaining_time": "10h 51m 57s", "loss_scale": 1.0, "consumed_samples": 1202176, "global_step/max_steps": "4696/12700"}
{"lm loss": 2.10908818, "grad_norm": 0.3812516, "learning_rate": 7.531e-05, "elapsed_time_per_iteration": 4.94301605, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 35s", "remaining_time": "10h 51m 52s", "loss_scale": 1.0, "consumed_samples": 1202432, "global_step/max_steps": "4697/12700"}
{"lm loss": 2.15512156, "grad_norm": 0.44427148, "learning_rate": 7.53e-05, "elapsed_time_per_iteration": 4.8561554, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 40s", "remaining_time": "10h 51m 47s", "loss_scale": 1.0, "consumed_samples": 1202688, "global_step/max_steps": "4698/12700"}
{"lm loss": 2.14260912, "grad_norm": 0.42246935, "learning_rate": 7.529e-05, "elapsed_time_per_iteration": 4.90777278, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 44s", "remaining_time": "10h 51m 42s", "loss_scale": 1.0, "consumed_samples": 1202944, "global_step/max_steps": "4699/12700"}
{"lm loss": 2.1309979, "grad_norm": 0.4161205, "learning_rate": 7.527e-05, "elapsed_time_per_iteration": 4.83899617, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 49s", "remaining_time": "10h 51m 37s", "loss_scale": 1.0, "consumed_samples": 1203200, "global_step/max_steps": "4700/12700"}
{"lm loss": 2.11563277, "grad_norm": 0.46056998, "learning_rate": 7.526e-05, "elapsed_time_per_iteration": 4.79638457, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 54s", "remaining_time": "10h 51m 32s", "loss_scale": 1.0, "consumed_samples": 1203456, "global_step/max_steps": "4701/12700"}
{"lm loss": 2.13499498, "grad_norm": 0.39165708, "learning_rate": 7.525e-05, "elapsed_time_per_iteration": 4.82871366, "memory(GiB)": 28.98, "elapsed_time": "6h 22m 59s", "remaining_time": "10h 51m 27s", "loss_scale": 1.0, "consumed_samples": 1203712, "global_step/max_steps": "4702/12700"}
{"lm loss": 2.14778256, "grad_norm": 0.44947672, "learning_rate": 7.524e-05, "elapsed_time_per_iteration": 4.95113301, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 4s", "remaining_time": "10h 51m 22s", "loss_scale": 1.0, "consumed_samples": 1203968, "global_step/max_steps": "4703/12700"}
{"lm loss": 2.09991884, "grad_norm": 0.40000457, "learning_rate": 7.523e-05, "elapsed_time_per_iteration": 4.79384303, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 9s", "remaining_time": "10h 51m 17s", "loss_scale": 1.0, "consumed_samples": 1204224, "global_step/max_steps": "4704/12700"}
{"lm loss": 2.13373137, "grad_norm": 0.42742044, "learning_rate": 7.522e-05, "elapsed_time_per_iteration": 4.84640455, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 13s", "remaining_time": "10h 51m 12s", "loss_scale": 1.0, "consumed_samples": 1204480, "global_step/max_steps": "4705/12700"}
{"lm loss": 2.12709856, "grad_norm": 0.41245359, "learning_rate": 7.521e-05, "elapsed_time_per_iteration": 4.92832661, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 18s", "remaining_time": "10h 51m 7s", "loss_scale": 1.0, "consumed_samples": 1204736, "global_step/max_steps": "4706/12700"}
{"lm loss": 2.08482838, "grad_norm": 0.43636066, "learning_rate": 7.52e-05, "elapsed_time_per_iteration": 4.82888126, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 23s", "remaining_time": "10h 51m 2s", "loss_scale": 1.0, "consumed_samples": 1204992, "global_step/max_steps": "4707/12700"}
{"lm loss": 2.10356116, "grad_norm": 0.43459645, "learning_rate": 7.519e-05, "elapsed_time_per_iteration": 4.86748528, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 28s", "remaining_time": "10h 50m 57s", "loss_scale": 1.0, "consumed_samples": 1205248, "global_step/max_steps": "4708/12700"}
{"lm loss": 2.12747741, "grad_norm": 0.43922207, "learning_rate": 7.518e-05, "elapsed_time_per_iteration": 4.84275198, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 33s", "remaining_time": "10h 50m 52s", "loss_scale": 1.0, "consumed_samples": 1205504, "global_step/max_steps": "4709/12700"}
{"lm loss": 2.15890574, "grad_norm": 0.40942529, "learning_rate": 7.516e-05, "elapsed_time_per_iteration": 4.8600657, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 38s", "remaining_time": "10h 50m 48s", "loss_scale": 1.0, "consumed_samples": 1205760, "global_step/max_steps": "4710/12700"}
{"lm loss": 2.14495301, "grad_norm": 0.40148976, "learning_rate": 7.515e-05, "elapsed_time_per_iteration": 5.01652861, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 43s", "remaining_time": "10h 50m 43s", "loss_scale": 1.0, "consumed_samples": 1206016, "global_step/max_steps": "4711/12700"}
{"lm loss": 2.12193155, "grad_norm": 0.40572652, "learning_rate": 7.514e-05, "elapsed_time_per_iteration": 4.85252857, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 48s", "remaining_time": "10h 50m 38s", "loss_scale": 1.0, "consumed_samples": 1206272, "global_step/max_steps": "4712/12700"}
{"lm loss": 2.12647176, "grad_norm": 0.39724767, "learning_rate": 7.513e-05, "elapsed_time_per_iteration": 4.84805226, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 53s", "remaining_time": "10h 50m 33s", "loss_scale": 1.0, "consumed_samples": 1206528, "global_step/max_steps": "4713/12700"}
{"lm loss": 2.13205075, "grad_norm": 0.39191052, "learning_rate": 7.512e-05, "elapsed_time_per_iteration": 4.82515979, "memory(GiB)": 28.98, "elapsed_time": "6h 23m 57s", "remaining_time": "10h 50m 28s", "loss_scale": 1.0, "consumed_samples": 1206784, "global_step/max_steps": "4714/12700"}
{"lm loss": 2.09767938, "grad_norm": 0.39376777, "learning_rate": 7.511e-05, "elapsed_time_per_iteration": 4.82730126, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 2s", "remaining_time": "10h 50m 23s", "loss_scale": 1.0, "consumed_samples": 1207040, "global_step/max_steps": "4715/12700"}
{"lm loss": 2.1485846, "grad_norm": 0.37486738, "learning_rate": 7.51e-05, "elapsed_time_per_iteration": 4.93429303, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 7s", "remaining_time": "10h 50m 18s", "loss_scale": 1.0, "consumed_samples": 1207296, "global_step/max_steps": "4716/12700"}
{"lm loss": 2.14197087, "grad_norm": 0.40879062, "learning_rate": 7.509e-05, "elapsed_time_per_iteration": 4.86361551, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 12s", "remaining_time": "10h 50m 13s", "loss_scale": 1.0, "consumed_samples": 1207552, "global_step/max_steps": "4717/12700"}
{"lm loss": 2.08302712, "grad_norm": 0.38339579, "learning_rate": 7.508e-05, "elapsed_time_per_iteration": 4.8221643, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 17s", "remaining_time": "10h 50m 8s", "loss_scale": 1.0, "consumed_samples": 1207808, "global_step/max_steps": "4718/12700"}
{"lm loss": 2.14220381, "grad_norm": 0.39441997, "learning_rate": 7.507e-05, "elapsed_time_per_iteration": 4.82492971, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 22s", "remaining_time": "10h 50m 3s", "loss_scale": 1.0, "consumed_samples": 1208064, "global_step/max_steps": "4719/12700"}
{"lm loss": 2.12570572, "grad_norm": 0.36323056, "learning_rate": 7.505e-05, "elapsed_time_per_iteration": 4.93919277, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 27s", "remaining_time": "10h 49m 58s", "loss_scale": 1.0, "consumed_samples": 1208320, "global_step/max_steps": "4720/12700"}
{"lm loss": 2.09717155, "grad_norm": 0.41253182, "learning_rate": 7.504e-05, "elapsed_time_per_iteration": 4.96741581, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 32s", "remaining_time": "10h 49m 54s", "loss_scale": 1.0, "consumed_samples": 1208576, "global_step/max_steps": "4721/12700"}
{"lm loss": 2.14762163, "grad_norm": 0.37280828, "learning_rate": 7.503e-05, "elapsed_time_per_iteration": 4.89600444, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 36s", "remaining_time": "10h 49m 49s", "loss_scale": 1.0, "consumed_samples": 1208832, "global_step/max_steps": "4722/12700"}
{"lm loss": 2.13907886, "grad_norm": 0.36801559, "learning_rate": 7.502e-05, "elapsed_time_per_iteration": 4.80717754, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 41s", "remaining_time": "10h 49m 44s", "loss_scale": 1.0, "consumed_samples": 1209088, "global_step/max_steps": "4723/12700"}
{"lm loss": 2.1336844, "grad_norm": 0.39292157, "learning_rate": 7.501e-05, "elapsed_time_per_iteration": 4.85137296, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 46s", "remaining_time": "10h 49m 39s", "loss_scale": 1.0, "consumed_samples": 1209344, "global_step/max_steps": "4724/12700"}
{"lm loss": 2.11570501, "grad_norm": 0.3714321, "learning_rate": 7.5e-05, "elapsed_time_per_iteration": 4.84118795, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 51s", "remaining_time": "10h 49m 34s", "loss_scale": 1.0, "consumed_samples": 1209600, "global_step/max_steps": "4725/12700"}
{"lm loss": 2.14067292, "grad_norm": 0.37663135, "learning_rate": 7.499e-05, "elapsed_time_per_iteration": 4.89159703, "memory(GiB)": 28.98, "elapsed_time": "6h 24m 56s", "remaining_time": "10h 49m 29s", "loss_scale": 1.0, "consumed_samples": 1209856, "global_step/max_steps": "4726/12700"}
{"lm loss": 2.07837534, "grad_norm": 0.3858445, "learning_rate": 7.498e-05, "elapsed_time_per_iteration": 4.94914556, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 1s", "remaining_time": "10h 49m 24s", "loss_scale": 1.0, "consumed_samples": 1210112, "global_step/max_steps": "4727/12700"}
{"lm loss": 2.1328814, "grad_norm": 0.38126934, "learning_rate": 7.497e-05, "elapsed_time_per_iteration": 4.90138316, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 6s", "remaining_time": "10h 49m 19s", "loss_scale": 1.0, "consumed_samples": 1210368, "global_step/max_steps": "4728/12700"}
{"lm loss": 2.10735703, "grad_norm": 0.38501897, "learning_rate": 7.495e-05, "elapsed_time_per_iteration": 4.8314321, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 10s", "remaining_time": "10h 49m 14s", "loss_scale": 1.0, "consumed_samples": 1210624, "global_step/max_steps": "4729/12700"}
{"lm loss": 2.1388638, "grad_norm": 0.40497956, "learning_rate": 7.494e-05, "elapsed_time_per_iteration": 4.82361221, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 15s", "remaining_time": "10h 49m 9s", "loss_scale": 1.0, "consumed_samples": 1210880, "global_step/max_steps": "4730/12700"}
{"lm loss": 2.12384439, "grad_norm": 0.38501906, "learning_rate": 7.493e-05, "elapsed_time_per_iteration": 4.79831338, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 20s", "remaining_time": "10h 49m 4s", "loss_scale": 1.0, "consumed_samples": 1211136, "global_step/max_steps": "4731/12700"}
{"lm loss": 2.12879801, "grad_norm": 0.38688654, "learning_rate": 7.492e-05, "elapsed_time_per_iteration": 4.8910954, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 25s", "remaining_time": "10h 48m 59s", "loss_scale": 1.0, "consumed_samples": 1211392, "global_step/max_steps": "4732/12700"}
{"lm loss": 2.13794017, "grad_norm": 0.36631373, "learning_rate": 7.491e-05, "elapsed_time_per_iteration": 4.84550357, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 30s", "remaining_time": "10h 48m 55s", "loss_scale": 1.0, "consumed_samples": 1211648, "global_step/max_steps": "4733/12700"}
{"lm loss": 2.14455199, "grad_norm": 0.36361793, "learning_rate": 7.49e-05, "elapsed_time_per_iteration": 4.91563606, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 35s", "remaining_time": "10h 48m 50s", "loss_scale": 1.0, "consumed_samples": 1211904, "global_step/max_steps": "4734/12700"}
{"lm loss": 2.11989069, "grad_norm": 0.37332234, "learning_rate": 7.489e-05, "elapsed_time_per_iteration": 4.92609596, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 40s", "remaining_time": "10h 48m 45s", "loss_scale": 1.0, "consumed_samples": 1212160, "global_step/max_steps": "4735/12700"}
{"lm loss": 2.09135771, "grad_norm": 0.35333741, "learning_rate": 7.488e-05, "elapsed_time_per_iteration": 4.87099051, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 45s", "remaining_time": "10h 48m 40s", "loss_scale": 1.0, "consumed_samples": 1212416, "global_step/max_steps": "4736/12700"}
{"lm loss": 2.11670899, "grad_norm": 0.36953351, "learning_rate": 7.487e-05, "elapsed_time_per_iteration": 4.86717486, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 49s", "remaining_time": "10h 48m 35s", "loss_scale": 1.0, "consumed_samples": 1212672, "global_step/max_steps": "4737/12700"}
{"lm loss": 2.1360178, "grad_norm": 0.35204381, "learning_rate": 7.486e-05, "elapsed_time_per_iteration": 4.83470654, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 54s", "remaining_time": "10h 48m 30s", "loss_scale": 1.0, "consumed_samples": 1212928, "global_step/max_steps": "4738/12700"}
{"lm loss": 2.1574297, "grad_norm": 0.38268295, "learning_rate": 7.484e-05, "elapsed_time_per_iteration": 4.90593505, "memory(GiB)": 28.98, "elapsed_time": "6h 25m 59s", "remaining_time": "10h 48m 25s", "loss_scale": 1.0, "consumed_samples": 1213184, "global_step/max_steps": "4739/12700"}
{"lm loss": 2.14181066, "grad_norm": 0.39047995, "learning_rate": 7.483e-05, "elapsed_time_per_iteration": 5.00422597, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 4s", "remaining_time": "10h 48m 21s", "loss_scale": 1.0, "consumed_samples": 1213440, "global_step/max_steps": "4740/12700"}
{"lm loss": 2.11359835, "grad_norm": 0.37741649, "learning_rate": 7.482e-05, "elapsed_time_per_iteration": 4.88362551, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 9s", "remaining_time": "10h 48m 16s", "loss_scale": 1.0, "consumed_samples": 1213696, "global_step/max_steps": "4741/12700"}
{"lm loss": 2.1147027, "grad_norm": 0.37647972, "learning_rate": 7.481e-05, "elapsed_time_per_iteration": 4.79385829, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 14s", "remaining_time": "10h 48m 11s", "loss_scale": 1.0, "consumed_samples": 1213952, "global_step/max_steps": "4742/12700"}
{"lm loss": 2.12073064, "grad_norm": 0.39155495, "learning_rate": 7.48e-05, "elapsed_time_per_iteration": 4.8433876, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 19s", "remaining_time": "10h 48m 6s", "loss_scale": 1.0, "consumed_samples": 1214208, "global_step/max_steps": "4743/12700"}
{"lm loss": 2.12822342, "grad_norm": 0.39238447, "learning_rate": 7.479e-05, "elapsed_time_per_iteration": 4.83404779, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 24s", "remaining_time": "10h 48m 1s", "loss_scale": 1.0, "consumed_samples": 1214464, "global_step/max_steps": "4744/12700"}
{"lm loss": 2.10391188, "grad_norm": 0.35956505, "learning_rate": 7.478e-05, "elapsed_time_per_iteration": 4.91211677, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 28s", "remaining_time": "10h 47m 56s", "loss_scale": 1.0, "consumed_samples": 1214720, "global_step/max_steps": "4745/12700"}
{"lm loss": 2.12301564, "grad_norm": 0.38561916, "learning_rate": 7.477e-05, "elapsed_time_per_iteration": 4.83826613, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 33s", "remaining_time": "10h 47m 51s", "loss_scale": 1.0, "consumed_samples": 1214976, "global_step/max_steps": "4746/12700"}
{"lm loss": 2.11122298, "grad_norm": 0.38235459, "learning_rate": 7.476e-05, "elapsed_time_per_iteration": 4.86619115, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 38s", "remaining_time": "10h 47m 46s", "loss_scale": 1.0, "consumed_samples": 1215232, "global_step/max_steps": "4747/12700"}
{"lm loss": 2.13944817, "grad_norm": 0.3584443, "learning_rate": 7.474e-05, "elapsed_time_per_iteration": 4.91043997, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 43s", "remaining_time": "10h 47m 41s", "loss_scale": 1.0, "consumed_samples": 1215488, "global_step/max_steps": "4748/12700"}
{"lm loss": 2.10971165, "grad_norm": 0.38053051, "learning_rate": 7.473e-05, "elapsed_time_per_iteration": 4.8742075, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 48s", "remaining_time": "10h 47m 36s", "loss_scale": 1.0, "consumed_samples": 1215744, "global_step/max_steps": "4749/12700"}
{"lm loss": 2.14121389, "grad_norm": 0.35960403, "learning_rate": 7.472e-05, "elapsed_time_per_iteration": 4.87365031, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 53s", "remaining_time": "10h 47m 31s", "loss_scale": 1.0, "consumed_samples": 1216000, "global_step/max_steps": "4750/12700"}
{"lm loss": 2.12888432, "grad_norm": 0.41555029, "learning_rate": 7.471e-05, "elapsed_time_per_iteration": 4.84179068, "memory(GiB)": 28.98, "elapsed_time": "6h 26m 58s", "remaining_time": "10h 47m 26s", "loss_scale": 1.0, "consumed_samples": 1216256, "global_step/max_steps": "4751/12700"}
{"lm loss": 2.12352061, "grad_norm": 0.36388078, "learning_rate": 7.47e-05, "elapsed_time_per_iteration": 4.98333359, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 3s", "remaining_time": "10h 47m 22s", "loss_scale": 1.0, "consumed_samples": 1216512, "global_step/max_steps": "4752/12700"}
{"lm loss": 2.13140583, "grad_norm": 0.39017221, "learning_rate": 7.469e-05, "elapsed_time_per_iteration": 4.85674882, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 7s", "remaining_time": "10h 47m 17s", "loss_scale": 1.0, "consumed_samples": 1216768, "global_step/max_steps": "4753/12700"}
{"lm loss": 2.15442467, "grad_norm": 0.41190377, "learning_rate": 7.468e-05, "elapsed_time_per_iteration": 4.87976074, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 12s", "remaining_time": "10h 47m 12s", "loss_scale": 1.0, "consumed_samples": 1217024, "global_step/max_steps": "4754/12700"}
{"lm loss": 2.09052682, "grad_norm": 0.35306627, "learning_rate": 7.467e-05, "elapsed_time_per_iteration": 4.96457839, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 17s", "remaining_time": "10h 47m 7s", "loss_scale": 1.0, "consumed_samples": 1217280, "global_step/max_steps": "4755/12700"}
{"lm loss": 2.10272861, "grad_norm": 0.42022645, "learning_rate": 7.466e-05, "elapsed_time_per_iteration": 4.85908318, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 22s", "remaining_time": "10h 47m 2s", "loss_scale": 1.0, "consumed_samples": 1217536, "global_step/max_steps": "4756/12700"}
{"lm loss": 2.10714483, "grad_norm": 0.37587288, "learning_rate": 7.464e-05, "elapsed_time_per_iteration": 4.90689278, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 27s", "remaining_time": "10h 46m 57s", "loss_scale": 1.0, "consumed_samples": 1217792, "global_step/max_steps": "4757/12700"}
{"lm loss": 2.12952948, "grad_norm": 0.39648169, "learning_rate": 7.463e-05, "elapsed_time_per_iteration": 4.90163708, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 32s", "remaining_time": "10h 46m 52s", "loss_scale": 1.0, "consumed_samples": 1218048, "global_step/max_steps": "4758/12700"}
{"lm loss": 2.12187982, "grad_norm": 0.38286197, "learning_rate": 7.462e-05, "elapsed_time_per_iteration": 4.95134544, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 37s", "remaining_time": "10h 46m 48s", "loss_scale": 1.0, "consumed_samples": 1218304, "global_step/max_steps": "4759/12700"}
{"lm loss": 2.11078048, "grad_norm": 0.3625963, "learning_rate": 7.461e-05, "elapsed_time_per_iteration": 5.00088716, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 42s", "remaining_time": "10h 46m 43s", "loss_scale": 1.0, "consumed_samples": 1218560, "global_step/max_steps": "4760/12700"}
{"lm loss": 2.07937193, "grad_norm": 0.41985169, "learning_rate": 7.46e-05, "elapsed_time_per_iteration": 4.85641217, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 47s", "remaining_time": "10h 46m 38s", "loss_scale": 1.0, "consumed_samples": 1218816, "global_step/max_steps": "4761/12700"}
{"lm loss": 2.144032, "grad_norm": 0.40548798, "learning_rate": 7.459e-05, "elapsed_time_per_iteration": 4.76624703, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 52s", "remaining_time": "10h 46m 33s", "loss_scale": 1.0, "consumed_samples": 1219072, "global_step/max_steps": "4762/12700"}
{"lm loss": 2.12444663, "grad_norm": 0.40965346, "learning_rate": 7.458e-05, "elapsed_time_per_iteration": 4.84243751, "memory(GiB)": 28.98, "elapsed_time": "6h 27m 56s", "remaining_time": "10h 46m 28s", "loss_scale": 1.0, "consumed_samples": 1219328, "global_step/max_steps": "4763/12700"}
{"lm loss": 2.10863328, "grad_norm": 0.4219307, "learning_rate": 7.457e-05, "elapsed_time_per_iteration": 4.92442322, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 1s", "remaining_time": "10h 46m 23s", "loss_scale": 1.0, "consumed_samples": 1219584, "global_step/max_steps": "4764/12700"}
{"lm loss": 2.10964704, "grad_norm": 0.4326188, "learning_rate": 7.456e-05, "elapsed_time_per_iteration": 4.90007687, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 6s", "remaining_time": "10h 46m 18s", "loss_scale": 1.0, "consumed_samples": 1219840, "global_step/max_steps": "4765/12700"}
{"lm loss": 2.09883642, "grad_norm": 0.4122653, "learning_rate": 7.454e-05, "elapsed_time_per_iteration": 4.99349689, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 11s", "remaining_time": "10h 46m 13s", "loss_scale": 1.0, "consumed_samples": 1220096, "global_step/max_steps": "4766/12700"}
{"lm loss": 2.09478569, "grad_norm": 0.39811289, "learning_rate": 7.453e-05, "elapsed_time_per_iteration": 4.81900287, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 16s", "remaining_time": "10h 46m 8s", "loss_scale": 1.0, "consumed_samples": 1220352, "global_step/max_steps": "4767/12700"}
{"lm loss": 2.13739514, "grad_norm": 0.44578728, "learning_rate": 7.452e-05, "elapsed_time_per_iteration": 5.05094957, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 21s", "remaining_time": "10h 46m 4s", "loss_scale": 1.0, "consumed_samples": 1220608, "global_step/max_steps": "4768/12700"}
{"lm loss": 2.13041568, "grad_norm": 0.38492924, "learning_rate": 7.451e-05, "elapsed_time_per_iteration": 4.78853345, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 26s", "remaining_time": "10h 45m 59s", "loss_scale": 1.0, "consumed_samples": 1220864, "global_step/max_steps": "4769/12700"}
{"lm loss": 2.13018823, "grad_norm": 0.43170771, "learning_rate": 7.45e-05, "elapsed_time_per_iteration": 4.83980179, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 31s", "remaining_time": "10h 45m 54s", "loss_scale": 1.0, "consumed_samples": 1221120, "global_step/max_steps": "4770/12700"}
{"lm loss": 2.1423614, "grad_norm": 0.39831918, "learning_rate": 7.449e-05, "elapsed_time_per_iteration": 4.78628182, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 36s", "remaining_time": "10h 45m 49s", "loss_scale": 1.0, "consumed_samples": 1221376, "global_step/max_steps": "4771/12700"}
{"lm loss": 2.11795592, "grad_norm": 0.41546145, "learning_rate": 7.448e-05, "elapsed_time_per_iteration": 4.99040675, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 41s", "remaining_time": "10h 45m 44s", "loss_scale": 1.0, "consumed_samples": 1221632, "global_step/max_steps": "4772/12700"}
{"lm loss": 2.13584614, "grad_norm": 0.41634259, "learning_rate": 7.447e-05, "elapsed_time_per_iteration": 4.85588741, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 45s", "remaining_time": "10h 45m 39s", "loss_scale": 1.0, "consumed_samples": 1221888, "global_step/max_steps": "4773/12700"}
{"lm loss": 2.13842559, "grad_norm": 0.40527362, "learning_rate": 7.446e-05, "elapsed_time_per_iteration": 4.85596609, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 50s", "remaining_time": "10h 45m 34s", "loss_scale": 1.0, "consumed_samples": 1222144, "global_step/max_steps": "4774/12700"}
{"lm loss": 2.14182353, "grad_norm": 0.40355313, "learning_rate": 7.444e-05, "elapsed_time_per_iteration": 4.82796717, "memory(GiB)": 28.98, "elapsed_time": "6h 28m 55s", "remaining_time": "10h 45m 29s", "loss_scale": 1.0, "consumed_samples": 1222400, "global_step/max_steps": "4775/12700"}
{"lm loss": 2.11390805, "grad_norm": 0.37548369, "learning_rate": 7.443e-05, "elapsed_time_per_iteration": 4.90463829, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 0s", "remaining_time": "10h 45m 24s", "loss_scale": 1.0, "consumed_samples": 1222656, "global_step/max_steps": "4776/12700"}
{"lm loss": 2.10133791, "grad_norm": 0.40304497, "learning_rate": 7.442e-05, "elapsed_time_per_iteration": 4.85838866, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 5s", "remaining_time": "10h 45m 19s", "loss_scale": 1.0, "consumed_samples": 1222912, "global_step/max_steps": "4777/12700"}
{"lm loss": 2.10271907, "grad_norm": 0.38529947, "learning_rate": 7.441e-05, "elapsed_time_per_iteration": 4.95392632, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 10s", "remaining_time": "10h 45m 15s", "loss_scale": 1.0, "consumed_samples": 1223168, "global_step/max_steps": "4778/12700"}
{"lm loss": 2.11506677, "grad_norm": 0.38773739, "learning_rate": 7.44e-05, "elapsed_time_per_iteration": 4.91063476, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 15s", "remaining_time": "10h 45m 10s", "loss_scale": 1.0, "consumed_samples": 1223424, "global_step/max_steps": "4779/12700"}
{"lm loss": 2.11484051, "grad_norm": 0.39133593, "learning_rate": 7.439e-05, "elapsed_time_per_iteration": 4.94971061, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 20s", "remaining_time": "10h 45m 5s", "loss_scale": 1.0, "consumed_samples": 1223680, "global_step/max_steps": "4780/12700"}
{"lm loss": 2.08939862, "grad_norm": 0.37358841, "learning_rate": 7.438e-05, "elapsed_time_per_iteration": 4.88240814, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 25s", "remaining_time": "10h 45m 0s", "loss_scale": 1.0, "consumed_samples": 1223936, "global_step/max_steps": "4781/12700"}
{"lm loss": 2.11914825, "grad_norm": 0.38463107, "learning_rate": 7.437e-05, "elapsed_time_per_iteration": 4.79716492, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 29s", "remaining_time": "10h 44m 55s", "loss_scale": 1.0, "consumed_samples": 1224192, "global_step/max_steps": "4782/12700"}
{"lm loss": 2.11622882, "grad_norm": 0.38305855, "learning_rate": 7.436e-05, "elapsed_time_per_iteration": 4.98648477, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 34s", "remaining_time": "10h 44m 50s", "loss_scale": 1.0, "consumed_samples": 1224448, "global_step/max_steps": "4783/12700"}
{"lm loss": 2.13763881, "grad_norm": 0.37743551, "learning_rate": 7.434e-05, "elapsed_time_per_iteration": 4.87996387, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 39s", "remaining_time": "10h 44m 45s", "loss_scale": 1.0, "consumed_samples": 1224704, "global_step/max_steps": "4784/12700"}
{"lm loss": 2.10623002, "grad_norm": 0.36516345, "learning_rate": 7.433e-05, "elapsed_time_per_iteration": 4.80764961, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 44s", "remaining_time": "10h 44m 40s", "loss_scale": 1.0, "consumed_samples": 1224960, "global_step/max_steps": "4785/12700"}
{"lm loss": 2.12425542, "grad_norm": 0.38229316, "learning_rate": 7.432e-05, "elapsed_time_per_iteration": 4.90238643, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 49s", "remaining_time": "10h 44m 36s", "loss_scale": 1.0, "consumed_samples": 1225216, "global_step/max_steps": "4786/12700"}
{"lm loss": 2.10809398, "grad_norm": 0.42980736, "learning_rate": 7.431e-05, "elapsed_time_per_iteration": 4.98180294, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 54s", "remaining_time": "10h 44m 31s", "loss_scale": 1.0, "consumed_samples": 1225472, "global_step/max_steps": "4787/12700"}
{"lm loss": 2.10154533, "grad_norm": 0.35557532, "learning_rate": 7.43e-05, "elapsed_time_per_iteration": 4.84056544, "memory(GiB)": 28.98, "elapsed_time": "6h 29m 59s", "remaining_time": "10h 44m 26s", "loss_scale": 1.0, "consumed_samples": 1225728, "global_step/max_steps": "4788/12700"}
{"lm loss": 2.08303595, "grad_norm": 0.38432875, "learning_rate": 7.429e-05, "elapsed_time_per_iteration": 4.83306193, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 4s", "remaining_time": "10h 44m 21s", "loss_scale": 1.0, "consumed_samples": 1225984, "global_step/max_steps": "4789/12700"}
{"lm loss": 2.14066315, "grad_norm": 0.37581515, "learning_rate": 7.428e-05, "elapsed_time_per_iteration": 4.96555877, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 8s", "remaining_time": "10h 44m 16s", "loss_scale": 1.0, "consumed_samples": 1226240, "global_step/max_steps": "4790/12700"}
{"lm loss": 2.16006589, "grad_norm": 0.3626003, "learning_rate": 7.427e-05, "elapsed_time_per_iteration": 4.91149998, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 13s", "remaining_time": "10h 44m 11s", "loss_scale": 1.0, "consumed_samples": 1226496, "global_step/max_steps": "4791/12700"}
{"lm loss": 2.08546519, "grad_norm": 0.40055403, "learning_rate": 7.426e-05, "elapsed_time_per_iteration": 4.88824534, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 18s", "remaining_time": "10h 44m 6s", "loss_scale": 1.0, "consumed_samples": 1226752, "global_step/max_steps": "4792/12700"}
{"lm loss": 2.09385848, "grad_norm": 0.35250476, "learning_rate": 7.424e-05, "elapsed_time_per_iteration": 4.87265921, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 23s", "remaining_time": "10h 44m 1s", "loss_scale": 1.0, "consumed_samples": 1227008, "global_step/max_steps": "4793/12700"}
{"lm loss": 2.1020577, "grad_norm": 0.37180823, "learning_rate": 7.423e-05, "elapsed_time_per_iteration": 4.82390499, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 28s", "remaining_time": "10h 43m 56s", "loss_scale": 1.0, "consumed_samples": 1227264, "global_step/max_steps": "4794/12700"}
{"lm loss": 2.15953827, "grad_norm": 0.36465997, "learning_rate": 7.422e-05, "elapsed_time_per_iteration": 4.84024644, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 33s", "remaining_time": "10h 43m 52s", "loss_scale": 1.0, "consumed_samples": 1227520, "global_step/max_steps": "4795/12700"}
{"lm loss": 2.09922957, "grad_norm": 0.39846477, "learning_rate": 7.421e-05, "elapsed_time_per_iteration": 4.89440966, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 38s", "remaining_time": "10h 43m 47s", "loss_scale": 1.0, "consumed_samples": 1227776, "global_step/max_steps": "4796/12700"}
{"lm loss": 2.08176041, "grad_norm": 0.34527785, "learning_rate": 7.42e-05, "elapsed_time_per_iteration": 4.88147926, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 43s", "remaining_time": "10h 43m 42s", "loss_scale": 1.0, "consumed_samples": 1228032, "global_step/max_steps": "4797/12700"}
{"lm loss": 2.11033964, "grad_norm": 0.39261466, "learning_rate": 7.419e-05, "elapsed_time_per_iteration": 4.80639148, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 47s", "remaining_time": "10h 43m 37s", "loss_scale": 1.0, "consumed_samples": 1228288, "global_step/max_steps": "4798/12700"}
{"lm loss": 2.10705614, "grad_norm": 0.36594594, "learning_rate": 7.418e-05, "elapsed_time_per_iteration": 4.8505125, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 52s", "remaining_time": "10h 43m 32s", "loss_scale": 1.0, "consumed_samples": 1228544, "global_step/max_steps": "4799/12700"}
{"lm loss": 2.1363287, "grad_norm": 0.37610438, "learning_rate": 7.417e-05, "elapsed_time_per_iteration": 4.83377171, "memory(GiB)": 28.98, "elapsed_time": "6h 30m 57s", "remaining_time": "10h 43m 27s", "loss_scale": 1.0, "consumed_samples": 1228800, "global_step/max_steps": "4800/12700"}
{"lm loss": 2.15011692, "grad_norm": 0.37371108, "learning_rate": 7.415e-05, "elapsed_time_per_iteration": 4.84787679, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 2s", "remaining_time": "10h 43m 22s", "loss_scale": 1.0, "consumed_samples": 1229056, "global_step/max_steps": "4801/12700"}
{"lm loss": 2.10578108, "grad_norm": 0.41935655, "learning_rate": 7.414e-05, "elapsed_time_per_iteration": 4.89484239, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 7s", "remaining_time": "10h 43m 17s", "loss_scale": 1.0, "consumed_samples": 1229312, "global_step/max_steps": "4802/12700"}
{"lm loss": 2.08628702, "grad_norm": 0.40049773, "learning_rate": 7.413e-05, "elapsed_time_per_iteration": 4.93403268, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 12s", "remaining_time": "10h 43m 12s", "loss_scale": 1.0, "consumed_samples": 1229568, "global_step/max_steps": "4803/12700"}
{"lm loss": 2.12114644, "grad_norm": 0.35103917, "learning_rate": 7.412e-05, "elapsed_time_per_iteration": 4.89664435, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 17s", "remaining_time": "10h 43m 7s", "loss_scale": 1.0, "consumed_samples": 1229824, "global_step/max_steps": "4804/12700"}
{"lm loss": 2.13556099, "grad_norm": 0.3846646, "learning_rate": 7.411e-05, "elapsed_time_per_iteration": 4.84071088, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 22s", "remaining_time": "10h 43m 2s", "loss_scale": 1.0, "consumed_samples": 1230080, "global_step/max_steps": "4805/12700"}
{"lm loss": 2.13308764, "grad_norm": 0.35745347, "learning_rate": 7.41e-05, "elapsed_time_per_iteration": 4.90132046, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 26s", "remaining_time": "10h 42m 57s", "loss_scale": 1.0, "consumed_samples": 1230336, "global_step/max_steps": "4806/12700"}
{"lm loss": 2.12115264, "grad_norm": 0.37994573, "learning_rate": 7.409e-05, "elapsed_time_per_iteration": 4.89923573, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 31s", "remaining_time": "10h 42m 53s", "loss_scale": 1.0, "consumed_samples": 1230592, "global_step/max_steps": "4807/12700"}
{"lm loss": 2.11553097, "grad_norm": 0.40623304, "learning_rate": 7.408e-05, "elapsed_time_per_iteration": 4.9037745, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 36s", "remaining_time": "10h 42m 48s", "loss_scale": 1.0, "consumed_samples": 1230848, "global_step/max_steps": "4808/12700"}
{"lm loss": 2.09215784, "grad_norm": 0.40424019, "learning_rate": 7.407e-05, "elapsed_time_per_iteration": 4.85093164, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 41s", "remaining_time": "10h 42m 43s", "loss_scale": 1.0, "consumed_samples": 1231104, "global_step/max_steps": "4809/12700"}
{"lm loss": 2.09690285, "grad_norm": 0.38857451, "learning_rate": 7.405e-05, "elapsed_time_per_iteration": 4.88147473, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 46s", "remaining_time": "10h 42m 38s", "loss_scale": 1.0, "consumed_samples": 1231360, "global_step/max_steps": "4810/12700"}
{"lm loss": 2.07857585, "grad_norm": 0.38461915, "learning_rate": 7.404e-05, "elapsed_time_per_iteration": 4.92810702, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 51s", "remaining_time": "10h 42m 33s", "loss_scale": 1.0, "consumed_samples": 1231616, "global_step/max_steps": "4811/12700"}
{"lm loss": 2.12119699, "grad_norm": 0.39342174, "learning_rate": 7.403e-05, "elapsed_time_per_iteration": 4.92305493, "memory(GiB)": 28.98, "elapsed_time": "6h 31m 56s", "remaining_time": "10h 42m 28s", "loss_scale": 1.0, "consumed_samples": 1231872, "global_step/max_steps": "4812/12700"}
{"lm loss": 2.08098745, "grad_norm": 0.39044204, "learning_rate": 7.402e-05, "elapsed_time_per_iteration": 4.87993813, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 1s", "remaining_time": "10h 42m 23s", "loss_scale": 1.0, "consumed_samples": 1232128, "global_step/max_steps": "4813/12700"}
{"lm loss": 2.11772346, "grad_norm": 0.39163804, "learning_rate": 7.401e-05, "elapsed_time_per_iteration": 4.82220602, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 6s", "remaining_time": "10h 42m 18s", "loss_scale": 1.0, "consumed_samples": 1232384, "global_step/max_steps": "4814/12700"}
{"lm loss": 2.13267422, "grad_norm": 0.36789551, "learning_rate": 7.4e-05, "elapsed_time_per_iteration": 4.82445884, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 10s", "remaining_time": "10h 42m 13s", "loss_scale": 1.0, "consumed_samples": 1232640, "global_step/max_steps": "4815/12700"}
{"lm loss": 2.10579324, "grad_norm": 0.39383471, "learning_rate": 7.399e-05, "elapsed_time_per_iteration": 4.91797924, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 15s", "remaining_time": "10h 42m 9s", "loss_scale": 1.0, "consumed_samples": 1232896, "global_step/max_steps": "4816/12700"}
{"lm loss": 2.14294839, "grad_norm": 0.42869473, "learning_rate": 7.398e-05, "elapsed_time_per_iteration": 4.81796455, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 20s", "remaining_time": "10h 42m 4s", "loss_scale": 1.0, "consumed_samples": 1233152, "global_step/max_steps": "4817/12700"}
{"lm loss": 2.0993259, "grad_norm": 0.41450268, "learning_rate": 7.396e-05, "elapsed_time_per_iteration": 4.80263233, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 25s", "remaining_time": "10h 41m 59s", "loss_scale": 1.0, "consumed_samples": 1233408, "global_step/max_steps": "4818/12700"}
{"lm loss": 2.10019279, "grad_norm": 0.44023272, "learning_rate": 7.395e-05, "elapsed_time_per_iteration": 5.01193714, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 30s", "remaining_time": "10h 41m 54s", "loss_scale": 1.0, "consumed_samples": 1233664, "global_step/max_steps": "4819/12700"}
{"lm loss": 2.12301612, "grad_norm": 0.43761262, "learning_rate": 7.394e-05, "elapsed_time_per_iteration": 4.92926574, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 35s", "remaining_time": "10h 41m 49s", "loss_scale": 1.0, "consumed_samples": 1233920, "global_step/max_steps": "4820/12700"}
{"lm loss": 2.09529209, "grad_norm": 0.42544189, "learning_rate": 7.393e-05, "elapsed_time_per_iteration": 4.81374598, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 40s", "remaining_time": "10h 41m 44s", "loss_scale": 1.0, "consumed_samples": 1234176, "global_step/max_steps": "4821/12700"}
{"lm loss": 2.11468196, "grad_norm": 0.40976498, "learning_rate": 7.392e-05, "elapsed_time_per_iteration": 5.00315666, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 45s", "remaining_time": "10h 41m 39s", "loss_scale": 1.0, "consumed_samples": 1234432, "global_step/max_steps": "4822/12700"}
{"lm loss": 2.13797021, "grad_norm": 0.39107165, "learning_rate": 7.391e-05, "elapsed_time_per_iteration": 4.81496263, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 49s", "remaining_time": "10h 41m 34s", "loss_scale": 1.0, "consumed_samples": 1234688, "global_step/max_steps": "4823/12700"}
{"lm loss": 2.13421988, "grad_norm": 0.44780934, "learning_rate": 7.39e-05, "elapsed_time_per_iteration": 4.91005278, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 54s", "remaining_time": "10h 41m 29s", "loss_scale": 1.0, "consumed_samples": 1234944, "global_step/max_steps": "4824/12700"}
{"lm loss": 2.14089441, "grad_norm": 0.37992963, "learning_rate": 7.389e-05, "elapsed_time_per_iteration": 4.926507, "memory(GiB)": 28.98, "elapsed_time": "6h 32m 59s", "remaining_time": "10h 41m 25s", "loss_scale": 1.0, "consumed_samples": 1235200, "global_step/max_steps": "4825/12700"}
{"lm loss": 2.12286162, "grad_norm": 0.40543857, "learning_rate": 7.388e-05, "elapsed_time_per_iteration": 4.9012146, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 4s", "remaining_time": "10h 41m 20s", "loss_scale": 1.0, "consumed_samples": 1235456, "global_step/max_steps": "4826/12700"}
{"lm loss": 2.13610005, "grad_norm": 0.3981863, "learning_rate": 7.386e-05, "elapsed_time_per_iteration": 4.88187051, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 9s", "remaining_time": "10h 41m 15s", "loss_scale": 1.0, "consumed_samples": 1235712, "global_step/max_steps": "4827/12700"}
{"lm loss": 2.09719419, "grad_norm": 0.40623844, "learning_rate": 7.385e-05, "elapsed_time_per_iteration": 4.896842, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 14s", "remaining_time": "10h 41m 10s", "loss_scale": 1.0, "consumed_samples": 1235968, "global_step/max_steps": "4828/12700"}
{"lm loss": 2.12049532, "grad_norm": 0.39501506, "learning_rate": 7.384e-05, "elapsed_time_per_iteration": 4.89118004, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 19s", "remaining_time": "10h 41m 5s", "loss_scale": 1.0, "consumed_samples": 1236224, "global_step/max_steps": "4829/12700"}
{"lm loss": 2.10958529, "grad_norm": 0.39739373, "learning_rate": 7.383e-05, "elapsed_time_per_iteration": 4.89933443, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 24s", "remaining_time": "10h 41m 0s", "loss_scale": 1.0, "consumed_samples": 1236480, "global_step/max_steps": "4830/12700"}
{"lm loss": 2.14693594, "grad_norm": 0.36719927, "learning_rate": 7.382e-05, "elapsed_time_per_iteration": 4.9757576, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 29s", "remaining_time": "10h 40m 56s", "loss_scale": 1.0, "consumed_samples": 1236736, "global_step/max_steps": "4831/12700"}
{"lm loss": 2.1267314, "grad_norm": 0.40419275, "learning_rate": 7.381e-05, "elapsed_time_per_iteration": 4.86967325, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 34s", "remaining_time": "10h 40m 51s", "loss_scale": 1.0, "consumed_samples": 1236992, "global_step/max_steps": "4832/12700"}
{"lm loss": 2.11904454, "grad_norm": 0.39059016, "learning_rate": 7.38e-05, "elapsed_time_per_iteration": 4.88802695, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 38s", "remaining_time": "10h 40m 46s", "loss_scale": 1.0, "consumed_samples": 1237248, "global_step/max_steps": "4833/12700"}
{"lm loss": 2.12107444, "grad_norm": 0.39650092, "learning_rate": 7.379e-05, "elapsed_time_per_iteration": 5.03182054, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 44s", "remaining_time": "10h 40m 41s", "loss_scale": 1.0, "consumed_samples": 1237504, "global_step/max_steps": "4834/12700"}
{"lm loss": 2.10874534, "grad_norm": 0.41110539, "learning_rate": 7.377e-05, "elapsed_time_per_iteration": 4.87879968, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 48s", "remaining_time": "10h 40m 36s", "loss_scale": 1.0, "consumed_samples": 1237760, "global_step/max_steps": "4835/12700"}
{"lm loss": 2.11563516, "grad_norm": 0.39500037, "learning_rate": 7.376e-05, "elapsed_time_per_iteration": 4.898103, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 53s", "remaining_time": "10h 40m 31s", "loss_scale": 1.0, "consumed_samples": 1238016, "global_step/max_steps": "4836/12700"}
{"lm loss": 2.13007784, "grad_norm": 0.4370847, "learning_rate": 7.375e-05, "elapsed_time_per_iteration": 4.92694926, "memory(GiB)": 28.98, "elapsed_time": "6h 33m 58s", "remaining_time": "10h 40m 26s", "loss_scale": 1.0, "consumed_samples": 1238272, "global_step/max_steps": "4837/12700"}
{"lm loss": 2.1603241, "grad_norm": 0.39162359, "learning_rate": 7.374e-05, "elapsed_time_per_iteration": 4.82874417, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 3s", "remaining_time": "10h 40m 21s", "loss_scale": 1.0, "consumed_samples": 1238528, "global_step/max_steps": "4838/12700"}
{"lm loss": 2.09169173, "grad_norm": 0.36514595, "learning_rate": 7.373e-05, "elapsed_time_per_iteration": 4.85841274, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 8s", "remaining_time": "10h 40m 17s", "loss_scale": 1.0, "consumed_samples": 1238784, "global_step/max_steps": "4839/12700"}
{"lm loss": 2.1440599, "grad_norm": 0.39466968, "learning_rate": 7.372e-05, "elapsed_time_per_iteration": 4.87793708, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 13s", "remaining_time": "10h 40m 12s", "loss_scale": 1.0, "consumed_samples": 1239040, "global_step/max_steps": "4840/12700"}
{"lm loss": 2.09903073, "grad_norm": 0.38957191, "learning_rate": 7.371e-05, "elapsed_time_per_iteration": 4.97354817, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 18s", "remaining_time": "10h 40m 7s", "loss_scale": 1.0, "consumed_samples": 1239296, "global_step/max_steps": "4841/12700"}
{"lm loss": 2.12104654, "grad_norm": 0.35701722, "learning_rate": 7.37e-05, "elapsed_time_per_iteration": 4.98677444, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 23s", "remaining_time": "10h 40m 2s", "loss_scale": 1.0, "consumed_samples": 1239552, "global_step/max_steps": "4842/12700"}
{"lm loss": 2.08464646, "grad_norm": 0.38882497, "learning_rate": 7.368e-05, "elapsed_time_per_iteration": 5.02648425, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 28s", "remaining_time": "10h 39m 58s", "loss_scale": 1.0, "consumed_samples": 1239808, "global_step/max_steps": "4843/12700"}
{"lm loss": 2.1415801, "grad_norm": 0.36625847, "learning_rate": 7.367e-05, "elapsed_time_per_iteration": 4.98490691, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 33s", "remaining_time": "10h 39m 53s", "loss_scale": 1.0, "consumed_samples": 1240064, "global_step/max_steps": "4844/12700"}
{"lm loss": 2.10047507, "grad_norm": 0.40431821, "learning_rate": 7.366e-05, "elapsed_time_per_iteration": 4.82868004, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 38s", "remaining_time": "10h 39m 48s", "loss_scale": 1.0, "consumed_samples": 1240320, "global_step/max_steps": "4845/12700"}
{"lm loss": 2.11237717, "grad_norm": 0.38316372, "learning_rate": 7.365e-05, "elapsed_time_per_iteration": 4.9063158, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 42s", "remaining_time": "10h 39m 43s", "loss_scale": 1.0, "consumed_samples": 1240576, "global_step/max_steps": "4846/12700"}
{"lm loss": 2.11241508, "grad_norm": 0.39509112, "learning_rate": 7.364e-05, "elapsed_time_per_iteration": 4.84053254, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 47s", "remaining_time": "10h 39m 38s", "loss_scale": 1.0, "consumed_samples": 1240832, "global_step/max_steps": "4847/12700"}
{"lm loss": 2.12255621, "grad_norm": 0.39478132, "learning_rate": 7.363e-05, "elapsed_time_per_iteration": 4.88265562, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 52s", "remaining_time": "10h 39m 33s", "loss_scale": 1.0, "consumed_samples": 1241088, "global_step/max_steps": "4848/12700"}
{"lm loss": 2.10368609, "grad_norm": 0.37615609, "learning_rate": 7.362e-05, "elapsed_time_per_iteration": 4.91656613, "memory(GiB)": 28.98, "elapsed_time": "6h 34m 57s", "remaining_time": "10h 39m 28s", "loss_scale": 1.0, "consumed_samples": 1241344, "global_step/max_steps": "4849/12700"}
{"lm loss": 2.11504173, "grad_norm": 0.39274219, "learning_rate": 7.361e-05, "elapsed_time_per_iteration": 4.8921454, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 2s", "remaining_time": "10h 39m 23s", "loss_scale": 1.0, "consumed_samples": 1241600, "global_step/max_steps": "4850/12700"}
{"lm loss": 2.1030643, "grad_norm": 0.39339837, "learning_rate": 7.359e-05, "elapsed_time_per_iteration": 4.86480451, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 7s", "remaining_time": "10h 39m 18s", "loss_scale": 1.0, "consumed_samples": 1241856, "global_step/max_steps": "4851/12700"}
{"lm loss": 2.10177374, "grad_norm": 0.41213214, "learning_rate": 7.358e-05, "elapsed_time_per_iteration": 4.86576962, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 12s", "remaining_time": "10h 39m 14s", "loss_scale": 1.0, "consumed_samples": 1242112, "global_step/max_steps": "4852/12700"}
{"lm loss": 2.10302043, "grad_norm": 0.35768694, "learning_rate": 7.357e-05, "elapsed_time_per_iteration": 4.84305716, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 17s", "remaining_time": "10h 39m 9s", "loss_scale": 1.0, "consumed_samples": 1242368, "global_step/max_steps": "4853/12700"}
{"lm loss": 2.10486913, "grad_norm": 0.41048026, "learning_rate": 7.356e-05, "elapsed_time_per_iteration": 4.88168621, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 21s", "remaining_time": "10h 39m 4s", "loss_scale": 1.0, "consumed_samples": 1242624, "global_step/max_steps": "4854/12700"}
{"lm loss": 2.12803125, "grad_norm": 0.37198383, "learning_rate": 7.355e-05, "elapsed_time_per_iteration": 4.92677426, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 26s", "remaining_time": "10h 38m 59s", "loss_scale": 1.0, "consumed_samples": 1242880, "global_step/max_steps": "4855/12700"}
{"lm loss": 2.10738587, "grad_norm": 0.38323855, "learning_rate": 7.354e-05, "elapsed_time_per_iteration": 5.00737238, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 31s", "remaining_time": "10h 38m 54s", "loss_scale": 1.0, "consumed_samples": 1243136, "global_step/max_steps": "4856/12700"}
{"lm loss": 2.12540531, "grad_norm": 0.37527087, "learning_rate": 7.353e-05, "elapsed_time_per_iteration": 4.83747101, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 36s", "remaining_time": "10h 38m 49s", "loss_scale": 1.0, "consumed_samples": 1243392, "global_step/max_steps": "4857/12700"}
{"lm loss": 2.12570977, "grad_norm": 0.41890422, "learning_rate": 7.352e-05, "elapsed_time_per_iteration": 4.90910983, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 41s", "remaining_time": "10h 38m 44s", "loss_scale": 1.0, "consumed_samples": 1243648, "global_step/max_steps": "4858/12700"}
{"lm loss": 2.13299561, "grad_norm": 0.36597317, "learning_rate": 7.35e-05, "elapsed_time_per_iteration": 4.8287499, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 46s", "remaining_time": "10h 38m 39s", "loss_scale": 1.0, "consumed_samples": 1243904, "global_step/max_steps": "4859/12700"}
{"lm loss": 2.10669017, "grad_norm": 0.41268823, "learning_rate": 7.349e-05, "elapsed_time_per_iteration": 4.85974288, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 51s", "remaining_time": "10h 38m 34s", "loss_scale": 1.0, "consumed_samples": 1244160, "global_step/max_steps": "4860/12700"}
{"lm loss": 2.13226414, "grad_norm": 0.41360551, "learning_rate": 7.348e-05, "elapsed_time_per_iteration": 4.78792334, "memory(GiB)": 28.98, "elapsed_time": "6h 35m 56s", "remaining_time": "10h 38m 29s", "loss_scale": 1.0, "consumed_samples": 1244416, "global_step/max_steps": "4861/12700"}
{"lm loss": 2.08379006, "grad_norm": 0.35110691, "learning_rate": 7.347e-05, "elapsed_time_per_iteration": 4.91194057, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 1s", "remaining_time": "10h 38m 25s", "loss_scale": 1.0, "consumed_samples": 1244672, "global_step/max_steps": "4862/12700"}
{"lm loss": 2.10549164, "grad_norm": 0.37649238, "learning_rate": 7.346e-05, "elapsed_time_per_iteration": 4.81194878, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 5s", "remaining_time": "10h 38m 20s", "loss_scale": 1.0, "consumed_samples": 1244928, "global_step/max_steps": "4863/12700"}
{"lm loss": 2.10433936, "grad_norm": 0.37304494, "learning_rate": 7.345e-05, "elapsed_time_per_iteration": 4.83326197, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 10s", "remaining_time": "10h 38m 15s", "loss_scale": 1.0, "consumed_samples": 1245184, "global_step/max_steps": "4864/12700"}
{"lm loss": 2.14258313, "grad_norm": 0.39637572, "learning_rate": 7.344e-05, "elapsed_time_per_iteration": 4.90803337, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 15s", "remaining_time": "10h 38m 10s", "loss_scale": 1.0, "consumed_samples": 1245440, "global_step/max_steps": "4865/12700"}
{"lm loss": 2.11609745, "grad_norm": 0.39433411, "learning_rate": 7.343e-05, "elapsed_time_per_iteration": 4.92221856, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 20s", "remaining_time": "10h 38m 5s", "loss_scale": 1.0, "consumed_samples": 1245696, "global_step/max_steps": "4866/12700"}
{"lm loss": 2.14236164, "grad_norm": 0.40011728, "learning_rate": 7.341e-05, "elapsed_time_per_iteration": 4.86424804, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 25s", "remaining_time": "10h 38m 0s", "loss_scale": 1.0, "consumed_samples": 1245952, "global_step/max_steps": "4867/12700"}
{"lm loss": 2.162503, "grad_norm": 0.37018386, "learning_rate": 7.34e-05, "elapsed_time_per_iteration": 4.85219598, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 30s", "remaining_time": "10h 37m 55s", "loss_scale": 1.0, "consumed_samples": 1246208, "global_step/max_steps": "4868/12700"}
{"lm loss": 2.13794112, "grad_norm": 0.35592711, "learning_rate": 7.339e-05, "elapsed_time_per_iteration": 4.85656857, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 35s", "remaining_time": "10h 37m 50s", "loss_scale": 1.0, "consumed_samples": 1246464, "global_step/max_steps": "4869/12700"}
{"lm loss": 2.1178968, "grad_norm": 0.40524256, "learning_rate": 7.338e-05, "elapsed_time_per_iteration": 4.8512404, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 39s", "remaining_time": "10h 37m 45s", "loss_scale": 1.0, "consumed_samples": 1246720, "global_step/max_steps": "4870/12700"}
{"lm loss": 2.16153049, "grad_norm": 0.35953316, "learning_rate": 7.337e-05, "elapsed_time_per_iteration": 4.84622717, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 44s", "remaining_time": "10h 37m 40s", "loss_scale": 1.0, "consumed_samples": 1246976, "global_step/max_steps": "4871/12700"}
{"lm loss": 2.10986114, "grad_norm": 0.37106854, "learning_rate": 7.336e-05, "elapsed_time_per_iteration": 4.87998176, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 49s", "remaining_time": "10h 37m 35s", "loss_scale": 1.0, "consumed_samples": 1247232, "global_step/max_steps": "4872/12700"}
{"lm loss": 2.11773252, "grad_norm": 0.37646133, "learning_rate": 7.335e-05, "elapsed_time_per_iteration": 4.88853383, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 54s", "remaining_time": "10h 37m 30s", "loss_scale": 1.0, "consumed_samples": 1247488, "global_step/max_steps": "4873/12700"}
{"lm loss": 2.11967325, "grad_norm": 0.35141769, "learning_rate": 7.334e-05, "elapsed_time_per_iteration": 4.97240853, "memory(GiB)": 28.98, "elapsed_time": "6h 36m 59s", "remaining_time": "10h 37m 26s", "loss_scale": 1.0, "consumed_samples": 1247744, "global_step/max_steps": "4874/12700"}
{"lm loss": 2.10489798, "grad_norm": 0.37972039, "learning_rate": 7.332e-05, "elapsed_time_per_iteration": 4.83333778, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 4s", "remaining_time": "10h 37m 21s", "loss_scale": 1.0, "consumed_samples": 1248000, "global_step/max_steps": "4875/12700"}
{"lm loss": 2.12039781, "grad_norm": 0.37720421, "learning_rate": 7.331e-05, "elapsed_time_per_iteration": 4.87254524, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 9s", "remaining_time": "10h 37m 16s", "loss_scale": 1.0, "consumed_samples": 1248256, "global_step/max_steps": "4876/12700"}
{"lm loss": 2.10599327, "grad_norm": 0.3873294, "learning_rate": 7.33e-05, "elapsed_time_per_iteration": 4.8559947, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 14s", "remaining_time": "10h 37m 11s", "loss_scale": 1.0, "consumed_samples": 1248512, "global_step/max_steps": "4877/12700"}
{"lm loss": 2.11777115, "grad_norm": 0.36231849, "learning_rate": 7.329e-05, "elapsed_time_per_iteration": 4.93575501, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 19s", "remaining_time": "10h 37m 6s", "loss_scale": 1.0, "consumed_samples": 1248768, "global_step/max_steps": "4878/12700"}
{"lm loss": 2.12999916, "grad_norm": 0.37849486, "learning_rate": 7.328e-05, "elapsed_time_per_iteration": 4.91999483, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 23s", "remaining_time": "10h 37m 1s", "loss_scale": 1.0, "consumed_samples": 1249024, "global_step/max_steps": "4879/12700"}
{"lm loss": 2.14666557, "grad_norm": 0.39015391, "learning_rate": 7.327e-05, "elapsed_time_per_iteration": 4.92768431, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 28s", "remaining_time": "10h 36m 56s", "loss_scale": 1.0, "consumed_samples": 1249280, "global_step/max_steps": "4880/12700"}
{"lm loss": 2.13689184, "grad_norm": 0.35132903, "learning_rate": 7.326e-05, "elapsed_time_per_iteration": 4.83526111, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 33s", "remaining_time": "10h 36m 51s", "loss_scale": 1.0, "consumed_samples": 1249536, "global_step/max_steps": "4881/12700"}
{"lm loss": 2.13170552, "grad_norm": 0.37691408, "learning_rate": 7.325e-05, "elapsed_time_per_iteration": 4.89150214, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 38s", "remaining_time": "10h 36m 46s", "loss_scale": 1.0, "consumed_samples": 1249792, "global_step/max_steps": "4882/12700"}
{"lm loss": 2.10338378, "grad_norm": 0.35419098, "learning_rate": 7.323e-05, "elapsed_time_per_iteration": 4.85726738, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 43s", "remaining_time": "10h 36m 42s", "loss_scale": 1.0, "consumed_samples": 1250048, "global_step/max_steps": "4883/12700"}
{"lm loss": 2.14006805, "grad_norm": 0.37231576, "learning_rate": 7.322e-05, "elapsed_time_per_iteration": 4.91545796, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 48s", "remaining_time": "10h 36m 37s", "loss_scale": 1.0, "consumed_samples": 1250304, "global_step/max_steps": "4884/12700"}
{"lm loss": 2.11426902, "grad_norm": 0.3595573, "learning_rate": 7.321e-05, "elapsed_time_per_iteration": 4.76902008, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 53s", "remaining_time": "10h 36m 32s", "loss_scale": 1.0, "consumed_samples": 1250560, "global_step/max_steps": "4885/12700"}
{"lm loss": 2.12969804, "grad_norm": 0.35362974, "learning_rate": 7.32e-05, "elapsed_time_per_iteration": 4.87066269, "memory(GiB)": 28.98, "elapsed_time": "6h 37m 58s", "remaining_time": "10h 36m 27s", "loss_scale": 1.0, "consumed_samples": 1250816, "global_step/max_steps": "4886/12700"}
{"lm loss": 2.10625744, "grad_norm": 0.3803362, "learning_rate": 7.319e-05, "elapsed_time_per_iteration": 4.83528876, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 2s", "remaining_time": "10h 36m 22s", "loss_scale": 1.0, "consumed_samples": 1251072, "global_step/max_steps": "4887/12700"}
{"lm loss": 2.11285162, "grad_norm": 0.34681025, "learning_rate": 7.318e-05, "elapsed_time_per_iteration": 4.88907504, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 7s", "remaining_time": "10h 36m 17s", "loss_scale": 1.0, "consumed_samples": 1251328, "global_step/max_steps": "4888/12700"}
{"lm loss": 2.10637879, "grad_norm": 0.45661509, "learning_rate": 7.317e-05, "elapsed_time_per_iteration": 4.92911434, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 12s", "remaining_time": "10h 36m 12s", "loss_scale": 1.0, "consumed_samples": 1251584, "global_step/max_steps": "4889/12700"}
{"lm loss": 2.15564775, "grad_norm": 0.36956859, "learning_rate": 7.315e-05, "elapsed_time_per_iteration": 4.86883163, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 17s", "remaining_time": "10h 36m 7s", "loss_scale": 1.0, "consumed_samples": 1251840, "global_step/max_steps": "4890/12700"}
{"lm loss": 2.1072309, "grad_norm": 0.38717681, "learning_rate": 7.314e-05, "elapsed_time_per_iteration": 4.87903881, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 22s", "remaining_time": "10h 36m 2s", "loss_scale": 1.0, "consumed_samples": 1252096, "global_step/max_steps": "4891/12700"}
{"lm loss": 2.15359068, "grad_norm": 0.41634884, "learning_rate": 7.313e-05, "elapsed_time_per_iteration": 4.83094478, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 27s", "remaining_time": "10h 35m 57s", "loss_scale": 1.0, "consumed_samples": 1252352, "global_step/max_steps": "4892/12700"}
{"lm loss": 2.12562966, "grad_norm": 0.3751314, "learning_rate": 7.312e-05, "elapsed_time_per_iteration": 4.84429193, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 32s", "remaining_time": "10h 35m 52s", "loss_scale": 1.0, "consumed_samples": 1252608, "global_step/max_steps": "4893/12700"}
{"lm loss": 2.14865971, "grad_norm": 0.41012907, "learning_rate": 7.311e-05, "elapsed_time_per_iteration": 4.85669208, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 36s", "remaining_time": "10h 35m 47s", "loss_scale": 1.0, "consumed_samples": 1252864, "global_step/max_steps": "4894/12700"}
{"lm loss": 2.12358856, "grad_norm": 0.37074509, "learning_rate": 7.31e-05, "elapsed_time_per_iteration": 4.84023023, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 41s", "remaining_time": "10h 35m 42s", "loss_scale": 1.0, "consumed_samples": 1253120, "global_step/max_steps": "4895/12700"}
{"lm loss": 2.12146068, "grad_norm": 0.39599565, "learning_rate": 7.309e-05, "elapsed_time_per_iteration": 4.92775989, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 46s", "remaining_time": "10h 35m 38s", "loss_scale": 1.0, "consumed_samples": 1253376, "global_step/max_steps": "4896/12700"}
{"lm loss": 2.13772416, "grad_norm": 0.40101889, "learning_rate": 7.308e-05, "elapsed_time_per_iteration": 4.84355354, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 51s", "remaining_time": "10h 35m 33s", "loss_scale": 1.0, "consumed_samples": 1253632, "global_step/max_steps": "4897/12700"}
{"lm loss": 2.12484479, "grad_norm": 0.3720502, "learning_rate": 7.306e-05, "elapsed_time_per_iteration": 4.90712476, "memory(GiB)": 28.98, "elapsed_time": "6h 38m 56s", "remaining_time": "10h 35m 28s", "loss_scale": 1.0, "consumed_samples": 1253888, "global_step/max_steps": "4898/12700"}
{"lm loss": 2.11349034, "grad_norm": 0.42965436, "learning_rate": 7.305e-05, "elapsed_time_per_iteration": 4.85051656, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 1s", "remaining_time": "10h 35m 23s", "loss_scale": 1.0, "consumed_samples": 1254144, "global_step/max_steps": "4899/12700"}
{"lm loss": 2.13274837, "grad_norm": 0.37637684, "learning_rate": 7.304e-05, "elapsed_time_per_iteration": 4.95307732, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 6s", "remaining_time": "10h 35m 18s", "loss_scale": 1.0, "consumed_samples": 1254400, "global_step/max_steps": "4900/12700"}
{"lm loss": 2.12931681, "grad_norm": 0.37052915, "learning_rate": 7.303e-05, "elapsed_time_per_iteration": 4.93090391, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 11s", "remaining_time": "10h 35m 13s", "loss_scale": 1.0, "consumed_samples": 1254656, "global_step/max_steps": "4901/12700"}
{"lm loss": 2.11000395, "grad_norm": 0.40439785, "learning_rate": 7.302e-05, "elapsed_time_per_iteration": 4.81746054, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 16s", "remaining_time": "10h 35m 8s", "loss_scale": 1.0, "consumed_samples": 1254912, "global_step/max_steps": "4902/12700"}
{"lm loss": 2.12137771, "grad_norm": 0.36642396, "learning_rate": 7.301e-05, "elapsed_time_per_iteration": 4.85374808, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 20s", "remaining_time": "10h 35m 3s", "loss_scale": 1.0, "consumed_samples": 1255168, "global_step/max_steps": "4903/12700"}
{"lm loss": 2.13295221, "grad_norm": 0.37480786, "learning_rate": 7.3e-05, "elapsed_time_per_iteration": 4.93608236, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 25s", "remaining_time": "10h 34m 58s", "loss_scale": 1.0, "consumed_samples": 1255424, "global_step/max_steps": "4904/12700"}
{"lm loss": 2.09814262, "grad_norm": 0.37361941, "learning_rate": 7.299e-05, "elapsed_time_per_iteration": 4.93950748, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 30s", "remaining_time": "10h 34m 54s", "loss_scale": 1.0, "consumed_samples": 1255680, "global_step/max_steps": "4905/12700"}
{"lm loss": 2.1081183, "grad_norm": 0.34592968, "learning_rate": 7.297e-05, "elapsed_time_per_iteration": 4.85588503, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 35s", "remaining_time": "10h 34m 49s", "loss_scale": 1.0, "consumed_samples": 1255936, "global_step/max_steps": "4906/12700"}
{"lm loss": 2.09487271, "grad_norm": 0.37210861, "learning_rate": 7.296e-05, "elapsed_time_per_iteration": 4.87343884, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 40s", "remaining_time": "10h 34m 44s", "loss_scale": 1.0, "consumed_samples": 1256192, "global_step/max_steps": "4907/12700"}
{"lm loss": 2.1117363, "grad_norm": 0.35846251, "learning_rate": 7.295e-05, "elapsed_time_per_iteration": 4.85485291, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 45s", "remaining_time": "10h 34m 39s", "loss_scale": 1.0, "consumed_samples": 1256448, "global_step/max_steps": "4908/12700"}
{"lm loss": 2.13913441, "grad_norm": 0.37548998, "learning_rate": 7.294e-05, "elapsed_time_per_iteration": 4.78257608, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 50s", "remaining_time": "10h 34m 34s", "loss_scale": 1.0, "consumed_samples": 1256704, "global_step/max_steps": "4909/12700"}
{"lm loss": 2.13648844, "grad_norm": 0.35561422, "learning_rate": 7.293e-05, "elapsed_time_per_iteration": 4.78778028, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 54s", "remaining_time": "10h 34m 29s", "loss_scale": 1.0, "consumed_samples": 1256960, "global_step/max_steps": "4910/12700"}
{"lm loss": 2.07898593, "grad_norm": 0.36063576, "learning_rate": 7.292e-05, "elapsed_time_per_iteration": 4.87215877, "memory(GiB)": 28.98, "elapsed_time": "6h 39m 59s", "remaining_time": "10h 34m 24s", "loss_scale": 1.0, "consumed_samples": 1257216, "global_step/max_steps": "4911/12700"}
{"lm loss": 2.10138083, "grad_norm": 0.36884323, "learning_rate": 7.291e-05, "elapsed_time_per_iteration": 5.04798198, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 4s", "remaining_time": "10h 34m 19s", "loss_scale": 1.0, "consumed_samples": 1257472, "global_step/max_steps": "4912/12700"}
{"lm loss": 2.09768558, "grad_norm": 0.35814211, "learning_rate": 7.289e-05, "elapsed_time_per_iteration": 4.84193182, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 9s", "remaining_time": "10h 34m 14s", "loss_scale": 1.0, "consumed_samples": 1257728, "global_step/max_steps": "4913/12700"}
{"lm loss": 2.17108607, "grad_norm": 0.40627506, "learning_rate": 7.288e-05, "elapsed_time_per_iteration": 5.01324415, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 14s", "remaining_time": "10h 34m 10s", "loss_scale": 1.0, "consumed_samples": 1257984, "global_step/max_steps": "4914/12700"}
{"lm loss": 2.119802, "grad_norm": 0.36194783, "learning_rate": 7.287e-05, "elapsed_time_per_iteration": 4.90420961, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 19s", "remaining_time": "10h 34m 5s", "loss_scale": 1.0, "consumed_samples": 1258240, "global_step/max_steps": "4915/12700"}
{"lm loss": 2.12799096, "grad_norm": 0.40010691, "learning_rate": 7.286e-05, "elapsed_time_per_iteration": 4.90800118, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 24s", "remaining_time": "10h 34m 0s", "loss_scale": 1.0, "consumed_samples": 1258496, "global_step/max_steps": "4916/12700"}
{"lm loss": 2.08309364, "grad_norm": 0.35508269, "learning_rate": 7.285e-05, "elapsed_time_per_iteration": 4.85006857, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 29s", "remaining_time": "10h 33m 55s", "loss_scale": 1.0, "consumed_samples": 1258752, "global_step/max_steps": "4917/12700"}
{"lm loss": 2.11247778, "grad_norm": 0.41528341, "learning_rate": 7.284e-05, "elapsed_time_per_iteration": 4.86372209, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 34s", "remaining_time": "10h 33m 50s", "loss_scale": 1.0, "consumed_samples": 1259008, "global_step/max_steps": "4918/12700"}
{"lm loss": 2.12139964, "grad_norm": 0.40098217, "learning_rate": 7.283e-05, "elapsed_time_per_iteration": 4.84823632, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 39s", "remaining_time": "10h 33m 45s", "loss_scale": 1.0, "consumed_samples": 1259264, "global_step/max_steps": "4919/12700"}
{"lm loss": 2.0797205, "grad_norm": 0.37643439, "learning_rate": 7.282e-05, "elapsed_time_per_iteration": 4.94304585, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 43s", "remaining_time": "10h 33m 40s", "loss_scale": 1.0, "consumed_samples": 1259520, "global_step/max_steps": "4920/12700"}
{"lm loss": 2.12648797, "grad_norm": 0.37063119, "learning_rate": 7.28e-05, "elapsed_time_per_iteration": 4.77816987, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 48s", "remaining_time": "10h 33m 35s", "loss_scale": 1.0, "consumed_samples": 1259776, "global_step/max_steps": "4921/12700"}
{"lm loss": 2.09761858, "grad_norm": 0.39856282, "learning_rate": 7.279e-05, "elapsed_time_per_iteration": 4.8950274, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 53s", "remaining_time": "10h 33m 30s", "loss_scale": 1.0, "consumed_samples": 1260032, "global_step/max_steps": "4922/12700"}
{"lm loss": 2.11172199, "grad_norm": 0.38760954, "learning_rate": 7.278e-05, "elapsed_time_per_iteration": 4.97461796, "memory(GiB)": 28.98, "elapsed_time": "6h 40m 58s", "remaining_time": "10h 33m 26s", "loss_scale": 1.0, "consumed_samples": 1260288, "global_step/max_steps": "4923/12700"}
{"lm loss": 2.11274338, "grad_norm": 0.41487572, "learning_rate": 7.277e-05, "elapsed_time_per_iteration": 4.84594512, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 3s", "remaining_time": "10h 33m 21s", "loss_scale": 1.0, "consumed_samples": 1260544, "global_step/max_steps": "4924/12700"}
{"lm loss": 2.14453149, "grad_norm": 0.37114605, "learning_rate": 7.276e-05, "elapsed_time_per_iteration": 4.8207674, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 8s", "remaining_time": "10h 33m 16s", "loss_scale": 1.0, "consumed_samples": 1260800, "global_step/max_steps": "4925/12700"}
{"lm loss": 2.14175653, "grad_norm": 0.37964472, "learning_rate": 7.275e-05, "elapsed_time_per_iteration": 4.85524011, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 13s", "remaining_time": "10h 33m 11s", "loss_scale": 1.0, "consumed_samples": 1261056, "global_step/max_steps": "4926/12700"}
{"lm loss": 2.10770726, "grad_norm": 0.38683179, "learning_rate": 7.274e-05, "elapsed_time_per_iteration": 4.90570378, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 18s", "remaining_time": "10h 33m 6s", "loss_scale": 1.0, "consumed_samples": 1261312, "global_step/max_steps": "4927/12700"}
{"lm loss": 2.1063993, "grad_norm": 0.37352213, "learning_rate": 7.272e-05, "elapsed_time_per_iteration": 5.07048941, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 23s", "remaining_time": "10h 33m 1s", "loss_scale": 1.0, "consumed_samples": 1261568, "global_step/max_steps": "4928/12700"}
{"lm loss": 2.08329701, "grad_norm": 0.38707793, "learning_rate": 7.271e-05, "elapsed_time_per_iteration": 4.82569337, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 27s", "remaining_time": "10h 32m 56s", "loss_scale": 1.0, "consumed_samples": 1261824, "global_step/max_steps": "4929/12700"}
{"lm loss": 2.10567546, "grad_norm": 0.36386904, "learning_rate": 7.27e-05, "elapsed_time_per_iteration": 4.84575367, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 32s", "remaining_time": "10h 32m 51s", "loss_scale": 1.0, "consumed_samples": 1262080, "global_step/max_steps": "4930/12700"}
{"lm loss": 2.11047506, "grad_norm": 0.40149125, "learning_rate": 7.269e-05, "elapsed_time_per_iteration": 4.80777788, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 37s", "remaining_time": "10h 32m 46s", "loss_scale": 1.0, "consumed_samples": 1262336, "global_step/max_steps": "4931/12700"}
{"lm loss": 2.1426692, "grad_norm": 0.3606886, "learning_rate": 7.268e-05, "elapsed_time_per_iteration": 4.9685986, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 42s", "remaining_time": "10h 32m 42s", "loss_scale": 1.0, "consumed_samples": 1262592, "global_step/max_steps": "4932/12700"}
{"lm loss": 2.15163422, "grad_norm": 0.38609815, "learning_rate": 7.267e-05, "elapsed_time_per_iteration": 4.90223718, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 47s", "remaining_time": "10h 32m 37s", "loss_scale": 1.0, "consumed_samples": 1262848, "global_step/max_steps": "4933/12700"}
{"lm loss": 2.10869336, "grad_norm": 0.38801044, "learning_rate": 7.266e-05, "elapsed_time_per_iteration": 4.86040235, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 52s", "remaining_time": "10h 32m 32s", "loss_scale": 1.0, "consumed_samples": 1263104, "global_step/max_steps": "4934/12700"}
{"lm loss": 2.07452774, "grad_norm": 0.35700133, "learning_rate": 7.264e-05, "elapsed_time_per_iteration": 4.96501422, "memory(GiB)": 28.98, "elapsed_time": "6h 41m 57s", "remaining_time": "10h 32m 27s", "loss_scale": 1.0, "consumed_samples": 1263360, "global_step/max_steps": "4935/12700"}
{"lm loss": 2.1457324, "grad_norm": 0.39688823, "learning_rate": 7.263e-05, "elapsed_time_per_iteration": 4.87261629, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 2s", "remaining_time": "10h 32m 22s", "loss_scale": 1.0, "consumed_samples": 1263616, "global_step/max_steps": "4936/12700"}
{"lm loss": 2.11648798, "grad_norm": 0.37943491, "learning_rate": 7.262e-05, "elapsed_time_per_iteration": 4.75941634, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 6s", "remaining_time": "10h 32m 17s", "loss_scale": 1.0, "consumed_samples": 1263872, "global_step/max_steps": "4937/12700"}
{"lm loss": 2.11270261, "grad_norm": 0.3726573, "learning_rate": 7.261e-05, "elapsed_time_per_iteration": 4.88590169, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 11s", "remaining_time": "10h 32m 12s", "loss_scale": 1.0, "consumed_samples": 1264128, "global_step/max_steps": "4938/12700"}
{"lm loss": 2.12915277, "grad_norm": 0.36497566, "learning_rate": 7.26e-05, "elapsed_time_per_iteration": 4.84706092, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 16s", "remaining_time": "10h 32m 7s", "loss_scale": 1.0, "consumed_samples": 1264384, "global_step/max_steps": "4939/12700"}
{"lm loss": 2.11458492, "grad_norm": 0.38138556, "learning_rate": 7.259e-05, "elapsed_time_per_iteration": 4.81354403, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 21s", "remaining_time": "10h 32m 2s", "loss_scale": 1.0, "consumed_samples": 1264640, "global_step/max_steps": "4940/12700"}
{"lm loss": 2.12307024, "grad_norm": 0.39883593, "learning_rate": 7.258e-05, "elapsed_time_per_iteration": 4.81451869, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 26s", "remaining_time": "10h 31m 57s", "loss_scale": 1.0, "consumed_samples": 1264896, "global_step/max_steps": "4941/12700"}
{"lm loss": 2.11244655, "grad_norm": 0.37106255, "learning_rate": 7.257e-05, "elapsed_time_per_iteration": 4.84870434, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 31s", "remaining_time": "10h 31m 52s", "loss_scale": 1.0, "consumed_samples": 1265152, "global_step/max_steps": "4942/12700"}
{"lm loss": 2.11304569, "grad_norm": 0.38948795, "learning_rate": 7.255e-05, "elapsed_time_per_iteration": 4.93867373, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 36s", "remaining_time": "10h 31m 47s", "loss_scale": 1.0, "consumed_samples": 1265408, "global_step/max_steps": "4943/12700"}
{"lm loss": 2.10016799, "grad_norm": 0.37600917, "learning_rate": 7.254e-05, "elapsed_time_per_iteration": 4.84073138, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 40s", "remaining_time": "10h 31m 42s", "loss_scale": 1.0, "consumed_samples": 1265664, "global_step/max_steps": "4944/12700"}
{"lm loss": 2.11076808, "grad_norm": 0.39126566, "learning_rate": 7.253e-05, "elapsed_time_per_iteration": 4.81410551, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 45s", "remaining_time": "10h 31m 37s", "loss_scale": 1.0, "consumed_samples": 1265920, "global_step/max_steps": "4945/12700"}
{"lm loss": 2.10692048, "grad_norm": 0.3740178, "learning_rate": 7.252e-05, "elapsed_time_per_iteration": 4.78094029, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 50s", "remaining_time": "10h 31m 32s", "loss_scale": 1.0, "consumed_samples": 1266176, "global_step/max_steps": "4946/12700"}
{"lm loss": 2.13128424, "grad_norm": 0.37474635, "learning_rate": 7.251e-05, "elapsed_time_per_iteration": 4.88663602, "memory(GiB)": 28.98, "elapsed_time": "6h 42m 55s", "remaining_time": "10h 31m 28s", "loss_scale": 1.0, "consumed_samples": 1266432, "global_step/max_steps": "4947/12700"}
{"lm loss": 2.11343932, "grad_norm": 0.37247902, "learning_rate": 7.25e-05, "elapsed_time_per_iteration": 4.83593583, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 0s", "remaining_time": "10h 31m 23s", "loss_scale": 1.0, "consumed_samples": 1266688, "global_step/max_steps": "4948/12700"}
{"lm loss": 2.09290004, "grad_norm": 0.35454917, "learning_rate": 7.249e-05, "elapsed_time_per_iteration": 4.86257935, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 5s", "remaining_time": "10h 31m 18s", "loss_scale": 1.0, "consumed_samples": 1266944, "global_step/max_steps": "4949/12700"}
{"lm loss": 2.14262962, "grad_norm": 0.36019862, "learning_rate": 7.247e-05, "elapsed_time_per_iteration": 4.83516908, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 9s", "remaining_time": "10h 31m 13s", "loss_scale": 1.0, "consumed_samples": 1267200, "global_step/max_steps": "4950/12700"}
{"lm loss": 2.10661983, "grad_norm": 0.35410577, "learning_rate": 7.246e-05, "elapsed_time_per_iteration": 4.90653801, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 14s", "remaining_time": "10h 31m 8s", "loss_scale": 1.0, "consumed_samples": 1267456, "global_step/max_steps": "4951/12700"}
{"lm loss": 2.12902594, "grad_norm": 0.38553268, "learning_rate": 7.245e-05, "elapsed_time_per_iteration": 4.89032578, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 19s", "remaining_time": "10h 31m 3s", "loss_scale": 1.0, "consumed_samples": 1267712, "global_step/max_steps": "4952/12700"}
{"lm loss": 2.08988523, "grad_norm": 0.38569129, "learning_rate": 7.244e-05, "elapsed_time_per_iteration": 4.90030766, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 24s", "remaining_time": "10h 30m 58s", "loss_scale": 1.0, "consumed_samples": 1267968, "global_step/max_steps": "4953/12700"}
{"lm loss": 2.10224557, "grad_norm": 0.36968964, "learning_rate": 7.243e-05, "elapsed_time_per_iteration": 4.73194838, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 29s", "remaining_time": "10h 30m 53s", "loss_scale": 1.0, "consumed_samples": 1268224, "global_step/max_steps": "4954/12700"}
{"lm loss": 2.07801485, "grad_norm": 0.36731333, "learning_rate": 7.242e-05, "elapsed_time_per_iteration": 4.9008038, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 34s", "remaining_time": "10h 30m 48s", "loss_scale": 1.0, "consumed_samples": 1268480, "global_step/max_steps": "4955/12700"}
{"lm loss": 2.10002518, "grad_norm": 0.37765843, "learning_rate": 7.241e-05, "elapsed_time_per_iteration": 4.81736875, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 39s", "remaining_time": "10h 30m 43s", "loss_scale": 1.0, "consumed_samples": 1268736, "global_step/max_steps": "4956/12700"}
{"lm loss": 2.11048174, "grad_norm": 0.42288479, "learning_rate": 7.239e-05, "elapsed_time_per_iteration": 4.89682937, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 43s", "remaining_time": "10h 30m 38s", "loss_scale": 1.0, "consumed_samples": 1268992, "global_step/max_steps": "4957/12700"}
{"lm loss": 2.11444378, "grad_norm": 0.36037359, "learning_rate": 7.238e-05, "elapsed_time_per_iteration": 4.88381767, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 48s", "remaining_time": "10h 30m 33s", "loss_scale": 1.0, "consumed_samples": 1269248, "global_step/max_steps": "4958/12700"}
{"lm loss": 2.15017009, "grad_norm": 0.38813707, "learning_rate": 7.237e-05, "elapsed_time_per_iteration": 4.90439391, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 53s", "remaining_time": "10h 30m 28s", "loss_scale": 1.0, "consumed_samples": 1269504, "global_step/max_steps": "4959/12700"}
{"lm loss": 2.13118839, "grad_norm": 0.38604382, "learning_rate": 7.236e-05, "elapsed_time_per_iteration": 4.89175129, "memory(GiB)": 28.98, "elapsed_time": "6h 43m 58s", "remaining_time": "10h 30m 24s", "loss_scale": 1.0, "consumed_samples": 1269760, "global_step/max_steps": "4960/12700"}
{"lm loss": 2.10964441, "grad_norm": 0.38995138, "learning_rate": 7.235e-05, "elapsed_time_per_iteration": 5.01831388, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 3s", "remaining_time": "10h 30m 19s", "loss_scale": 1.0, "consumed_samples": 1270016, "global_step/max_steps": "4961/12700"}
{"lm loss": 2.11661673, "grad_norm": 0.38476732, "learning_rate": 7.234e-05, "elapsed_time_per_iteration": 4.77016258, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 8s", "remaining_time": "10h 30m 14s", "loss_scale": 1.0, "consumed_samples": 1270272, "global_step/max_steps": "4962/12700"}
{"lm loss": 2.10366797, "grad_norm": 0.34829453, "learning_rate": 7.233e-05, "elapsed_time_per_iteration": 4.83321428, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 13s", "remaining_time": "10h 30m 9s", "loss_scale": 1.0, "consumed_samples": 1270528, "global_step/max_steps": "4963/12700"}
{"lm loss": 2.12040281, "grad_norm": 0.38625515, "learning_rate": 7.231e-05, "elapsed_time_per_iteration": 4.88763118, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 18s", "remaining_time": "10h 30m 4s", "loss_scale": 1.0, "consumed_samples": 1270784, "global_step/max_steps": "4964/12700"}
{"lm loss": 2.0940392, "grad_norm": 0.3472262, "learning_rate": 7.23e-05, "elapsed_time_per_iteration": 4.8212719, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 23s", "remaining_time": "10h 29m 59s", "loss_scale": 1.0, "consumed_samples": 1271040, "global_step/max_steps": "4965/12700"}
{"lm loss": 2.1131525, "grad_norm": 0.37354514, "learning_rate": 7.229e-05, "elapsed_time_per_iteration": 4.87328815, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 27s", "remaining_time": "10h 29m 54s", "loss_scale": 1.0, "consumed_samples": 1271296, "global_step/max_steps": "4966/12700"}
{"lm loss": 2.09406257, "grad_norm": 0.3761214, "learning_rate": 7.228e-05, "elapsed_time_per_iteration": 4.89872313, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 32s", "remaining_time": "10h 29m 49s", "loss_scale": 1.0, "consumed_samples": 1271552, "global_step/max_steps": "4967/12700"}
{"lm loss": 2.12321496, "grad_norm": 0.35636875, "learning_rate": 7.227e-05, "elapsed_time_per_iteration": 4.85721803, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 37s", "remaining_time": "10h 29m 44s", "loss_scale": 1.0, "consumed_samples": 1271808, "global_step/max_steps": "4968/12700"}
{"lm loss": 2.12932301, "grad_norm": 0.41035712, "learning_rate": 7.226e-05, "elapsed_time_per_iteration": 4.81657577, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 42s", "remaining_time": "10h 29m 39s", "loss_scale": 1.0, "consumed_samples": 1272064, "global_step/max_steps": "4969/12700"}
{"lm loss": 2.12124729, "grad_norm": 0.36987448, "learning_rate": 7.225e-05, "elapsed_time_per_iteration": 4.9641633, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 47s", "remaining_time": "10h 29m 34s", "loss_scale": 1.0, "consumed_samples": 1272320, "global_step/max_steps": "4970/12700"}
{"lm loss": 2.1047473, "grad_norm": 0.36770779, "learning_rate": 7.223e-05, "elapsed_time_per_iteration": 4.80632138, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 52s", "remaining_time": "10h 29m 29s", "loss_scale": 1.0, "consumed_samples": 1272576, "global_step/max_steps": "4971/12700"}
{"lm loss": 2.11972976, "grad_norm": 0.37214062, "learning_rate": 7.222e-05, "elapsed_time_per_iteration": 4.79889631, "memory(GiB)": 28.98, "elapsed_time": "6h 44m 57s", "remaining_time": "10h 29m 24s", "loss_scale": 1.0, "consumed_samples": 1272832, "global_step/max_steps": "4972/12700"}
{"lm loss": 2.13741398, "grad_norm": 0.38522279, "learning_rate": 7.221e-05, "elapsed_time_per_iteration": 4.85152435, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 1s", "remaining_time": "10h 29m 20s", "loss_scale": 1.0, "consumed_samples": 1273088, "global_step/max_steps": "4973/12700"}
{"lm loss": 2.13938689, "grad_norm": 0.39898762, "learning_rate": 7.22e-05, "elapsed_time_per_iteration": 4.95430994, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 6s", "remaining_time": "10h 29m 15s", "loss_scale": 1.0, "consumed_samples": 1273344, "global_step/max_steps": "4974/12700"}
{"lm loss": 2.1370101, "grad_norm": 0.40213561, "learning_rate": 7.219e-05, "elapsed_time_per_iteration": 4.91795826, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 11s", "remaining_time": "10h 29m 10s", "loss_scale": 1.0, "consumed_samples": 1273600, "global_step/max_steps": "4975/12700"}
{"lm loss": 2.08945203, "grad_norm": 0.40368143, "learning_rate": 7.218e-05, "elapsed_time_per_iteration": 4.94962502, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 16s", "remaining_time": "10h 29m 5s", "loss_scale": 1.0, "consumed_samples": 1273856, "global_step/max_steps": "4976/12700"}
{"lm loss": 2.11367106, "grad_norm": 0.420266, "learning_rate": 7.217e-05, "elapsed_time_per_iteration": 4.84447312, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 21s", "remaining_time": "10h 29m 0s", "loss_scale": 1.0, "consumed_samples": 1274112, "global_step/max_steps": "4977/12700"}
{"lm loss": 2.14417124, "grad_norm": 0.3609471, "learning_rate": 7.215e-05, "elapsed_time_per_iteration": 4.84306383, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 26s", "remaining_time": "10h 28m 55s", "loss_scale": 1.0, "consumed_samples": 1274368, "global_step/max_steps": "4978/12700"}
{"lm loss": 2.10751486, "grad_norm": 0.39532655, "learning_rate": 7.214e-05, "elapsed_time_per_iteration": 4.92857242, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 31s", "remaining_time": "10h 28m 50s", "loss_scale": 1.0, "consumed_samples": 1274624, "global_step/max_steps": "4979/12700"}
{"lm loss": 2.10175753, "grad_norm": 0.39493608, "learning_rate": 7.213e-05, "elapsed_time_per_iteration": 4.83451486, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 36s", "remaining_time": "10h 28m 45s", "loss_scale": 1.0, "consumed_samples": 1274880, "global_step/max_steps": "4980/12700"}
{"lm loss": 2.1531322, "grad_norm": 0.38719854, "learning_rate": 7.212e-05, "elapsed_time_per_iteration": 4.79157114, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 40s", "remaining_time": "10h 28m 40s", "loss_scale": 1.0, "consumed_samples": 1275136, "global_step/max_steps": "4981/12700"}
{"lm loss": 2.10694242, "grad_norm": 0.43106166, "learning_rate": 7.211e-05, "elapsed_time_per_iteration": 4.8300271, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 45s", "remaining_time": "10h 28m 35s", "loss_scale": 1.0, "consumed_samples": 1275392, "global_step/max_steps": "4982/12700"}
{"lm loss": 2.13118625, "grad_norm": 0.4470295, "learning_rate": 7.21e-05, "elapsed_time_per_iteration": 4.89801979, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 50s", "remaining_time": "10h 28m 31s", "loss_scale": 1.0, "consumed_samples": 1275648, "global_step/max_steps": "4983/12700"}
{"lm loss": 2.08661914, "grad_norm": 0.35934827, "learning_rate": 7.209e-05, "elapsed_time_per_iteration": 4.86712503, "memory(GiB)": 28.98, "elapsed_time": "6h 45m 55s", "remaining_time": "10h 28m 26s", "loss_scale": 1.0, "consumed_samples": 1275904, "global_step/max_steps": "4984/12700"}
{"lm loss": 2.13088083, "grad_norm": 0.41973457, "learning_rate": 7.207e-05, "elapsed_time_per_iteration": 4.83397746, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 0s", "remaining_time": "10h 28m 21s", "loss_scale": 1.0, "consumed_samples": 1276160, "global_step/max_steps": "4985/12700"}
{"lm loss": 2.10889339, "grad_norm": 0.42098406, "learning_rate": 7.206e-05, "elapsed_time_per_iteration": 4.83027482, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 5s", "remaining_time": "10h 28m 16s", "loss_scale": 1.0, "consumed_samples": 1276416, "global_step/max_steps": "4986/12700"}
{"lm loss": 2.09124851, "grad_norm": 0.37467876, "learning_rate": 7.205e-05, "elapsed_time_per_iteration": 4.87147617, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 10s", "remaining_time": "10h 28m 11s", "loss_scale": 1.0, "consumed_samples": 1276672, "global_step/max_steps": "4987/12700"}
{"lm loss": 2.11132526, "grad_norm": 0.36214358, "learning_rate": 7.204e-05, "elapsed_time_per_iteration": 4.80980444, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 14s", "remaining_time": "10h 28m 6s", "loss_scale": 1.0, "consumed_samples": 1276928, "global_step/max_steps": "4988/12700"}
{"lm loss": 2.09601045, "grad_norm": 0.40559313, "learning_rate": 7.203e-05, "elapsed_time_per_iteration": 4.88668537, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 19s", "remaining_time": "10h 28m 1s", "loss_scale": 1.0, "consumed_samples": 1277184, "global_step/max_steps": "4989/12700"}
{"lm loss": 2.12925434, "grad_norm": 0.40813071, "learning_rate": 7.202e-05, "elapsed_time_per_iteration": 4.90991998, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 24s", "remaining_time": "10h 27m 56s", "loss_scale": 1.0, "consumed_samples": 1277440, "global_step/max_steps": "4990/12700"}
{"lm loss": 2.1120472, "grad_norm": 0.35635221, "learning_rate": 7.201e-05, "elapsed_time_per_iteration": 4.80026507, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 29s", "remaining_time": "10h 27m 51s", "loss_scale": 1.0, "consumed_samples": 1277696, "global_step/max_steps": "4991/12700"}
{"lm loss": 2.11129141, "grad_norm": 0.37842286, "learning_rate": 7.199e-05, "elapsed_time_per_iteration": 4.87521553, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 34s", "remaining_time": "10h 27m 46s", "loss_scale": 1.0, "consumed_samples": 1277952, "global_step/max_steps": "4992/12700"}
{"lm loss": 2.10668445, "grad_norm": 0.36767909, "learning_rate": 7.198e-05, "elapsed_time_per_iteration": 4.90098047, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 39s", "remaining_time": "10h 27m 41s", "loss_scale": 1.0, "consumed_samples": 1278208, "global_step/max_steps": "4993/12700"}
{"lm loss": 2.12273955, "grad_norm": 0.36040723, "learning_rate": 7.197e-05, "elapsed_time_per_iteration": 4.85262179, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 44s", "remaining_time": "10h 27m 36s", "loss_scale": 1.0, "consumed_samples": 1278464, "global_step/max_steps": "4994/12700"}
{"lm loss": 2.14624214, "grad_norm": 0.37670133, "learning_rate": 7.196e-05, "elapsed_time_per_iteration": 4.92259049, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 49s", "remaining_time": "10h 27m 31s", "loss_scale": 1.0, "consumed_samples": 1278720, "global_step/max_steps": "4995/12700"}
{"lm loss": 2.12034965, "grad_norm": 0.41804236, "learning_rate": 7.195e-05, "elapsed_time_per_iteration": 4.88421845, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 53s", "remaining_time": "10h 27m 27s", "loss_scale": 1.0, "consumed_samples": 1278976, "global_step/max_steps": "4996/12700"}
{"lm loss": 2.11942339, "grad_norm": 0.35794151, "learning_rate": 7.194e-05, "elapsed_time_per_iteration": 4.8279984, "memory(GiB)": 28.98, "elapsed_time": "6h 46m 58s", "remaining_time": "10h 27m 22s", "loss_scale": 1.0, "consumed_samples": 1279232, "global_step/max_steps": "4997/12700"}
{"lm loss": 2.12328076, "grad_norm": 0.38127878, "learning_rate": 7.193e-05, "elapsed_time_per_iteration": 4.88089299, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 3s", "remaining_time": "10h 27m 17s", "loss_scale": 1.0, "consumed_samples": 1279488, "global_step/max_steps": "4998/12700"}
{"lm loss": 2.10721588, "grad_norm": 0.36135304, "learning_rate": 7.191e-05, "elapsed_time_per_iteration": 4.80147052, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 8s", "remaining_time": "10h 27m 12s", "loss_scale": 1.0, "consumed_samples": 1279744, "global_step/max_steps": "4999/12700"}
{"lm loss": 2.10892606, "grad_norm": 0.39097157, "learning_rate": 7.19e-05, "elapsed_time_per_iteration": 4.82483482, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 13s", "remaining_time": "10h 27m 7s", "loss_scale": 1.0, "consumed_samples": 1280000, "global_step/max_steps": "5000/12700"}
{"lm loss": 2.10930657, "grad_norm": 0.36378357, "learning_rate": 7.189e-05, "elapsed_time_per_iteration": 4.89010286, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 18s", "remaining_time": "10h 27m 2s", "loss_scale": 1.0, "consumed_samples": 1280256, "global_step/max_steps": "5001/12700"}
{"lm loss": 2.11120105, "grad_norm": 0.35043213, "learning_rate": 7.188e-05, "elapsed_time_per_iteration": 4.81607127, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 22s", "remaining_time": "10h 26m 57s", "loss_scale": 1.0, "consumed_samples": 1280512, "global_step/max_steps": "5002/12700"}
{"lm loss": 2.10140967, "grad_norm": 0.36506468, "learning_rate": 7.187e-05, "elapsed_time_per_iteration": 4.87660861, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 27s", "remaining_time": "10h 26m 52s", "loss_scale": 1.0, "consumed_samples": 1280768, "global_step/max_steps": "5003/12700"}
{"lm loss": 2.1436348, "grad_norm": 0.36982381, "learning_rate": 7.186e-05, "elapsed_time_per_iteration": 4.98734403, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 32s", "remaining_time": "10h 26m 47s", "loss_scale": 1.0, "consumed_samples": 1281024, "global_step/max_steps": "5004/12700"}
{"lm loss": 2.13285899, "grad_norm": 0.38148215, "learning_rate": 7.185e-05, "elapsed_time_per_iteration": 4.80930138, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 37s", "remaining_time": "10h 26m 42s", "loss_scale": 1.0, "consumed_samples": 1281280, "global_step/max_steps": "5005/12700"}
{"lm loss": 2.0821135, "grad_norm": 0.37135038, "learning_rate": 7.183e-05, "elapsed_time_per_iteration": 4.81452751, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 42s", "remaining_time": "10h 26m 37s", "loss_scale": 1.0, "consumed_samples": 1281536, "global_step/max_steps": "5006/12700"}
{"lm loss": 2.11979651, "grad_norm": 0.35982537, "learning_rate": 7.182e-05, "elapsed_time_per_iteration": 4.91344047, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 47s", "remaining_time": "10h 26m 32s", "loss_scale": 1.0, "consumed_samples": 1281792, "global_step/max_steps": "5007/12700"}
{"lm loss": 2.08890891, "grad_norm": 0.39551178, "learning_rate": 7.181e-05, "elapsed_time_per_iteration": 4.95385385, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 52s", "remaining_time": "10h 26m 28s", "loss_scale": 1.0, "consumed_samples": 1282048, "global_step/max_steps": "5008/12700"}
{"lm loss": 2.11237192, "grad_norm": 0.38646388, "learning_rate": 7.18e-05, "elapsed_time_per_iteration": 4.81326461, "memory(GiB)": 28.98, "elapsed_time": "6h 47m 57s", "remaining_time": "10h 26m 23s", "loss_scale": 1.0, "consumed_samples": 1282304, "global_step/max_steps": "5009/12700"}
{"lm loss": 2.12253761, "grad_norm": 0.35137016, "learning_rate": 7.179e-05, "elapsed_time_per_iteration": 4.88739252, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 2s", "remaining_time": "10h 26m 18s", "loss_scale": 1.0, "consumed_samples": 1282560, "global_step/max_steps": "5010/12700"}
{"lm loss": 2.11885047, "grad_norm": 0.39270025, "learning_rate": 7.178e-05, "elapsed_time_per_iteration": 4.76747561, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 6s", "remaining_time": "10h 26m 13s", "loss_scale": 1.0, "consumed_samples": 1282816, "global_step/max_steps": "5011/12700"}
{"lm loss": 2.11592102, "grad_norm": 0.37745762, "learning_rate": 7.177e-05, "elapsed_time_per_iteration": 4.96235752, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 11s", "remaining_time": "10h 26m 8s", "loss_scale": 1.0, "consumed_samples": 1283072, "global_step/max_steps": "5012/12700"}
{"lm loss": 2.10680056, "grad_norm": 0.36681247, "learning_rate": 7.175e-05, "elapsed_time_per_iteration": 4.80018401, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 16s", "remaining_time": "10h 26m 3s", "loss_scale": 1.0, "consumed_samples": 1283328, "global_step/max_steps": "5013/12700"}
{"lm loss": 2.08161139, "grad_norm": 0.38563293, "learning_rate": 7.174e-05, "elapsed_time_per_iteration": 4.93209887, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 21s", "remaining_time": "10h 25m 58s", "loss_scale": 1.0, "consumed_samples": 1283584, "global_step/max_steps": "5014/12700"}
{"lm loss": 2.11650968, "grad_norm": 0.37340161, "learning_rate": 7.173e-05, "elapsed_time_per_iteration": 4.88434839, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 26s", "remaining_time": "10h 25m 53s", "loss_scale": 1.0, "consumed_samples": 1283840, "global_step/max_steps": "5015/12700"}
{"lm loss": 2.12648058, "grad_norm": 0.37422201, "learning_rate": 7.172e-05, "elapsed_time_per_iteration": 4.867342, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 31s", "remaining_time": "10h 25m 48s", "loss_scale": 1.0, "consumed_samples": 1284096, "global_step/max_steps": "5016/12700"}
{"lm loss": 2.13310313, "grad_norm": 0.40728259, "learning_rate": 7.171e-05, "elapsed_time_per_iteration": 4.88788652, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 36s", "remaining_time": "10h 25m 43s", "loss_scale": 1.0, "consumed_samples": 1284352, "global_step/max_steps": "5017/12700"}
{"lm loss": 2.09457779, "grad_norm": 0.41465956, "learning_rate": 7.17e-05, "elapsed_time_per_iteration": 4.86455536, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 40s", "remaining_time": "10h 25m 38s", "loss_scale": 1.0, "consumed_samples": 1284608, "global_step/max_steps": "5018/12700"}
{"lm loss": 2.10212421, "grad_norm": 0.39585584, "learning_rate": 7.169e-05, "elapsed_time_per_iteration": 4.82676911, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 45s", "remaining_time": "10h 25m 33s", "loss_scale": 1.0, "consumed_samples": 1284864, "global_step/max_steps": "5019/12700"}
{"lm loss": 2.11282659, "grad_norm": 0.44564378, "learning_rate": 7.167e-05, "elapsed_time_per_iteration": 4.88421273, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 50s", "remaining_time": "10h 25m 29s", "loss_scale": 1.0, "consumed_samples": 1285120, "global_step/max_steps": "5020/12700"}
{"lm loss": 2.16930151, "grad_norm": 0.3774665, "learning_rate": 7.166e-05, "elapsed_time_per_iteration": 4.83928585, "memory(GiB)": 28.98, "elapsed_time": "6h 48m 55s", "remaining_time": "10h 25m 24s", "loss_scale": 1.0, "consumed_samples": 1285376, "global_step/max_steps": "5021/12700"}
{"lm loss": 2.13513303, "grad_norm": 0.38434568, "learning_rate": 7.165e-05, "elapsed_time_per_iteration": 4.83206439, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 0s", "remaining_time": "10h 25m 19s", "loss_scale": 1.0, "consumed_samples": 1285632, "global_step/max_steps": "5022/12700"}
{"lm loss": 2.07731128, "grad_norm": 0.40700221, "learning_rate": 7.164e-05, "elapsed_time_per_iteration": 4.87914348, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 5s", "remaining_time": "10h 25m 14s", "loss_scale": 1.0, "consumed_samples": 1285888, "global_step/max_steps": "5023/12700"}
{"lm loss": 2.11669874, "grad_norm": 0.34736556, "learning_rate": 7.163e-05, "elapsed_time_per_iteration": 4.84264207, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 10s", "remaining_time": "10h 25m 9s", "loss_scale": 1.0, "consumed_samples": 1286144, "global_step/max_steps": "5024/12700"}
{"lm loss": 2.10543132, "grad_norm": 0.37957895, "learning_rate": 7.162e-05, "elapsed_time_per_iteration": 4.84494424, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 14s", "remaining_time": "10h 25m 4s", "loss_scale": 1.0, "consumed_samples": 1286400, "global_step/max_steps": "5025/12700"}
{"lm loss": 2.09701633, "grad_norm": 0.41508397, "learning_rate": 7.16e-05, "elapsed_time_per_iteration": 4.84097314, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 19s", "remaining_time": "10h 24m 59s", "loss_scale": 1.0, "consumed_samples": 1286656, "global_step/max_steps": "5026/12700"}
{"lm loss": 2.10065675, "grad_norm": 0.39860833, "learning_rate": 7.159e-05, "elapsed_time_per_iteration": 4.93891644, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 24s", "remaining_time": "10h 24m 54s", "loss_scale": 1.0, "consumed_samples": 1286912, "global_step/max_steps": "5027/12700"}
{"lm loss": 2.08569932, "grad_norm": 0.39319769, "learning_rate": 7.158e-05, "elapsed_time_per_iteration": 4.89262319, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 29s", "remaining_time": "10h 24m 49s", "loss_scale": 1.0, "consumed_samples": 1287168, "global_step/max_steps": "5028/12700"}
{"lm loss": 2.13024807, "grad_norm": 0.38082832, "learning_rate": 7.157e-05, "elapsed_time_per_iteration": 4.85033083, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 34s", "remaining_time": "10h 24m 44s", "loss_scale": 1.0, "consumed_samples": 1287424, "global_step/max_steps": "5029/12700"}
{"lm loss": 2.12311077, "grad_norm": 0.36848629, "learning_rate": 7.156e-05, "elapsed_time_per_iteration": 4.81096053, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 39s", "remaining_time": "10h 24m 39s", "loss_scale": 1.0, "consumed_samples": 1287680, "global_step/max_steps": "5030/12700"}
{"lm loss": 2.11373711, "grad_norm": 0.35896355, "learning_rate": 7.155e-05, "elapsed_time_per_iteration": 5.07905817, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 44s", "remaining_time": "10h 24m 35s", "loss_scale": 1.0, "consumed_samples": 1287936, "global_step/max_steps": "5031/12700"}
{"lm loss": 2.11854601, "grad_norm": 0.3930226, "learning_rate": 7.154e-05, "elapsed_time_per_iteration": 4.87486672, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 49s", "remaining_time": "10h 24m 30s", "loss_scale": 1.0, "consumed_samples": 1288192, "global_step/max_steps": "5032/12700"}
{"lm loss": 2.13943672, "grad_norm": 0.36322254, "learning_rate": 7.152e-05, "elapsed_time_per_iteration": 4.9981482, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 54s", "remaining_time": "10h 24m 25s", "loss_scale": 1.0, "consumed_samples": 1288448, "global_step/max_steps": "5033/12700"}
{"lm loss": 2.11017203, "grad_norm": 0.37472722, "learning_rate": 7.151e-05, "elapsed_time_per_iteration": 4.89538217, "memory(GiB)": 28.98, "elapsed_time": "6h 49m 59s", "remaining_time": "10h 24m 20s", "loss_scale": 1.0, "consumed_samples": 1288704, "global_step/max_steps": "5034/12700"}
{"lm loss": 2.08450031, "grad_norm": 0.36440942, "learning_rate": 7.15e-05, "elapsed_time_per_iteration": 4.98266864, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 4s", "remaining_time": "10h 24m 15s", "loss_scale": 1.0, "consumed_samples": 1288960, "global_step/max_steps": "5035/12700"}
{"lm loss": 2.10245156, "grad_norm": 0.3929455, "learning_rate": 7.149e-05, "elapsed_time_per_iteration": 4.8388505, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 8s", "remaining_time": "10h 24m 10s", "loss_scale": 1.0, "consumed_samples": 1289216, "global_step/max_steps": "5036/12700"}
{"lm loss": 2.1071043, "grad_norm": 0.38450432, "learning_rate": 7.148e-05, "elapsed_time_per_iteration": 4.81024194, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 13s", "remaining_time": "10h 24m 5s", "loss_scale": 1.0, "consumed_samples": 1289472, "global_step/max_steps": "5037/12700"}
{"lm loss": 2.11218739, "grad_norm": 0.37869763, "learning_rate": 7.147e-05, "elapsed_time_per_iteration": 4.9239099, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 18s", "remaining_time": "10h 24m 1s", "loss_scale": 1.0, "consumed_samples": 1289728, "global_step/max_steps": "5038/12700"}
{"lm loss": 2.10589743, "grad_norm": 0.3865408, "learning_rate": 7.146e-05, "elapsed_time_per_iteration": 4.89285851, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 23s", "remaining_time": "10h 23m 56s", "loss_scale": 1.0, "consumed_samples": 1289984, "global_step/max_steps": "5039/12700"}
{"lm loss": 2.14356756, "grad_norm": 0.38288119, "learning_rate": 7.144e-05, "elapsed_time_per_iteration": 4.93257761, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 28s", "remaining_time": "10h 23m 51s", "loss_scale": 1.0, "consumed_samples": 1290240, "global_step/max_steps": "5040/12700"}
{"lm loss": 2.13203073, "grad_norm": 0.37807029, "learning_rate": 7.143e-05, "elapsed_time_per_iteration": 4.92766285, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 33s", "remaining_time": "10h 23m 46s", "loss_scale": 1.0, "consumed_samples": 1290496, "global_step/max_steps": "5041/12700"}
{"lm loss": 2.10648155, "grad_norm": 0.39740193, "learning_rate": 7.142e-05, "elapsed_time_per_iteration": 4.81925035, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 38s", "remaining_time": "10h 23m 41s", "loss_scale": 1.0, "consumed_samples": 1290752, "global_step/max_steps": "5042/12700"}
{"lm loss": 2.11730218, "grad_norm": 0.40360084, "learning_rate": 7.141e-05, "elapsed_time_per_iteration": 4.88739419, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 43s", "remaining_time": "10h 23m 36s", "loss_scale": 1.0, "consumed_samples": 1291008, "global_step/max_steps": "5043/12700"}
{"lm loss": 2.09770608, "grad_norm": 0.39027792, "learning_rate": 7.14e-05, "elapsed_time_per_iteration": 4.87496448, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 47s", "remaining_time": "10h 23m 31s", "loss_scale": 1.0, "consumed_samples": 1291264, "global_step/max_steps": "5044/12700"}
{"lm loss": 2.10626674, "grad_norm": 0.41104487, "learning_rate": 7.139e-05, "elapsed_time_per_iteration": 4.95180249, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 52s", "remaining_time": "10h 23m 27s", "loss_scale": 1.0, "consumed_samples": 1291520, "global_step/max_steps": "5045/12700"}
{"lm loss": 2.13289857, "grad_norm": 0.40350398, "learning_rate": 7.137e-05, "elapsed_time_per_iteration": 4.87205625, "memory(GiB)": 28.98, "elapsed_time": "6h 50m 57s", "remaining_time": "10h 23m 22s", "loss_scale": 1.0, "consumed_samples": 1291776, "global_step/max_steps": "5046/12700"}
{"lm loss": 2.09592342, "grad_norm": 0.3931832, "learning_rate": 7.136e-05, "elapsed_time_per_iteration": 4.93832779, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 2s", "remaining_time": "10h 23m 17s", "loss_scale": 1.0, "consumed_samples": 1292032, "global_step/max_steps": "5047/12700"}
{"lm loss": 2.10194707, "grad_norm": 0.40254825, "learning_rate": 7.135e-05, "elapsed_time_per_iteration": 4.83089066, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 7s", "remaining_time": "10h 23m 12s", "loss_scale": 1.0, "consumed_samples": 1292288, "global_step/max_steps": "5048/12700"}
{"lm loss": 2.11598468, "grad_norm": 0.38210288, "learning_rate": 7.134e-05, "elapsed_time_per_iteration": 4.86598754, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 12s", "remaining_time": "10h 23m 7s", "loss_scale": 1.0, "consumed_samples": 1292544, "global_step/max_steps": "5049/12700"}
{"lm loss": 2.08429527, "grad_norm": 0.39443228, "learning_rate": 7.133e-05, "elapsed_time_per_iteration": 4.93348265, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 17s", "remaining_time": "10h 23m 2s", "loss_scale": 1.0, "consumed_samples": 1292800, "global_step/max_steps": "5050/12700"}
{"lm loss": 2.12846279, "grad_norm": 0.37065595, "learning_rate": 7.132e-05, "elapsed_time_per_iteration": 4.84577155, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 22s", "remaining_time": "10h 22m 57s", "loss_scale": 1.0, "consumed_samples": 1293056, "global_step/max_steps": "5051/12700"}
{"lm loss": 2.15139055, "grad_norm": 0.40232411, "learning_rate": 7.131e-05, "elapsed_time_per_iteration": 4.83571386, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 27s", "remaining_time": "10h 22m 52s", "loss_scale": 1.0, "consumed_samples": 1293312, "global_step/max_steps": "5052/12700"}
{"lm loss": 2.14615655, "grad_norm": 0.40173692, "learning_rate": 7.129e-05, "elapsed_time_per_iteration": 4.91114736, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 31s", "remaining_time": "10h 22m 47s", "loss_scale": 1.0, "consumed_samples": 1293568, "global_step/max_steps": "5053/12700"}
{"lm loss": 2.1066041, "grad_norm": 0.38608888, "learning_rate": 7.128e-05, "elapsed_time_per_iteration": 4.91490483, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 36s", "remaining_time": "10h 22m 42s", "loss_scale": 1.0, "consumed_samples": 1293824, "global_step/max_steps": "5054/12700"}
{"lm loss": 2.07580805, "grad_norm": 0.42025748, "learning_rate": 7.127e-05, "elapsed_time_per_iteration": 4.93759394, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 41s", "remaining_time": "10h 22m 38s", "loss_scale": 1.0, "consumed_samples": 1294080, "global_step/max_steps": "5055/12700"}
{"lm loss": 2.12081599, "grad_norm": 0.36890954, "learning_rate": 7.126e-05, "elapsed_time_per_iteration": 4.8447392, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 46s", "remaining_time": "10h 22m 33s", "loss_scale": 1.0, "consumed_samples": 1294336, "global_step/max_steps": "5056/12700"}
{"lm loss": 2.10454035, "grad_norm": 0.39040753, "learning_rate": 7.125e-05, "elapsed_time_per_iteration": 4.98288941, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 51s", "remaining_time": "10h 22m 28s", "loss_scale": 1.0, "consumed_samples": 1294592, "global_step/max_steps": "5057/12700"}
{"lm loss": 2.08653903, "grad_norm": 0.39933524, "learning_rate": 7.124e-05, "elapsed_time_per_iteration": 4.86002803, "memory(GiB)": 28.98, "elapsed_time": "6h 51m 56s", "remaining_time": "10h 22m 23s", "loss_scale": 1.0, "consumed_samples": 1294848, "global_step/max_steps": "5058/12700"}
{"lm loss": 2.12542868, "grad_norm": 0.39139158, "learning_rate": 7.122e-05, "elapsed_time_per_iteration": 4.91382861, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 1s", "remaining_time": "10h 22m 18s", "loss_scale": 1.0, "consumed_samples": 1295104, "global_step/max_steps": "5059/12700"}
{"lm loss": 2.1027503, "grad_norm": 0.36173728, "learning_rate": 7.121e-05, "elapsed_time_per_iteration": 4.97083902, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 6s", "remaining_time": "10h 22m 13s", "loss_scale": 1.0, "consumed_samples": 1295360, "global_step/max_steps": "5060/12700"}
{"lm loss": 2.1010251, "grad_norm": 0.40935028, "learning_rate": 7.12e-05, "elapsed_time_per_iteration": 4.82776237, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 11s", "remaining_time": "10h 22m 8s", "loss_scale": 1.0, "consumed_samples": 1295616, "global_step/max_steps": "5061/12700"}
{"lm loss": 2.10175085, "grad_norm": 0.37303272, "learning_rate": 7.119e-05, "elapsed_time_per_iteration": 4.96092796, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 16s", "remaining_time": "10h 22m 4s", "loss_scale": 1.0, "consumed_samples": 1295872, "global_step/max_steps": "5062/12700"}
{"lm loss": 2.11062622, "grad_norm": 0.40320748, "learning_rate": 7.118e-05, "elapsed_time_per_iteration": 4.79005551, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 20s", "remaining_time": "10h 21m 59s", "loss_scale": 1.0, "consumed_samples": 1296128, "global_step/max_steps": "5063/12700"}
{"lm loss": 2.11244154, "grad_norm": 0.35973623, "learning_rate": 7.117e-05, "elapsed_time_per_iteration": 4.9179225, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 25s", "remaining_time": "10h 21m 54s", "loss_scale": 1.0, "consumed_samples": 1296384, "global_step/max_steps": "5064/12700"}
{"lm loss": 2.14242506, "grad_norm": 0.42449287, "learning_rate": 7.116e-05, "elapsed_time_per_iteration": 4.85510159, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 30s", "remaining_time": "10h 21m 49s", "loss_scale": 1.0, "consumed_samples": 1296640, "global_step/max_steps": "5065/12700"}
{"lm loss": 2.10135221, "grad_norm": 0.35606334, "learning_rate": 7.114e-05, "elapsed_time_per_iteration": 4.85274363, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 35s", "remaining_time": "10h 21m 44s", "loss_scale": 1.0, "consumed_samples": 1296896, "global_step/max_steps": "5066/12700"}
{"lm loss": 2.07396817, "grad_norm": 0.36958274, "learning_rate": 7.113e-05, "elapsed_time_per_iteration": 4.76929688, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 40s", "remaining_time": "10h 21m 39s", "loss_scale": 1.0, "consumed_samples": 1297152, "global_step/max_steps": "5067/12700"}
{"lm loss": 2.12097597, "grad_norm": 0.3891924, "learning_rate": 7.112e-05, "elapsed_time_per_iteration": 4.91611195, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 45s", "remaining_time": "10h 21m 34s", "loss_scale": 1.0, "consumed_samples": 1297408, "global_step/max_steps": "5068/12700"}
{"lm loss": 2.12213039, "grad_norm": 0.36554518, "learning_rate": 7.111e-05, "elapsed_time_per_iteration": 4.95927143, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 50s", "remaining_time": "10h 21m 29s", "loss_scale": 1.0, "consumed_samples": 1297664, "global_step/max_steps": "5069/12700"}
{"lm loss": 2.09293175, "grad_norm": 0.41590285, "learning_rate": 7.11e-05, "elapsed_time_per_iteration": 4.90145159, "memory(GiB)": 28.98, "elapsed_time": "6h 52m 55s", "remaining_time": "10h 21m 24s", "loss_scale": 1.0, "consumed_samples": 1297920, "global_step/max_steps": "5070/12700"}
{"lm loss": 2.13436818, "grad_norm": 0.41925856, "learning_rate": 7.109e-05, "elapsed_time_per_iteration": 4.89321733, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 0s", "remaining_time": "10h 21m 20s", "loss_scale": 1.0, "consumed_samples": 1298176, "global_step/max_steps": "5071/12700"}
{"lm loss": 2.14961243, "grad_norm": 0.38620612, "learning_rate": 7.107e-05, "elapsed_time_per_iteration": 4.84801364, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 4s", "remaining_time": "10h 21m 15s", "loss_scale": 1.0, "consumed_samples": 1298432, "global_step/max_steps": "5072/12700"}
{"lm loss": 2.12840199, "grad_norm": 0.40967286, "learning_rate": 7.106e-05, "elapsed_time_per_iteration": 4.86369395, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 9s", "remaining_time": "10h 21m 10s", "loss_scale": 1.0, "consumed_samples": 1298688, "global_step/max_steps": "5073/12700"}
{"lm loss": 2.13229489, "grad_norm": 0.36794156, "learning_rate": 7.105e-05, "elapsed_time_per_iteration": 4.95857906, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 14s", "remaining_time": "10h 21m 5s", "loss_scale": 1.0, "consumed_samples": 1298944, "global_step/max_steps": "5074/12700"}
{"lm loss": 2.11652827, "grad_norm": 0.37293932, "learning_rate": 7.104e-05, "elapsed_time_per_iteration": 4.82077169, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 19s", "remaining_time": "10h 21m 0s", "loss_scale": 1.0, "consumed_samples": 1299200, "global_step/max_steps": "5075/12700"}
{"lm loss": 2.1226263, "grad_norm": 0.3980571, "learning_rate": 7.103e-05, "elapsed_time_per_iteration": 4.92264175, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 24s", "remaining_time": "10h 20m 55s", "loss_scale": 1.0, "consumed_samples": 1299456, "global_step/max_steps": "5076/12700"}
{"lm loss": 2.11904049, "grad_norm": 0.40730041, "learning_rate": 7.102e-05, "elapsed_time_per_iteration": 4.90691924, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 29s", "remaining_time": "10h 20m 50s", "loss_scale": 1.0, "consumed_samples": 1299712, "global_step/max_steps": "5077/12700"}
{"lm loss": 2.12294579, "grad_norm": 0.39504042, "learning_rate": 7.101e-05, "elapsed_time_per_iteration": 4.76134324, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 34s", "remaining_time": "10h 20m 45s", "loss_scale": 1.0, "consumed_samples": 1299968, "global_step/max_steps": "5078/12700"}
{"lm loss": 2.09173322, "grad_norm": 0.40822387, "learning_rate": 7.099e-05, "elapsed_time_per_iteration": 4.85175514, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 38s", "remaining_time": "10h 20m 40s", "loss_scale": 1.0, "consumed_samples": 1300224, "global_step/max_steps": "5079/12700"}
{"lm loss": 2.13579345, "grad_norm": 0.38341135, "learning_rate": 7.098e-05, "elapsed_time_per_iteration": 4.84914899, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 43s", "remaining_time": "10h 20m 35s", "loss_scale": 1.0, "consumed_samples": 1300480, "global_step/max_steps": "5080/12700"}
{"lm loss": 2.10498691, "grad_norm": 0.38988534, "learning_rate": 7.097e-05, "elapsed_time_per_iteration": 4.91226101, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 48s", "remaining_time": "10h 20m 30s", "loss_scale": 1.0, "consumed_samples": 1300736, "global_step/max_steps": "5081/12700"}
{"lm loss": 2.07011795, "grad_norm": 0.40572122, "learning_rate": 7.096e-05, "elapsed_time_per_iteration": 4.83710003, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 53s", "remaining_time": "10h 20m 25s", "loss_scale": 1.0, "consumed_samples": 1300992, "global_step/max_steps": "5082/12700"}
{"lm loss": 2.10914922, "grad_norm": 0.34917051, "learning_rate": 7.095e-05, "elapsed_time_per_iteration": 4.97407651, "memory(GiB)": 28.98, "elapsed_time": "6h 53m 58s", "remaining_time": "10h 20m 21s", "loss_scale": 1.0, "consumed_samples": 1301248, "global_step/max_steps": "5083/12700"}
{"lm loss": 2.11638618, "grad_norm": 0.40083322, "learning_rate": 7.094e-05, "elapsed_time_per_iteration": 4.8661561, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 3s", "remaining_time": "10h 20m 16s", "loss_scale": 1.0, "consumed_samples": 1301504, "global_step/max_steps": "5084/12700"}
{"lm loss": 2.11487556, "grad_norm": 0.36489511, "learning_rate": 7.092e-05, "elapsed_time_per_iteration": 4.7935853, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 8s", "remaining_time": "10h 20m 11s", "loss_scale": 1.0, "consumed_samples": 1301760, "global_step/max_steps": "5085/12700"}
{"lm loss": 2.11876225, "grad_norm": 0.37311411, "learning_rate": 7.091e-05, "elapsed_time_per_iteration": 4.94816637, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 13s", "remaining_time": "10h 20m 6s", "loss_scale": 1.0, "consumed_samples": 1302016, "global_step/max_steps": "5086/12700"}
{"lm loss": 2.11737299, "grad_norm": 0.38083136, "learning_rate": 7.09e-05, "elapsed_time_per_iteration": 4.8884275, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 18s", "remaining_time": "10h 20m 1s", "loss_scale": 1.0, "consumed_samples": 1302272, "global_step/max_steps": "5087/12700"}
{"lm loss": 2.13650584, "grad_norm": 0.36599976, "learning_rate": 7.089e-05, "elapsed_time_per_iteration": 4.90316534, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 22s", "remaining_time": "10h 19m 56s", "loss_scale": 1.0, "consumed_samples": 1302528, "global_step/max_steps": "5088/12700"}
{"lm loss": 2.10156775, "grad_norm": 0.37455156, "learning_rate": 7.088e-05, "elapsed_time_per_iteration": 4.84303284, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 27s", "remaining_time": "10h 19m 51s", "loss_scale": 1.0, "consumed_samples": 1302784, "global_step/max_steps": "5089/12700"}
{"lm loss": 2.12308621, "grad_norm": 0.35953641, "learning_rate": 7.087e-05, "elapsed_time_per_iteration": 4.94504166, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 32s", "remaining_time": "10h 19m 46s", "loss_scale": 1.0, "consumed_samples": 1303040, "global_step/max_steps": "5090/12700"}
{"lm loss": 2.1110177, "grad_norm": 0.37283063, "learning_rate": 7.085e-05, "elapsed_time_per_iteration": 4.81764317, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 37s", "remaining_time": "10h 19m 41s", "loss_scale": 1.0, "consumed_samples": 1303296, "global_step/max_steps": "5091/12700"}
{"lm loss": 2.09875631, "grad_norm": 0.38362688, "learning_rate": 7.084e-05, "elapsed_time_per_iteration": 4.98080397, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 42s", "remaining_time": "10h 19m 37s", "loss_scale": 1.0, "consumed_samples": 1303552, "global_step/max_steps": "5092/12700"}
{"lm loss": 2.12374568, "grad_norm": 0.38400549, "learning_rate": 7.083e-05, "elapsed_time_per_iteration": 4.80994511, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 47s", "remaining_time": "10h 19m 32s", "loss_scale": 1.0, "consumed_samples": 1303808, "global_step/max_steps": "5093/12700"}
{"lm loss": 2.10909629, "grad_norm": 0.36417273, "learning_rate": 7.082e-05, "elapsed_time_per_iteration": 4.85992336, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 52s", "remaining_time": "10h 19m 27s", "loss_scale": 1.0, "consumed_samples": 1304064, "global_step/max_steps": "5094/12700"}
{"lm loss": 2.13027406, "grad_norm": 0.39795181, "learning_rate": 7.081e-05, "elapsed_time_per_iteration": 4.76757932, "memory(GiB)": 28.98, "elapsed_time": "6h 54m 56s", "remaining_time": "10h 19m 22s", "loss_scale": 1.0, "consumed_samples": 1304320, "global_step/max_steps": "5095/12700"}
{"lm loss": 2.11488557, "grad_norm": 0.38246474, "learning_rate": 7.08e-05, "elapsed_time_per_iteration": 4.90815949, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 1s", "remaining_time": "10h 19m 17s", "loss_scale": 1.0, "consumed_samples": 1304576, "global_step/max_steps": "5096/12700"}
{"lm loss": 2.09257245, "grad_norm": 0.37158409, "learning_rate": 7.079e-05, "elapsed_time_per_iteration": 4.88717008, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 6s", "remaining_time": "10h 19m 12s", "loss_scale": 1.0, "consumed_samples": 1304832, "global_step/max_steps": "5097/12700"}
{"lm loss": 2.13081241, "grad_norm": 0.38138554, "learning_rate": 7.077e-05, "elapsed_time_per_iteration": 4.81845188, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 11s", "remaining_time": "10h 19m 7s", "loss_scale": 1.0, "consumed_samples": 1305088, "global_step/max_steps": "5098/12700"}
{"lm loss": 2.09242463, "grad_norm": 0.36930695, "learning_rate": 7.076e-05, "elapsed_time_per_iteration": 4.83814287, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 16s", "remaining_time": "10h 19m 2s", "loss_scale": 1.0, "consumed_samples": 1305344, "global_step/max_steps": "5099/12700"}
{"lm loss": 2.12870288, "grad_norm": 0.38029099, "learning_rate": 7.075e-05, "elapsed_time_per_iteration": 4.82291412, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 21s", "remaining_time": "10h 18m 57s", "loss_scale": 1.0, "consumed_samples": 1305600, "global_step/max_steps": "5100/12700"}
{"lm loss": 2.11121821, "grad_norm": 0.41647562, "learning_rate": 7.074e-05, "elapsed_time_per_iteration": 4.77359033, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 26s", "remaining_time": "10h 18m 52s", "loss_scale": 1.0, "consumed_samples": 1305856, "global_step/max_steps": "5101/12700"}
{"lm loss": 2.10580873, "grad_norm": 0.39009526, "learning_rate": 7.073e-05, "elapsed_time_per_iteration": 4.88768697, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 30s", "remaining_time": "10h 18m 47s", "loss_scale": 1.0, "consumed_samples": 1306112, "global_step/max_steps": "5102/12700"}
{"lm loss": 2.123384, "grad_norm": 0.34732243, "learning_rate": 7.072e-05, "elapsed_time_per_iteration": 4.88543129, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 35s", "remaining_time": "10h 18m 42s", "loss_scale": 1.0, "consumed_samples": 1306368, "global_step/max_steps": "5103/12700"}
{"lm loss": 2.12723613, "grad_norm": 0.37482098, "learning_rate": 7.07e-05, "elapsed_time_per_iteration": 4.81341958, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 40s", "remaining_time": "10h 18m 37s", "loss_scale": 1.0, "consumed_samples": 1306624, "global_step/max_steps": "5104/12700"}
{"lm loss": 2.11876154, "grad_norm": 0.35381103, "learning_rate": 7.069e-05, "elapsed_time_per_iteration": 4.92971516, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 45s", "remaining_time": "10h 18m 32s", "loss_scale": 1.0, "consumed_samples": 1306880, "global_step/max_steps": "5105/12700"}
{"lm loss": 2.12133384, "grad_norm": 0.35843346, "learning_rate": 7.068e-05, "elapsed_time_per_iteration": 4.75611043, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 50s", "remaining_time": "10h 18m 27s", "loss_scale": 1.0, "consumed_samples": 1307136, "global_step/max_steps": "5106/12700"}
{"lm loss": 2.11002731, "grad_norm": 0.37998325, "learning_rate": 7.067e-05, "elapsed_time_per_iteration": 4.8549962, "memory(GiB)": 28.98, "elapsed_time": "6h 55m 55s", "remaining_time": "10h 18m 22s", "loss_scale": 1.0, "consumed_samples": 1307392, "global_step/max_steps": "5107/12700"}
{"lm loss": 2.11625338, "grad_norm": 0.36094233, "learning_rate": 7.066e-05, "elapsed_time_per_iteration": 4.95371819, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 0s", "remaining_time": "10h 18m 18s", "loss_scale": 1.0, "consumed_samples": 1307648, "global_step/max_steps": "5108/12700"}
{"lm loss": 2.1301446, "grad_norm": 0.39496633, "learning_rate": 7.065e-05, "elapsed_time_per_iteration": 4.92781186, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 5s", "remaining_time": "10h 18m 13s", "loss_scale": 1.0, "consumed_samples": 1307904, "global_step/max_steps": "5109/12700"}
{"lm loss": 2.1131134, "grad_norm": 0.36288756, "learning_rate": 7.063e-05, "elapsed_time_per_iteration": 4.851403, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 9s", "remaining_time": "10h 18m 8s", "loss_scale": 1.0, "consumed_samples": 1308160, "global_step/max_steps": "5110/12700"}
{"lm loss": 2.11576772, "grad_norm": 0.37495711, "learning_rate": 7.062e-05, "elapsed_time_per_iteration": 4.78739643, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 14s", "remaining_time": "10h 18m 3s", "loss_scale": 1.0, "consumed_samples": 1308416, "global_step/max_steps": "5111/12700"}
{"lm loss": 2.09471893, "grad_norm": 0.38756514, "learning_rate": 7.061e-05, "elapsed_time_per_iteration": 4.8806951, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 19s", "remaining_time": "10h 17m 58s", "loss_scale": 1.0, "consumed_samples": 1308672, "global_step/max_steps": "5112/12700"}
{"lm loss": 2.12277508, "grad_norm": 0.39027447, "learning_rate": 7.06e-05, "elapsed_time_per_iteration": 4.91387582, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 24s", "remaining_time": "10h 17m 53s", "loss_scale": 1.0, "consumed_samples": 1308928, "global_step/max_steps": "5113/12700"}
{"lm loss": 2.13362122, "grad_norm": 0.37107059, "learning_rate": 7.059e-05, "elapsed_time_per_iteration": 4.90628767, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 29s", "remaining_time": "10h 17m 48s", "loss_scale": 1.0, "consumed_samples": 1309184, "global_step/max_steps": "5114/12700"}
{"lm loss": 2.12634015, "grad_norm": 0.36765966, "learning_rate": 7.058e-05, "elapsed_time_per_iteration": 4.89040565, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 34s", "remaining_time": "10h 17m 43s", "loss_scale": 1.0, "consumed_samples": 1309440, "global_step/max_steps": "5115/12700"}
{"lm loss": 2.13535833, "grad_norm": 0.39708531, "learning_rate": 7.057e-05, "elapsed_time_per_iteration": 4.79369783, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 39s", "remaining_time": "10h 17m 38s", "loss_scale": 1.0, "consumed_samples": 1309696, "global_step/max_steps": "5116/12700"}
{"lm loss": 2.13873506, "grad_norm": 0.3603349, "learning_rate": 7.055e-05, "elapsed_time_per_iteration": 4.90907788, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 43s", "remaining_time": "10h 17m 33s", "loss_scale": 1.0, "consumed_samples": 1309952, "global_step/max_steps": "5117/12700"}
{"lm loss": 2.12633371, "grad_norm": 0.37349942, "learning_rate": 7.054e-05, "elapsed_time_per_iteration": 4.86000323, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 48s", "remaining_time": "10h 17m 29s", "loss_scale": 1.0, "consumed_samples": 1310208, "global_step/max_steps": "5118/12700"}
{"lm loss": 2.15328598, "grad_norm": 0.3690342, "learning_rate": 7.053e-05, "elapsed_time_per_iteration": 4.85658717, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 53s", "remaining_time": "10h 17m 24s", "loss_scale": 1.0, "consumed_samples": 1310464, "global_step/max_steps": "5119/12700"}
{"lm loss": 2.1037519, "grad_norm": 0.38612604, "learning_rate": 7.052e-05, "elapsed_time_per_iteration": 4.84352803, "memory(GiB)": 28.98, "elapsed_time": "6h 56m 58s", "remaining_time": "10h 17m 19s", "loss_scale": 1.0, "consumed_samples": 1310720, "global_step/max_steps": "5120/12700"}
{"lm loss": 2.12492061, "grad_norm": 0.36348796, "learning_rate": 7.051e-05, "elapsed_time_per_iteration": 4.95583272, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 3s", "remaining_time": "10h 17m 14s", "loss_scale": 1.0, "consumed_samples": 1310976, "global_step/max_steps": "5121/12700"}
{"lm loss": 2.09611726, "grad_norm": 0.37796542, "learning_rate": 7.05e-05, "elapsed_time_per_iteration": 5.06732011, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 8s", "remaining_time": "10h 17m 9s", "loss_scale": 1.0, "consumed_samples": 1311232, "global_step/max_steps": "5122/12700"}
{"lm loss": 2.10685468, "grad_norm": 0.3741093, "learning_rate": 7.048e-05, "elapsed_time_per_iteration": 4.9157393, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 13s", "remaining_time": "10h 17m 4s", "loss_scale": 1.0, "consumed_samples": 1311488, "global_step/max_steps": "5123/12700"}
{"lm loss": 2.15032887, "grad_norm": 0.39132783, "learning_rate": 7.047e-05, "elapsed_time_per_iteration": 4.92527604, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 18s", "remaining_time": "10h 17m 0s", "loss_scale": 1.0, "consumed_samples": 1311744, "global_step/max_steps": "5124/12700"}
{"lm loss": 2.11321855, "grad_norm": 0.40058059, "learning_rate": 7.046e-05, "elapsed_time_per_iteration": 4.94605851, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 23s", "remaining_time": "10h 16m 55s", "loss_scale": 1.0, "consumed_samples": 1312000, "global_step/max_steps": "5125/12700"}
{"lm loss": 2.12797356, "grad_norm": 0.36281171, "learning_rate": 7.045e-05, "elapsed_time_per_iteration": 4.91357899, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 28s", "remaining_time": "10h 16m 50s", "loss_scale": 1.0, "consumed_samples": 1312256, "global_step/max_steps": "5126/12700"}
{"lm loss": 2.10316229, "grad_norm": 0.39415699, "learning_rate": 7.044e-05, "elapsed_time_per_iteration": 4.91528201, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 33s", "remaining_time": "10h 16m 45s", "loss_scale": 1.0, "consumed_samples": 1312512, "global_step/max_steps": "5127/12700"}
{"lm loss": 2.11460924, "grad_norm": 0.37239894, "learning_rate": 7.043e-05, "elapsed_time_per_iteration": 4.93487549, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 38s", "remaining_time": "10h 16m 40s", "loss_scale": 1.0, "consumed_samples": 1312768, "global_step/max_steps": "5128/12700"}
{"lm loss": 2.07993793, "grad_norm": 0.36135936, "learning_rate": 7.041e-05, "elapsed_time_per_iteration": 4.81238985, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 42s", "remaining_time": "10h 16m 35s", "loss_scale": 1.0, "consumed_samples": 1313024, "global_step/max_steps": "5129/12700"}
{"lm loss": 2.11889625, "grad_norm": 0.38467613, "learning_rate": 7.04e-05, "elapsed_time_per_iteration": 4.88076186, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 47s", "remaining_time": "10h 16m 30s", "loss_scale": 1.0, "consumed_samples": 1313280, "global_step/max_steps": "5130/12700"}
{"lm loss": 2.12101531, "grad_norm": 0.35123059, "learning_rate": 7.039e-05, "elapsed_time_per_iteration": 4.88454008, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 52s", "remaining_time": "10h 16m 25s", "loss_scale": 1.0, "consumed_samples": 1313536, "global_step/max_steps": "5131/12700"}
{"lm loss": 2.11527681, "grad_norm": 0.35086137, "learning_rate": 7.038e-05, "elapsed_time_per_iteration": 4.8834691, "memory(GiB)": 28.98, "elapsed_time": "6h 57m 57s", "remaining_time": "10h 16m 21s", "loss_scale": 1.0, "consumed_samples": 1313792, "global_step/max_steps": "5132/12700"}
{"lm loss": 2.08025718, "grad_norm": 0.37627268, "learning_rate": 7.037e-05, "elapsed_time_per_iteration": 4.94797683, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 2s", "remaining_time": "10h 16m 16s", "loss_scale": 1.0, "consumed_samples": 1314048, "global_step/max_steps": "5133/12700"}
{"lm loss": 2.09148169, "grad_norm": 0.36880833, "learning_rate": 7.036e-05, "elapsed_time_per_iteration": 4.86304879, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 7s", "remaining_time": "10h 16m 11s", "loss_scale": 1.0, "consumed_samples": 1314304, "global_step/max_steps": "5134/12700"}
{"lm loss": 2.15912795, "grad_norm": 0.40968877, "learning_rate": 7.034e-05, "elapsed_time_per_iteration": 4.80650997, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 12s", "remaining_time": "10h 16m 6s", "loss_scale": 1.0, "consumed_samples": 1314560, "global_step/max_steps": "5135/12700"}
{"lm loss": 2.10582423, "grad_norm": 0.35817617, "learning_rate": 7.033e-05, "elapsed_time_per_iteration": 4.87423897, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 17s", "remaining_time": "10h 16m 1s", "loss_scale": 1.0, "consumed_samples": 1314816, "global_step/max_steps": "5136/12700"}
{"lm loss": 2.1093297, "grad_norm": 0.37344342, "learning_rate": 7.032e-05, "elapsed_time_per_iteration": 4.82974672, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 21s", "remaining_time": "10h 15m 56s", "loss_scale": 1.0, "consumed_samples": 1315072, "global_step/max_steps": "5137/12700"}
{"lm loss": 2.08867002, "grad_norm": 0.37812591, "learning_rate": 7.031e-05, "elapsed_time_per_iteration": 4.88194394, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 26s", "remaining_time": "10h 15m 51s", "loss_scale": 1.0, "consumed_samples": 1315328, "global_step/max_steps": "5138/12700"}
{"lm loss": 2.16099, "grad_norm": 0.39429224, "learning_rate": 7.03e-05, "elapsed_time_per_iteration": 4.88757277, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 31s", "remaining_time": "10h 15m 46s", "loss_scale": 1.0, "consumed_samples": 1315584, "global_step/max_steps": "5139/12700"}
{"lm loss": 2.09199858, "grad_norm": 0.37806651, "learning_rate": 7.029e-05, "elapsed_time_per_iteration": 4.81375313, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 36s", "remaining_time": "10h 15m 41s", "loss_scale": 1.0, "consumed_samples": 1315840, "global_step/max_steps": "5140/12700"}
{"lm loss": 2.12438774, "grad_norm": 0.34690794, "learning_rate": 7.027e-05, "elapsed_time_per_iteration": 4.89374113, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 41s", "remaining_time": "10h 15m 36s", "loss_scale": 1.0, "consumed_samples": 1316096, "global_step/max_steps": "5141/12700"}
{"lm loss": 2.0857904, "grad_norm": 0.38923928, "learning_rate": 7.026e-05, "elapsed_time_per_iteration": 4.85637069, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 46s", "remaining_time": "10h 15m 31s", "loss_scale": 1.0, "consumed_samples": 1316352, "global_step/max_steps": "5142/12700"}
{"lm loss": 2.11555338, "grad_norm": 0.38837633, "learning_rate": 7.025e-05, "elapsed_time_per_iteration": 4.85845137, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 51s", "remaining_time": "10h 15m 27s", "loss_scale": 1.0, "consumed_samples": 1316608, "global_step/max_steps": "5143/12700"}
{"lm loss": 2.13209987, "grad_norm": 0.41223541, "learning_rate": 7.024e-05, "elapsed_time_per_iteration": 4.98653769, "memory(GiB)": 28.98, "elapsed_time": "6h 58m 56s", "remaining_time": "10h 15m 22s", "loss_scale": 1.0, "consumed_samples": 1316864, "global_step/max_steps": "5144/12700"}
{"lm loss": 2.11579275, "grad_norm": 0.40688583, "learning_rate": 7.023e-05, "elapsed_time_per_iteration": 4.82147431, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 0s", "remaining_time": "10h 15m 17s", "loss_scale": 1.0, "consumed_samples": 1317120, "global_step/max_steps": "5145/12700"}
{"lm loss": 2.12826681, "grad_norm": 0.38980746, "learning_rate": 7.022e-05, "elapsed_time_per_iteration": 5.92969704, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 6s", "remaining_time": "10h 15m 13s", "loss_scale": 1.0, "consumed_samples": 1317376, "global_step/max_steps": "5146/12700"}
{"lm loss": 2.10153866, "grad_norm": 0.36825523, "learning_rate": 7.02e-05, "elapsed_time_per_iteration": 4.82885551, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 11s", "remaining_time": "10h 15m 8s", "loss_scale": 1.0, "consumed_samples": 1317632, "global_step/max_steps": "5147/12700"}
{"lm loss": 2.11509609, "grad_norm": 0.40369788, "learning_rate": 7.019e-05, "elapsed_time_per_iteration": 4.84289265, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 16s", "remaining_time": "10h 15m 4s", "loss_scale": 1.0, "consumed_samples": 1317888, "global_step/max_steps": "5148/12700"}
{"lm loss": 2.09376144, "grad_norm": 0.36845365, "learning_rate": 7.018e-05, "elapsed_time_per_iteration": 4.9345026, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 21s", "remaining_time": "10h 14m 59s", "loss_scale": 1.0, "consumed_samples": 1318144, "global_step/max_steps": "5149/12700"}
{"lm loss": 2.11893964, "grad_norm": 0.40442812, "learning_rate": 7.017e-05, "elapsed_time_per_iteration": 4.94920397, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 26s", "remaining_time": "10h 14m 54s", "loss_scale": 1.0, "consumed_samples": 1318400, "global_step/max_steps": "5150/12700"}
{"lm loss": 2.11129212, "grad_norm": 0.39137748, "learning_rate": 7.016e-05, "elapsed_time_per_iteration": 4.99881697, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 31s", "remaining_time": "10h 14m 49s", "loss_scale": 1.0, "consumed_samples": 1318656, "global_step/max_steps": "5151/12700"}
{"lm loss": 2.11434531, "grad_norm": 0.42402518, "learning_rate": 7.015e-05, "elapsed_time_per_iteration": 5.02700472, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 36s", "remaining_time": "10h 14m 44s", "loss_scale": 1.0, "consumed_samples": 1318912, "global_step/max_steps": "5152/12700"}
{"lm loss": 2.13353968, "grad_norm": 0.36278185, "learning_rate": 7.013e-05, "elapsed_time_per_iteration": 4.87755132, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 41s", "remaining_time": "10h 14m 40s", "loss_scale": 1.0, "consumed_samples": 1319168, "global_step/max_steps": "5153/12700"}
{"lm loss": 2.08653951, "grad_norm": 0.43038139, "learning_rate": 7.012e-05, "elapsed_time_per_iteration": 4.85329413, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 46s", "remaining_time": "10h 14m 35s", "loss_scale": 1.0, "consumed_samples": 1319424, "global_step/max_steps": "5154/12700"}
{"lm loss": 2.11119938, "grad_norm": 0.37526628, "learning_rate": 7.011e-05, "elapsed_time_per_iteration": 4.796911, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 50s", "remaining_time": "10h 14m 30s", "loss_scale": 1.0, "consumed_samples": 1319680, "global_step/max_steps": "5155/12700"}
{"lm loss": 2.12888527, "grad_norm": 0.40719301, "learning_rate": 7.01e-05, "elapsed_time_per_iteration": 4.89460826, "memory(GiB)": 28.98, "elapsed_time": "6h 59m 55s", "remaining_time": "10h 14m 25s", "loss_scale": 1.0, "consumed_samples": 1319936, "global_step/max_steps": "5156/12700"}
{"lm loss": 2.09699464, "grad_norm": 0.3514584, "learning_rate": 7.009e-05, "elapsed_time_per_iteration": 4.84387064, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 0s", "remaining_time": "10h 14m 20s", "loss_scale": 1.0, "consumed_samples": 1320192, "global_step/max_steps": "5157/12700"}
{"lm loss": 2.09366107, "grad_norm": 0.39857465, "learning_rate": 7.008e-05, "elapsed_time_per_iteration": 4.96566701, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 5s", "remaining_time": "10h 14m 15s", "loss_scale": 1.0, "consumed_samples": 1320448, "global_step/max_steps": "5158/12700"}
{"lm loss": 2.08010697, "grad_norm": 0.39767015, "learning_rate": 7.006e-05, "elapsed_time_per_iteration": 4.88225293, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 10s", "remaining_time": "10h 14m 10s", "loss_scale": 1.0, "consumed_samples": 1320704, "global_step/max_steps": "5159/12700"}
{"lm loss": 2.12213397, "grad_norm": 0.36534429, "learning_rate": 7.005e-05, "elapsed_time_per_iteration": 4.85523176, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 15s", "remaining_time": "10h 14m 5s", "loss_scale": 1.0, "consumed_samples": 1320960, "global_step/max_steps": "5160/12700"}
{"lm loss": 2.15325379, "grad_norm": 0.40481499, "learning_rate": 7.004e-05, "elapsed_time_per_iteration": 4.97859192, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 20s", "remaining_time": "10h 14m 0s", "loss_scale": 1.0, "consumed_samples": 1321216, "global_step/max_steps": "5161/12700"}
{"lm loss": 2.10645962, "grad_norm": 0.3805857, "learning_rate": 7.003e-05, "elapsed_time_per_iteration": 4.86396074, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 25s", "remaining_time": "10h 13m 56s", "loss_scale": 1.0, "consumed_samples": 1321472, "global_step/max_steps": "5162/12700"}
{"lm loss": 2.15606666, "grad_norm": 0.37597966, "learning_rate": 7.002e-05, "elapsed_time_per_iteration": 4.73732781, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 29s", "remaining_time": "10h 13m 50s", "loss_scale": 1.0, "consumed_samples": 1321728, "global_step/max_steps": "5163/12700"}
{"lm loss": 2.08742428, "grad_norm": 0.36013818, "learning_rate": 7.001e-05, "elapsed_time_per_iteration": 4.89607286, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 34s", "remaining_time": "10h 13m 46s", "loss_scale": 1.0, "consumed_samples": 1321984, "global_step/max_steps": "5164/12700"}
{"lm loss": 2.10284853, "grad_norm": 0.3975693, "learning_rate": 6.999e-05, "elapsed_time_per_iteration": 4.8298192, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 39s", "remaining_time": "10h 13m 41s", "loss_scale": 1.0, "consumed_samples": 1322240, "global_step/max_steps": "5165/12700"}
{"lm loss": 2.124928, "grad_norm": 0.37006605, "learning_rate": 6.998e-05, "elapsed_time_per_iteration": 4.88765454, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 44s", "remaining_time": "10h 13m 36s", "loss_scale": 1.0, "consumed_samples": 1322496, "global_step/max_steps": "5166/12700"}
{"lm loss": 2.13189435, "grad_norm": 0.39139304, "learning_rate": 6.997e-05, "elapsed_time_per_iteration": 4.91304159, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 49s", "remaining_time": "10h 13m 31s", "loss_scale": 1.0, "consumed_samples": 1322752, "global_step/max_steps": "5167/12700"}
{"lm loss": 2.09402776, "grad_norm": 0.40486529, "learning_rate": 6.996e-05, "elapsed_time_per_iteration": 4.79752517, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 54s", "remaining_time": "10h 13m 26s", "loss_scale": 1.0, "consumed_samples": 1323008, "global_step/max_steps": "5168/12700"}
{"lm loss": 2.10174561, "grad_norm": 0.38638231, "learning_rate": 6.995e-05, "elapsed_time_per_iteration": 4.82760167, "memory(GiB)": 28.98, "elapsed_time": "7h 0m 59s", "remaining_time": "10h 13m 21s", "loss_scale": 1.0, "consumed_samples": 1323264, "global_step/max_steps": "5169/12700"}
{"lm loss": 2.09324002, "grad_norm": 0.33995196, "learning_rate": 6.994e-05, "elapsed_time_per_iteration": 4.9561305, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 4s", "remaining_time": "10h 13m 16s", "loss_scale": 1.0, "consumed_samples": 1323520, "global_step/max_steps": "5170/12700"}
{"lm loss": 2.09179783, "grad_norm": 0.37731209, "learning_rate": 6.992e-05, "elapsed_time_per_iteration": 4.9751358, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 9s", "remaining_time": "10h 13m 11s", "loss_scale": 1.0, "consumed_samples": 1323776, "global_step/max_steps": "5171/12700"}
{"lm loss": 2.11491847, "grad_norm": 0.3691074, "learning_rate": 6.991e-05, "elapsed_time_per_iteration": 4.87996531, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 13s", "remaining_time": "10h 13m 6s", "loss_scale": 1.0, "consumed_samples": 1324032, "global_step/max_steps": "5172/12700"}
{"lm loss": 2.12837315, "grad_norm": 0.38113007, "learning_rate": 6.99e-05, "elapsed_time_per_iteration": 4.73712111, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 18s", "remaining_time": "10h 13m 1s", "loss_scale": 1.0, "consumed_samples": 1324288, "global_step/max_steps": "5173/12700"}
{"lm loss": 2.07274127, "grad_norm": 0.36940515, "learning_rate": 6.989e-05, "elapsed_time_per_iteration": 4.92807078, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 23s", "remaining_time": "10h 12m 56s", "loss_scale": 1.0, "consumed_samples": 1324544, "global_step/max_steps": "5174/12700"}
{"lm loss": 2.12075233, "grad_norm": 0.39433485, "learning_rate": 6.988e-05, "elapsed_time_per_iteration": 4.84575152, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 28s", "remaining_time": "10h 12m 52s", "loss_scale": 1.0, "consumed_samples": 1324800, "global_step/max_steps": "5175/12700"}
{"lm loss": 2.10007882, "grad_norm": 0.36143893, "learning_rate": 6.987e-05, "elapsed_time_per_iteration": 4.98513484, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 33s", "remaining_time": "10h 12m 47s", "loss_scale": 1.0, "consumed_samples": 1325056, "global_step/max_steps": "5176/12700"}
{"lm loss": 2.14946604, "grad_norm": 0.37042031, "learning_rate": 6.985e-05, "elapsed_time_per_iteration": 4.87195063, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 38s", "remaining_time": "10h 12m 42s", "loss_scale": 1.0, "consumed_samples": 1325312, "global_step/max_steps": "5177/12700"}
{"lm loss": 2.12308097, "grad_norm": 0.38079318, "learning_rate": 6.984e-05, "elapsed_time_per_iteration": 4.83015037, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 43s", "remaining_time": "10h 12m 37s", "loss_scale": 1.0, "consumed_samples": 1325568, "global_step/max_steps": "5178/12700"}
{"lm loss": 2.12434387, "grad_norm": 0.36888349, "learning_rate": 6.983e-05, "elapsed_time_per_iteration": 4.85039687, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 47s", "remaining_time": "10h 12m 32s", "loss_scale": 1.0, "consumed_samples": 1325824, "global_step/max_steps": "5179/12700"}
{"lm loss": 2.09836507, "grad_norm": 0.36304617, "learning_rate": 6.982e-05, "elapsed_time_per_iteration": 4.85723662, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 52s", "remaining_time": "10h 12m 27s", "loss_scale": 1.0, "consumed_samples": 1326080, "global_step/max_steps": "5180/12700"}
{"lm loss": 2.10918641, "grad_norm": 0.3788273, "learning_rate": 6.981e-05, "elapsed_time_per_iteration": 4.92383313, "memory(GiB)": 28.98, "elapsed_time": "7h 1m 57s", "remaining_time": "10h 12m 22s", "loss_scale": 1.0, "consumed_samples": 1326336, "global_step/max_steps": "5181/12700"}
{"lm loss": 2.11437798, "grad_norm": 0.40080529, "learning_rate": 6.98e-05, "elapsed_time_per_iteration": 4.90568423, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 2s", "remaining_time": "10h 12m 17s", "loss_scale": 1.0, "consumed_samples": 1326592, "global_step/max_steps": "5182/12700"}
{"lm loss": 2.12499619, "grad_norm": 0.36337873, "learning_rate": 6.978e-05, "elapsed_time_per_iteration": 4.89519262, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 7s", "remaining_time": "10h 12m 12s", "loss_scale": 1.0, "consumed_samples": 1326848, "global_step/max_steps": "5183/12700"}
{"lm loss": 2.09279418, "grad_norm": 0.43137276, "learning_rate": 6.977e-05, "elapsed_time_per_iteration": 4.87444401, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 12s", "remaining_time": "10h 12m 8s", "loss_scale": 1.0, "consumed_samples": 1327104, "global_step/max_steps": "5184/12700"}
{"lm loss": 2.09390211, "grad_norm": 0.34792882, "learning_rate": 6.976e-05, "elapsed_time_per_iteration": 4.806247, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 17s", "remaining_time": "10h 12m 3s", "loss_scale": 1.0, "consumed_samples": 1327360, "global_step/max_steps": "5185/12700"}
{"lm loss": 2.10456419, "grad_norm": 0.43269986, "learning_rate": 6.975e-05, "elapsed_time_per_iteration": 5.00022244, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 22s", "remaining_time": "10h 11m 58s", "loss_scale": 1.0, "consumed_samples": 1327616, "global_step/max_steps": "5186/12700"}
{"lm loss": 2.12166858, "grad_norm": 0.38292283, "learning_rate": 6.974e-05, "elapsed_time_per_iteration": 4.93772101, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 27s", "remaining_time": "10h 11m 53s", "loss_scale": 1.0, "consumed_samples": 1327872, "global_step/max_steps": "5187/12700"}
{"lm loss": 2.11276984, "grad_norm": 0.39307883, "learning_rate": 6.973e-05, "elapsed_time_per_iteration": 4.95988488, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 32s", "remaining_time": "10h 11m 48s", "loss_scale": 1.0, "consumed_samples": 1328128, "global_step/max_steps": "5188/12700"}
{"lm loss": 2.12476707, "grad_norm": 0.41833887, "learning_rate": 6.971e-05, "elapsed_time_per_iteration": 4.8387115, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 36s", "remaining_time": "10h 11m 43s", "loss_scale": 1.0, "consumed_samples": 1328384, "global_step/max_steps": "5189/12700"}
{"lm loss": 2.09996247, "grad_norm": 0.35376474, "learning_rate": 6.97e-05, "elapsed_time_per_iteration": 4.86609507, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 41s", "remaining_time": "10h 11m 38s", "loss_scale": 1.0, "consumed_samples": 1328640, "global_step/max_steps": "5190/12700"}
{"lm loss": 2.11436892, "grad_norm": 0.38535017, "learning_rate": 6.969e-05, "elapsed_time_per_iteration": 4.91379118, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 46s", "remaining_time": "10h 11m 34s", "loss_scale": 1.0, "consumed_samples": 1328896, "global_step/max_steps": "5191/12700"}
{"lm loss": 2.10341263, "grad_norm": 0.38185519, "learning_rate": 6.968e-05, "elapsed_time_per_iteration": 4.76848006, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 51s", "remaining_time": "10h 11m 28s", "loss_scale": 1.0, "consumed_samples": 1329152, "global_step/max_steps": "5192/12700"}
{"lm loss": 2.1312356, "grad_norm": 0.35804531, "learning_rate": 6.967e-05, "elapsed_time_per_iteration": 4.85054159, "memory(GiB)": 28.98, "elapsed_time": "7h 2m 56s", "remaining_time": "10h 11m 24s", "loss_scale": 1.0, "consumed_samples": 1329408, "global_step/max_steps": "5193/12700"}
{"lm loss": 2.09903669, "grad_norm": 0.36961299, "learning_rate": 6.966e-05, "elapsed_time_per_iteration": 4.87089849, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 1s", "remaining_time": "10h 11m 19s", "loss_scale": 1.0, "consumed_samples": 1329664, "global_step/max_steps": "5194/12700"}
{"lm loss": 2.1041317, "grad_norm": 0.36476988, "learning_rate": 6.964e-05, "elapsed_time_per_iteration": 4.89136362, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 6s", "remaining_time": "10h 11m 14s", "loss_scale": 1.0, "consumed_samples": 1329920, "global_step/max_steps": "5195/12700"}
{"lm loss": 2.0915854, "grad_norm": 0.37542966, "learning_rate": 6.963e-05, "elapsed_time_per_iteration": 4.90452814, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 11s", "remaining_time": "10h 11m 9s", "loss_scale": 1.0, "consumed_samples": 1330176, "global_step/max_steps": "5196/12700"}
{"lm loss": 2.1461153, "grad_norm": 0.40097281, "learning_rate": 6.962e-05, "elapsed_time_per_iteration": 4.93846583, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 15s", "remaining_time": "10h 11m 4s", "loss_scale": 1.0, "consumed_samples": 1330432, "global_step/max_steps": "5197/12700"}
{"lm loss": 2.15019917, "grad_norm": 0.37405485, "learning_rate": 6.961e-05, "elapsed_time_per_iteration": 4.78431416, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 20s", "remaining_time": "10h 10m 59s", "loss_scale": 1.0, "consumed_samples": 1330688, "global_step/max_steps": "5198/12700"}
{"lm loss": 2.14865184, "grad_norm": 0.39570767, "learning_rate": 6.96e-05, "elapsed_time_per_iteration": 4.9364717, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 25s", "remaining_time": "10h 10m 54s", "loss_scale": 1.0, "consumed_samples": 1330944, "global_step/max_steps": "5199/12700"}
{"lm loss": 2.101969, "grad_norm": 0.34493032, "learning_rate": 6.959e-05, "elapsed_time_per_iteration": 4.82465672, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 30s", "remaining_time": "10h 10m 49s", "loss_scale": 1.0, "consumed_samples": 1331200, "global_step/max_steps": "5200/12700"}
{"lm loss": 2.13550949, "grad_norm": 0.41961685, "learning_rate": 6.957e-05, "elapsed_time_per_iteration": 4.94070816, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 35s", "remaining_time": "10h 10m 44s", "loss_scale": 1.0, "consumed_samples": 1331456, "global_step/max_steps": "5201/12700"}
{"lm loss": 2.09353232, "grad_norm": 0.34405288, "learning_rate": 6.956e-05, "elapsed_time_per_iteration": 4.85004711, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 40s", "remaining_time": "10h 10m 40s", "loss_scale": 1.0, "consumed_samples": 1331712, "global_step/max_steps": "5202/12700"}
{"lm loss": 2.13355136, "grad_norm": 0.36074993, "learning_rate": 6.955e-05, "elapsed_time_per_iteration": 4.91640091, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 45s", "remaining_time": "10h 10m 35s", "loss_scale": 1.0, "consumed_samples": 1331968, "global_step/max_steps": "5203/12700"}
{"lm loss": 2.11392641, "grad_norm": 0.39497852, "learning_rate": 6.954e-05, "elapsed_time_per_iteration": 4.8811996, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 50s", "remaining_time": "10h 10m 30s", "loss_scale": 1.0, "consumed_samples": 1332224, "global_step/max_steps": "5204/12700"}
{"lm loss": 2.15481853, "grad_norm": 0.36472619, "learning_rate": 6.953e-05, "elapsed_time_per_iteration": 4.89054585, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 54s", "remaining_time": "10h 10m 25s", "loss_scale": 1.0, "consumed_samples": 1332480, "global_step/max_steps": "5205/12700"}
{"lm loss": 2.13558841, "grad_norm": 0.3695288, "learning_rate": 6.951e-05, "elapsed_time_per_iteration": 4.7789011, "memory(GiB)": 28.98, "elapsed_time": "7h 3m 59s", "remaining_time": "10h 10m 20s", "loss_scale": 1.0, "consumed_samples": 1332736, "global_step/max_steps": "5206/12700"}
{"lm loss": 2.11079693, "grad_norm": 0.37986261, "learning_rate": 6.95e-05, "elapsed_time_per_iteration": 4.79406142, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 4s", "remaining_time": "10h 10m 15s", "loss_scale": 1.0, "consumed_samples": 1332992, "global_step/max_steps": "5207/12700"}
{"lm loss": 2.14596081, "grad_norm": 0.38589707, "learning_rate": 6.949e-05, "elapsed_time_per_iteration": 4.88827395, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 9s", "remaining_time": "10h 10m 10s", "loss_scale": 1.0, "consumed_samples": 1333248, "global_step/max_steps": "5208/12700"}
{"lm loss": 2.09789896, "grad_norm": 0.39107999, "learning_rate": 6.948e-05, "elapsed_time_per_iteration": 4.88315988, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 14s", "remaining_time": "10h 10m 5s", "loss_scale": 1.0, "consumed_samples": 1333504, "global_step/max_steps": "5209/12700"}
{"lm loss": 2.09029865, "grad_norm": 0.34855336, "learning_rate": 6.947e-05, "elapsed_time_per_iteration": 4.89950299, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 19s", "remaining_time": "10h 10m 0s", "loss_scale": 1.0, "consumed_samples": 1333760, "global_step/max_steps": "5210/12700"}
{"lm loss": 2.15834522, "grad_norm": 0.37349749, "learning_rate": 6.946e-05, "elapsed_time_per_iteration": 4.8660481, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 24s", "remaining_time": "10h 9m 55s", "loss_scale": 1.0, "consumed_samples": 1334016, "global_step/max_steps": "5211/12700"}
{"lm loss": 2.12522459, "grad_norm": 0.38599041, "learning_rate": 6.944e-05, "elapsed_time_per_iteration": 4.89657426, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 28s", "remaining_time": "10h 9m 50s", "loss_scale": 1.0, "consumed_samples": 1334272, "global_step/max_steps": "5212/12700"}
{"lm loss": 2.13332152, "grad_norm": 0.36367515, "learning_rate": 6.943e-05, "elapsed_time_per_iteration": 4.86124945, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 33s", "remaining_time": "10h 9m 45s", "loss_scale": 1.0, "consumed_samples": 1334528, "global_step/max_steps": "5213/12700"}
{"lm loss": 2.09060025, "grad_norm": 0.34616166, "learning_rate": 6.942e-05, "elapsed_time_per_iteration": 4.82262993, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 38s", "remaining_time": "10h 9m 41s", "loss_scale": 1.0, "consumed_samples": 1334784, "global_step/max_steps": "5214/12700"}
{"lm loss": 2.13796687, "grad_norm": 0.35467571, "learning_rate": 6.941e-05, "elapsed_time_per_iteration": 4.78223896, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 43s", "remaining_time": "10h 9m 35s", "loss_scale": 1.0, "consumed_samples": 1335040, "global_step/max_steps": "5215/12700"}
{"lm loss": 2.09088516, "grad_norm": 0.3538878, "learning_rate": 6.94e-05, "elapsed_time_per_iteration": 4.87876749, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 48s", "remaining_time": "10h 9m 31s", "loss_scale": 1.0, "consumed_samples": 1335296, "global_step/max_steps": "5216/12700"}
{"lm loss": 2.12291384, "grad_norm": 0.37621459, "learning_rate": 6.939e-05, "elapsed_time_per_iteration": 4.80627704, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 53s", "remaining_time": "10h 9m 26s", "loss_scale": 1.0, "consumed_samples": 1335552, "global_step/max_steps": "5217/12700"}
{"lm loss": 2.0781436, "grad_norm": 0.36886173, "learning_rate": 6.937e-05, "elapsed_time_per_iteration": 4.83765292, "memory(GiB)": 28.98, "elapsed_time": "7h 4m 57s", "remaining_time": "10h 9m 21s", "loss_scale": 1.0, "consumed_samples": 1335808, "global_step/max_steps": "5218/12700"}
{"lm loss": 2.10373902, "grad_norm": 0.3808037, "learning_rate": 6.936e-05, "elapsed_time_per_iteration": 4.89620066, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 2s", "remaining_time": "10h 9m 16s", "loss_scale": 1.0, "consumed_samples": 1336064, "global_step/max_steps": "5219/12700"}
{"lm loss": 2.13203621, "grad_norm": 0.36029303, "learning_rate": 6.935e-05, "elapsed_time_per_iteration": 4.91844511, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 7s", "remaining_time": "10h 9m 11s", "loss_scale": 1.0, "consumed_samples": 1336320, "global_step/max_steps": "5220/12700"}
{"lm loss": 2.13167644, "grad_norm": 0.34733719, "learning_rate": 6.934e-05, "elapsed_time_per_iteration": 4.85955548, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 12s", "remaining_time": "10h 9m 6s", "loss_scale": 1.0, "consumed_samples": 1336576, "global_step/max_steps": "5221/12700"}
{"lm loss": 2.0921855, "grad_norm": 0.37247539, "learning_rate": 6.933e-05, "elapsed_time_per_iteration": 4.87619328, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 17s", "remaining_time": "10h 9m 1s", "loss_scale": 1.0, "consumed_samples": 1336832, "global_step/max_steps": "5222/12700"}
{"lm loss": 2.10748792, "grad_norm": 0.3539072, "learning_rate": 6.932e-05, "elapsed_time_per_iteration": 4.86074805, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 22s", "remaining_time": "10h 8m 56s", "loss_scale": 1.0, "consumed_samples": 1337088, "global_step/max_steps": "5223/12700"}
{"lm loss": 2.15307117, "grad_norm": 0.36743057, "learning_rate": 6.93e-05, "elapsed_time_per_iteration": 4.89898157, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 27s", "remaining_time": "10h 8m 51s", "loss_scale": 1.0, "consumed_samples": 1337344, "global_step/max_steps": "5224/12700"}
{"lm loss": 2.10986805, "grad_norm": 0.35181543, "learning_rate": 6.929e-05, "elapsed_time_per_iteration": 4.83858109, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 32s", "remaining_time": "10h 8m 46s", "loss_scale": 1.0, "consumed_samples": 1337600, "global_step/max_steps": "5225/12700"}
{"lm loss": 2.14587283, "grad_norm": 0.41435361, "learning_rate": 6.928e-05, "elapsed_time_per_iteration": 4.83145499, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 36s", "remaining_time": "10h 8m 41s", "loss_scale": 1.0, "consumed_samples": 1337856, "global_step/max_steps": "5226/12700"}
{"lm loss": 2.10879517, "grad_norm": 0.37276465, "learning_rate": 6.927e-05, "elapsed_time_per_iteration": 4.83163428, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 41s", "remaining_time": "10h 8m 36s", "loss_scale": 1.0, "consumed_samples": 1338112, "global_step/max_steps": "5227/12700"}
{"lm loss": 2.13829207, "grad_norm": 0.3690913, "learning_rate": 6.926e-05, "elapsed_time_per_iteration": 4.8847096, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 46s", "remaining_time": "10h 8m 32s", "loss_scale": 1.0, "consumed_samples": 1338368, "global_step/max_steps": "5228/12700"}
{"lm loss": 2.12882328, "grad_norm": 0.38760459, "learning_rate": 6.924e-05, "elapsed_time_per_iteration": 4.8467207, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 51s", "remaining_time": "10h 8m 27s", "loss_scale": 1.0, "consumed_samples": 1338624, "global_step/max_steps": "5229/12700"}
{"lm loss": 2.12519813, "grad_norm": 0.35311264, "learning_rate": 6.923e-05, "elapsed_time_per_iteration": 4.83287287, "memory(GiB)": 28.98, "elapsed_time": "7h 5m 56s", "remaining_time": "10h 8m 22s", "loss_scale": 1.0, "consumed_samples": 1338880, "global_step/max_steps": "5230/12700"}
{"lm loss": 2.12101507, "grad_norm": 0.38395384, "learning_rate": 6.922e-05, "elapsed_time_per_iteration": 4.82839179, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 1s", "remaining_time": "10h 8m 17s", "loss_scale": 1.0, "consumed_samples": 1339136, "global_step/max_steps": "5231/12700"}
{"lm loss": 2.12299395, "grad_norm": 0.36726841, "learning_rate": 6.921e-05, "elapsed_time_per_iteration": 4.91818738, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 6s", "remaining_time": "10h 8m 12s", "loss_scale": 1.0, "consumed_samples": 1339392, "global_step/max_steps": "5232/12700"}
{"lm loss": 2.10230279, "grad_norm": 0.37736145, "learning_rate": 6.92e-05, "elapsed_time_per_iteration": 4.87413335, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 10s", "remaining_time": "10h 8m 7s", "loss_scale": 1.0, "consumed_samples": 1339648, "global_step/max_steps": "5233/12700"}
{"lm loss": 2.10092521, "grad_norm": 0.36599961, "learning_rate": 6.919e-05, "elapsed_time_per_iteration": 5.67414188, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 16s", "remaining_time": "10h 8m 3s", "loss_scale": 1.0, "consumed_samples": 1339904, "global_step/max_steps": "5234/12700"}
{"lm loss": 2.10210967, "grad_norm": 0.38033366, "learning_rate": 6.917e-05, "elapsed_time_per_iteration": 4.79174948, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 21s", "remaining_time": "10h 7m 58s", "loss_scale": 1.0, "consumed_samples": 1340160, "global_step/max_steps": "5235/12700"}
{"lm loss": 2.1461668, "grad_norm": 0.3683573, "learning_rate": 6.916e-05, "elapsed_time_per_iteration": 4.96585894, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 26s", "remaining_time": "10h 7m 53s", "loss_scale": 1.0, "consumed_samples": 1340416, "global_step/max_steps": "5236/12700"}
{"lm loss": 2.11374307, "grad_norm": 0.40030837, "learning_rate": 6.915e-05, "elapsed_time_per_iteration": 4.96181035, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 31s", "remaining_time": "10h 7m 49s", "loss_scale": 1.0, "consumed_samples": 1340672, "global_step/max_steps": "5237/12700"}
{"lm loss": 2.10812926, "grad_norm": 0.3903259, "learning_rate": 6.914e-05, "elapsed_time_per_iteration": 4.95082545, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 36s", "remaining_time": "10h 7m 44s", "loss_scale": 1.0, "consumed_samples": 1340928, "global_step/max_steps": "5238/12700"}
{"lm loss": 2.0807445, "grad_norm": 0.36599091, "learning_rate": 6.913e-05, "elapsed_time_per_iteration": 4.94861174, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 41s", "remaining_time": "10h 7m 39s", "loss_scale": 1.0, "consumed_samples": 1341184, "global_step/max_steps": "5239/12700"}
{"lm loss": 2.1013732, "grad_norm": 0.40755084, "learning_rate": 6.912e-05, "elapsed_time_per_iteration": 4.92700934, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 46s", "remaining_time": "10h 7m 34s", "loss_scale": 1.0, "consumed_samples": 1341440, "global_step/max_steps": "5240/12700"}
{"lm loss": 2.09668255, "grad_norm": 0.3635363, "learning_rate": 6.91e-05, "elapsed_time_per_iteration": 4.855299, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 51s", "remaining_time": "10h 7m 29s", "loss_scale": 1.0, "consumed_samples": 1341696, "global_step/max_steps": "5241/12700"}
{"lm loss": 2.13069081, "grad_norm": 0.36996621, "learning_rate": 6.909e-05, "elapsed_time_per_iteration": 4.87205219, "memory(GiB)": 28.98, "elapsed_time": "7h 6m 55s", "remaining_time": "10h 7m 24s", "loss_scale": 1.0, "consumed_samples": 1341952, "global_step/max_steps": "5242/12700"}
{"lm loss": 2.08500743, "grad_norm": 0.36292297, "learning_rate": 6.908e-05, "elapsed_time_per_iteration": 4.8794713, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 0s", "remaining_time": "10h 7m 19s", "loss_scale": 1.0, "consumed_samples": 1342208, "global_step/max_steps": "5243/12700"}
{"lm loss": 2.11458516, "grad_norm": 0.36906791, "learning_rate": 6.907e-05, "elapsed_time_per_iteration": 4.93013144, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 5s", "remaining_time": "10h 7m 15s", "loss_scale": 1.0, "consumed_samples": 1342464, "global_step/max_steps": "5244/12700"}
{"lm loss": 2.09630108, "grad_norm": 0.38818905, "learning_rate": 6.906e-05, "elapsed_time_per_iteration": 4.7988615, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 10s", "remaining_time": "10h 7m 10s", "loss_scale": 1.0, "consumed_samples": 1342720, "global_step/max_steps": "5245/12700"}
{"lm loss": 2.15449381, "grad_norm": 0.3721503, "learning_rate": 6.904e-05, "elapsed_time_per_iteration": 4.90997291, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 15s", "remaining_time": "10h 7m 5s", "loss_scale": 1.0, "consumed_samples": 1342976, "global_step/max_steps": "5246/12700"}
{"lm loss": 2.13903475, "grad_norm": 0.38712388, "learning_rate": 6.903e-05, "elapsed_time_per_iteration": 4.96945763, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 20s", "remaining_time": "10h 7m 0s", "loss_scale": 1.0, "consumed_samples": 1343232, "global_step/max_steps": "5247/12700"}
{"lm loss": 2.13755488, "grad_norm": 0.38181019, "learning_rate": 6.902e-05, "elapsed_time_per_iteration": 4.79494834, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 25s", "remaining_time": "10h 6m 55s", "loss_scale": 1.0, "consumed_samples": 1343488, "global_step/max_steps": "5248/12700"}
{"lm loss": 2.11096764, "grad_norm": 0.37658545, "learning_rate": 6.901e-05, "elapsed_time_per_iteration": 4.88490653, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 30s", "remaining_time": "10h 6m 50s", "loss_scale": 1.0, "consumed_samples": 1343744, "global_step/max_steps": "5249/12700"}
{"lm loss": 2.11293125, "grad_norm": 0.38442826, "learning_rate": 6.9e-05, "elapsed_time_per_iteration": 4.90866518, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 35s", "remaining_time": "10h 6m 45s", "loss_scale": 1.0, "consumed_samples": 1344000, "global_step/max_steps": "5250/12700"}
{"lm loss": 2.134413, "grad_norm": 0.34910786, "learning_rate": 6.899e-05, "elapsed_time_per_iteration": 4.91867471, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 39s", "remaining_time": "10h 6m 40s", "loss_scale": 1.0, "consumed_samples": 1344256, "global_step/max_steps": "5251/12700"}
{"lm loss": 2.0971446, "grad_norm": 0.381596, "learning_rate": 6.897e-05, "elapsed_time_per_iteration": 4.9278512, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 44s", "remaining_time": "10h 6m 36s", "loss_scale": 1.0, "consumed_samples": 1344512, "global_step/max_steps": "5252/12700"}
{"lm loss": 2.11989093, "grad_norm": 0.38970217, "learning_rate": 6.896e-05, "elapsed_time_per_iteration": 4.90257788, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 49s", "remaining_time": "10h 6m 31s", "loss_scale": 1.0, "consumed_samples": 1344768, "global_step/max_steps": "5253/12700"}
{"lm loss": 2.14762044, "grad_norm": 0.38833603, "learning_rate": 6.895e-05, "elapsed_time_per_iteration": 4.90999198, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 54s", "remaining_time": "10h 6m 26s", "loss_scale": 1.0, "consumed_samples": 1345024, "global_step/max_steps": "5254/12700"}
{"lm loss": 2.10848379, "grad_norm": 0.37055916, "learning_rate": 6.894e-05, "elapsed_time_per_iteration": 4.9485178, "memory(GiB)": 28.98, "elapsed_time": "7h 7m 59s", "remaining_time": "10h 6m 21s", "loss_scale": 1.0, "consumed_samples": 1345280, "global_step/max_steps": "5255/12700"}
{"lm loss": 2.11260581, "grad_norm": 0.40447727, "learning_rate": 6.893e-05, "elapsed_time_per_iteration": 4.98878932, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 4s", "remaining_time": "10h 6m 16s", "loss_scale": 1.0, "consumed_samples": 1345536, "global_step/max_steps": "5256/12700"}
{"lm loss": 2.10901737, "grad_norm": 0.38993725, "learning_rate": 6.892e-05, "elapsed_time_per_iteration": 4.87449932, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 9s", "remaining_time": "10h 6m 11s", "loss_scale": 1.0, "consumed_samples": 1345792, "global_step/max_steps": "5257/12700"}
{"lm loss": 2.08069921, "grad_norm": 0.41267562, "learning_rate": 6.89e-05, "elapsed_time_per_iteration": 4.95283437, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 14s", "remaining_time": "10h 6m 7s", "loss_scale": 1.0, "consumed_samples": 1346048, "global_step/max_steps": "5258/12700"}
{"lm loss": 2.14755154, "grad_norm": 0.38546118, "learning_rate": 6.889e-05, "elapsed_time_per_iteration": 4.91133428, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 19s", "remaining_time": "10h 6m 2s", "loss_scale": 1.0, "consumed_samples": 1346304, "global_step/max_steps": "5259/12700"}
{"lm loss": 2.10143471, "grad_norm": 0.41325265, "learning_rate": 6.888e-05, "elapsed_time_per_iteration": 4.91996121, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 24s", "remaining_time": "10h 5m 57s", "loss_scale": 1.0, "consumed_samples": 1346560, "global_step/max_steps": "5260/12700"}
{"lm loss": 2.13651276, "grad_norm": 0.37775162, "learning_rate": 6.887e-05, "elapsed_time_per_iteration": 4.89226794, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 29s", "remaining_time": "10h 5m 52s", "loss_scale": 1.0, "consumed_samples": 1346816, "global_step/max_steps": "5261/12700"}
{"lm loss": 2.09126425, "grad_norm": 0.40872052, "learning_rate": 6.886e-05, "elapsed_time_per_iteration": 4.90717483, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 34s", "remaining_time": "10h 5m 47s", "loss_scale": 1.0, "consumed_samples": 1347072, "global_step/max_steps": "5262/12700"}
{"lm loss": 2.13708925, "grad_norm": 0.41018018, "learning_rate": 6.884e-05, "elapsed_time_per_iteration": 4.91143608, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 38s", "remaining_time": "10h 5m 42s", "loss_scale": 1.0, "consumed_samples": 1347328, "global_step/max_steps": "5263/12700"}
{"lm loss": 2.12320018, "grad_norm": 0.38301355, "learning_rate": 6.883e-05, "elapsed_time_per_iteration": 4.93629432, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 43s", "remaining_time": "10h 5m 37s", "loss_scale": 1.0, "consumed_samples": 1347584, "global_step/max_steps": "5264/12700"}
{"lm loss": 2.10008836, "grad_norm": 0.38376987, "learning_rate": 6.882e-05, "elapsed_time_per_iteration": 4.89251542, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 48s", "remaining_time": "10h 5m 33s", "loss_scale": 1.0, "consumed_samples": 1347840, "global_step/max_steps": "5265/12700"}
{"lm loss": 2.14110184, "grad_norm": 0.42782053, "learning_rate": 6.881e-05, "elapsed_time_per_iteration": 4.84415436, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 53s", "remaining_time": "10h 5m 28s", "loss_scale": 1.0, "consumed_samples": 1348096, "global_step/max_steps": "5266/12700"}
{"lm loss": 2.08259511, "grad_norm": 0.37806883, "learning_rate": 6.88e-05, "elapsed_time_per_iteration": 4.90016365, "memory(GiB)": 28.98, "elapsed_time": "7h 8m 58s", "remaining_time": "10h 5m 23s", "loss_scale": 1.0, "consumed_samples": 1348352, "global_step/max_steps": "5267/12700"}
{"lm loss": 2.09131932, "grad_norm": 0.39885926, "learning_rate": 6.879e-05, "elapsed_time_per_iteration": 4.86623144, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 3s", "remaining_time": "10h 5m 18s", "loss_scale": 1.0, "consumed_samples": 1348608, "global_step/max_steps": "5268/12700"}
{"lm loss": 2.08108306, "grad_norm": 0.36541447, "learning_rate": 6.877e-05, "elapsed_time_per_iteration": 4.87976813, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 8s", "remaining_time": "10h 5m 13s", "loss_scale": 1.0, "consumed_samples": 1348864, "global_step/max_steps": "5269/12700"}
{"lm loss": 2.10182381, "grad_norm": 0.36620015, "learning_rate": 6.876e-05, "elapsed_time_per_iteration": 5.01073313, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 13s", "remaining_time": "10h 5m 8s", "loss_scale": 1.0, "consumed_samples": 1349120, "global_step/max_steps": "5270/12700"}
{"lm loss": 2.10756469, "grad_norm": 0.34766105, "learning_rate": 6.875e-05, "elapsed_time_per_iteration": 4.83593774, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 18s", "remaining_time": "10h 5m 3s", "loss_scale": 1.0, "consumed_samples": 1349376, "global_step/max_steps": "5271/12700"}
{"lm loss": 2.10629678, "grad_norm": 0.37593275, "learning_rate": 6.874e-05, "elapsed_time_per_iteration": 4.87328672, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 23s", "remaining_time": "10h 4m 58s", "loss_scale": 1.0, "consumed_samples": 1349632, "global_step/max_steps": "5272/12700"}
{"lm loss": 2.1199522, "grad_norm": 0.35492691, "learning_rate": 6.873e-05, "elapsed_time_per_iteration": 4.85467076, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 27s", "remaining_time": "10h 4m 53s", "loss_scale": 1.0, "consumed_samples": 1349888, "global_step/max_steps": "5273/12700"}
{"lm loss": 2.08775115, "grad_norm": 0.35147291, "learning_rate": 6.871e-05, "elapsed_time_per_iteration": 4.90153384, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 32s", "remaining_time": "10h 4m 49s", "loss_scale": 1.0, "consumed_samples": 1350144, "global_step/max_steps": "5274/12700"}
{"lm loss": 2.08790946, "grad_norm": 0.38248479, "learning_rate": 6.87e-05, "elapsed_time_per_iteration": 5.03338194, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 37s", "remaining_time": "10h 4m 44s", "loss_scale": 1.0, "consumed_samples": 1350400, "global_step/max_steps": "5275/12700"}
{"lm loss": 2.11166811, "grad_norm": 0.35311547, "learning_rate": 6.869e-05, "elapsed_time_per_iteration": 4.89494967, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 42s", "remaining_time": "10h 4m 39s", "loss_scale": 1.0, "consumed_samples": 1350656, "global_step/max_steps": "5276/12700"}
{"lm loss": 2.11358762, "grad_norm": 0.38614598, "learning_rate": 6.868e-05, "elapsed_time_per_iteration": 4.83704305, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 47s", "remaining_time": "10h 4m 34s", "loss_scale": 1.0, "consumed_samples": 1350912, "global_step/max_steps": "5277/12700"}
{"lm loss": 2.11674261, "grad_norm": 0.36885759, "learning_rate": 6.867e-05, "elapsed_time_per_iteration": 4.78558493, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 52s", "remaining_time": "10h 4m 29s", "loss_scale": 1.0, "consumed_samples": 1351168, "global_step/max_steps": "5278/12700"}
{"lm loss": 2.09779739, "grad_norm": 0.34484762, "learning_rate": 6.866e-05, "elapsed_time_per_iteration": 4.79752302, "memory(GiB)": 28.98, "elapsed_time": "7h 9m 57s", "remaining_time": "10h 4m 24s", "loss_scale": 1.0, "consumed_samples": 1351424, "global_step/max_steps": "5279/12700"}
{"lm loss": 2.13626981, "grad_norm": 0.36242568, "learning_rate": 6.864e-05, "elapsed_time_per_iteration": 5.075454, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 2s", "remaining_time": "10h 4m 19s", "loss_scale": 1.0, "consumed_samples": 1351680, "global_step/max_steps": "5280/12700"}
{"lm loss": 2.13292122, "grad_norm": 0.35910633, "learning_rate": 6.863e-05, "elapsed_time_per_iteration": 4.86964417, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 7s", "remaining_time": "10h 4m 14s", "loss_scale": 1.0, "consumed_samples": 1351936, "global_step/max_steps": "5281/12700"}
{"lm loss": 2.10737419, "grad_norm": 0.35439792, "learning_rate": 6.862e-05, "elapsed_time_per_iteration": 4.91599584, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 11s", "remaining_time": "10h 4m 10s", "loss_scale": 1.0, "consumed_samples": 1352192, "global_step/max_steps": "5282/12700"}
{"lm loss": 2.10820961, "grad_norm": 0.37354788, "learning_rate": 6.861e-05, "elapsed_time_per_iteration": 4.90834641, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 16s", "remaining_time": "10h 4m 5s", "loss_scale": 1.0, "consumed_samples": 1352448, "global_step/max_steps": "5283/12700"}
{"lm loss": 2.12410688, "grad_norm": 0.37121624, "learning_rate": 6.86e-05, "elapsed_time_per_iteration": 4.8835206, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 21s", "remaining_time": "10h 4m 0s", "loss_scale": 1.0, "consumed_samples": 1352704, "global_step/max_steps": "5284/12700"}
{"lm loss": 2.1014235, "grad_norm": 0.37674505, "learning_rate": 6.858e-05, "elapsed_time_per_iteration": 4.88530087, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 26s", "remaining_time": "10h 3m 55s", "loss_scale": 1.0, "consumed_samples": 1352960, "global_step/max_steps": "5285/12700"}
{"lm loss": 2.0999043, "grad_norm": 0.36989248, "learning_rate": 6.857e-05, "elapsed_time_per_iteration": 4.82695055, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 31s", "remaining_time": "10h 3m 50s", "loss_scale": 1.0, "consumed_samples": 1353216, "global_step/max_steps": "5286/12700"}
{"lm loss": 2.11463809, "grad_norm": 0.36335045, "learning_rate": 6.856e-05, "elapsed_time_per_iteration": 4.8544488, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 36s", "remaining_time": "10h 3m 45s", "loss_scale": 1.0, "consumed_samples": 1353472, "global_step/max_steps": "5287/12700"}
{"lm loss": 2.15018272, "grad_norm": 0.41571072, "learning_rate": 6.855e-05, "elapsed_time_per_iteration": 4.87095404, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 41s", "remaining_time": "10h 3m 40s", "loss_scale": 1.0, "consumed_samples": 1353728, "global_step/max_steps": "5288/12700"}
{"lm loss": 2.10310173, "grad_norm": 0.35370642, "learning_rate": 6.854e-05, "elapsed_time_per_iteration": 4.73408365, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 45s", "remaining_time": "10h 3m 35s", "loss_scale": 1.0, "consumed_samples": 1353984, "global_step/max_steps": "5289/12700"}
{"lm loss": 2.08500504, "grad_norm": 0.37795773, "learning_rate": 6.853e-05, "elapsed_time_per_iteration": 4.85336328, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 50s", "remaining_time": "10h 3m 30s", "loss_scale": 1.0, "consumed_samples": 1354240, "global_step/max_steps": "5290/12700"}
{"lm loss": 2.10556626, "grad_norm": 0.3633374, "learning_rate": 6.851e-05, "elapsed_time_per_iteration": 4.85402417, "memory(GiB)": 28.98, "elapsed_time": "7h 10m 55s", "remaining_time": "10h 3m 25s", "loss_scale": 1.0, "consumed_samples": 1354496, "global_step/max_steps": "5291/12700"}
{"lm loss": 2.11491799, "grad_norm": 0.39063132, "learning_rate": 6.85e-05, "elapsed_time_per_iteration": 4.91199112, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 0s", "remaining_time": "10h 3m 20s", "loss_scale": 1.0, "consumed_samples": 1354752, "global_step/max_steps": "5292/12700"}
{"lm loss": 2.10288954, "grad_norm": 0.40552571, "learning_rate": 6.849e-05, "elapsed_time_per_iteration": 4.81870127, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 5s", "remaining_time": "10h 3m 15s", "loss_scale": 1.0, "consumed_samples": 1355008, "global_step/max_steps": "5293/12700"}
{"lm loss": 2.1438086, "grad_norm": 0.38243198, "learning_rate": 6.848e-05, "elapsed_time_per_iteration": 4.79840946, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 10s", "remaining_time": "10h 3m 10s", "loss_scale": 1.0, "consumed_samples": 1355264, "global_step/max_steps": "5294/12700"}
{"lm loss": 2.1162703, "grad_norm": 0.35462368, "learning_rate": 6.847e-05, "elapsed_time_per_iteration": 4.85972309, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 15s", "remaining_time": "10h 3m 5s", "loss_scale": 1.0, "consumed_samples": 1355520, "global_step/max_steps": "5295/12700"}
{"lm loss": 2.122087, "grad_norm": 0.36396182, "learning_rate": 6.845e-05, "elapsed_time_per_iteration": 4.93356442, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 19s", "remaining_time": "10h 3m 1s", "loss_scale": 1.0, "consumed_samples": 1355776, "global_step/max_steps": "5296/12700"}
{"lm loss": 2.10034776, "grad_norm": 0.37488136, "learning_rate": 6.844e-05, "elapsed_time_per_iteration": 4.8904109, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 24s", "remaining_time": "10h 2m 56s", "loss_scale": 1.0, "consumed_samples": 1356032, "global_step/max_steps": "5297/12700"}
{"lm loss": 2.0985136, "grad_norm": 0.38564935, "learning_rate": 6.843e-05, "elapsed_time_per_iteration": 4.88964486, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 29s", "remaining_time": "10h 2m 51s", "loss_scale": 1.0, "consumed_samples": 1356288, "global_step/max_steps": "5298/12700"}
{"lm loss": 2.09857273, "grad_norm": 0.37468842, "learning_rate": 6.842e-05, "elapsed_time_per_iteration": 5.03859663, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 34s", "remaining_time": "10h 2m 46s", "loss_scale": 1.0, "consumed_samples": 1356544, "global_step/max_steps": "5299/12700"}
{"lm loss": 2.10971642, "grad_norm": 0.40243641, "learning_rate": 6.841e-05, "elapsed_time_per_iteration": 4.86403704, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 39s", "remaining_time": "10h 2m 41s", "loss_scale": 1.0, "consumed_samples": 1356800, "global_step/max_steps": "5300/12700"}
{"lm loss": 2.08208942, "grad_norm": 0.41245261, "learning_rate": 6.84e-05, "elapsed_time_per_iteration": 4.85596228, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 44s", "remaining_time": "10h 2m 36s", "loss_scale": 1.0, "consumed_samples": 1357056, "global_step/max_steps": "5301/12700"}
{"lm loss": 2.08768559, "grad_norm": 0.36084625, "learning_rate": 6.838e-05, "elapsed_time_per_iteration": 4.9992981, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 49s", "remaining_time": "10h 2m 32s", "loss_scale": 1.0, "consumed_samples": 1357312, "global_step/max_steps": "5302/12700"}
{"lm loss": 2.09444427, "grad_norm": 0.42268386, "learning_rate": 6.837e-05, "elapsed_time_per_iteration": 4.89741516, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 54s", "remaining_time": "10h 2m 27s", "loss_scale": 1.0, "consumed_samples": 1357568, "global_step/max_steps": "5303/12700"}
{"lm loss": 2.10245156, "grad_norm": 0.36455607, "learning_rate": 6.836e-05, "elapsed_time_per_iteration": 4.90634942, "memory(GiB)": 28.98, "elapsed_time": "7h 11m 59s", "remaining_time": "10h 2m 22s", "loss_scale": 1.0, "consumed_samples": 1357824, "global_step/max_steps": "5304/12700"}
{"lm loss": 2.11384249, "grad_norm": 0.4021481, "learning_rate": 6.835e-05, "elapsed_time_per_iteration": 4.91372061, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 4s", "remaining_time": "10h 2m 17s", "loss_scale": 1.0, "consumed_samples": 1358080, "global_step/max_steps": "5305/12700"}
{"lm loss": 2.08245587, "grad_norm": 0.40134093, "learning_rate": 6.834e-05, "elapsed_time_per_iteration": 4.8970921, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 9s", "remaining_time": "10h 2m 12s", "loss_scale": 1.0, "consumed_samples": 1358336, "global_step/max_steps": "5306/12700"}
{"lm loss": 2.07880664, "grad_norm": 0.3514725, "learning_rate": 6.832e-05, "elapsed_time_per_iteration": 4.85718799, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 13s", "remaining_time": "10h 2m 7s", "loss_scale": 1.0, "consumed_samples": 1358592, "global_step/max_steps": "5307/12700"}
{"lm loss": 2.09731865, "grad_norm": 0.36705267, "learning_rate": 6.831e-05, "elapsed_time_per_iteration": 4.81131411, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 18s", "remaining_time": "10h 2m 2s", "loss_scale": 1.0, "consumed_samples": 1358848, "global_step/max_steps": "5308/12700"}
{"lm loss": 2.07942367, "grad_norm": 0.36381072, "learning_rate": 6.83e-05, "elapsed_time_per_iteration": 4.858675, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 23s", "remaining_time": "10h 1m 57s", "loss_scale": 1.0, "consumed_samples": 1359104, "global_step/max_steps": "5309/12700"}
{"lm loss": 2.11301708, "grad_norm": 0.35319102, "learning_rate": 6.829e-05, "elapsed_time_per_iteration": 4.94025397, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 28s", "remaining_time": "10h 1m 53s", "loss_scale": 1.0, "consumed_samples": 1359360, "global_step/max_steps": "5310/12700"}
{"lm loss": 2.13050747, "grad_norm": 0.37567329, "learning_rate": 6.828e-05, "elapsed_time_per_iteration": 4.85426974, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 33s", "remaining_time": "10h 1m 48s", "loss_scale": 1.0, "consumed_samples": 1359616, "global_step/max_steps": "5311/12700"}
{"lm loss": 2.08332157, "grad_norm": 0.37915641, "learning_rate": 6.827e-05, "elapsed_time_per_iteration": 4.98077011, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 38s", "remaining_time": "10h 1m 43s", "loss_scale": 1.0, "consumed_samples": 1359872, "global_step/max_steps": "5312/12700"}
{"lm loss": 2.09834337, "grad_norm": 0.4103151, "learning_rate": 6.825e-05, "elapsed_time_per_iteration": 4.88167286, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 43s", "remaining_time": "10h 1m 38s", "loss_scale": 1.0, "consumed_samples": 1360128, "global_step/max_steps": "5313/12700"}
{"lm loss": 2.0999856, "grad_norm": 0.3612957, "learning_rate": 6.824e-05, "elapsed_time_per_iteration": 4.82611442, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 48s", "remaining_time": "10h 1m 33s", "loss_scale": 1.0, "consumed_samples": 1360384, "global_step/max_steps": "5314/12700"}
{"lm loss": 2.12211752, "grad_norm": 0.3895275, "learning_rate": 6.823e-05, "elapsed_time_per_iteration": 4.87297106, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 53s", "remaining_time": "10h 1m 28s", "loss_scale": 1.0, "consumed_samples": 1360640, "global_step/max_steps": "5315/12700"}
{"lm loss": 2.16320062, "grad_norm": 0.38499004, "learning_rate": 6.822e-05, "elapsed_time_per_iteration": 4.85530782, "memory(GiB)": 28.98, "elapsed_time": "7h 12m 57s", "remaining_time": "10h 1m 23s", "loss_scale": 1.0, "consumed_samples": 1360896, "global_step/max_steps": "5316/12700"}
{"lm loss": 2.1201148, "grad_norm": 0.34177393, "learning_rate": 6.821e-05, "elapsed_time_per_iteration": 4.88809943, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 2s", "remaining_time": "10h 1m 18s", "loss_scale": 1.0, "consumed_samples": 1361152, "global_step/max_steps": "5317/12700"}
{"lm loss": 2.13204861, "grad_norm": 0.38510734, "learning_rate": 6.819e-05, "elapsed_time_per_iteration": 4.86425424, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 7s", "remaining_time": "10h 1m 13s", "loss_scale": 1.0, "consumed_samples": 1361408, "global_step/max_steps": "5318/12700"}
{"lm loss": 2.10121274, "grad_norm": 0.37970006, "learning_rate": 6.818e-05, "elapsed_time_per_iteration": 4.89064956, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 12s", "remaining_time": "10h 1m 8s", "loss_scale": 1.0, "consumed_samples": 1361664, "global_step/max_steps": "5319/12700"}
{"lm loss": 2.12361026, "grad_norm": 0.39199427, "learning_rate": 6.817e-05, "elapsed_time_per_iteration": 4.78090787, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 17s", "remaining_time": "10h 1m 3s", "loss_scale": 1.0, "consumed_samples": 1361920, "global_step/max_steps": "5320/12700"}
{"lm loss": 2.11647725, "grad_norm": 0.41193247, "learning_rate": 6.816e-05, "elapsed_time_per_iteration": 4.87609553, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 22s", "remaining_time": "10h 0m 58s", "loss_scale": 1.0, "consumed_samples": 1362176, "global_step/max_steps": "5321/12700"}
{"lm loss": 2.11152244, "grad_norm": 0.34275311, "learning_rate": 6.815e-05, "elapsed_time_per_iteration": 4.82087302, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 26s", "remaining_time": "10h 0m 54s", "loss_scale": 1.0, "consumed_samples": 1362432, "global_step/max_steps": "5322/12700"}
{"lm loss": 2.09925747, "grad_norm": 0.36474326, "learning_rate": 6.813e-05, "elapsed_time_per_iteration": 4.83936596, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 31s", "remaining_time": "10h 0m 49s", "loss_scale": 1.0, "consumed_samples": 1362688, "global_step/max_steps": "5323/12700"}
{"lm loss": 2.0791266, "grad_norm": 0.35830772, "learning_rate": 6.812e-05, "elapsed_time_per_iteration": 4.91439104, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 36s", "remaining_time": "10h 0m 44s", "loss_scale": 1.0, "consumed_samples": 1362944, "global_step/max_steps": "5324/12700"}
{"lm loss": 2.07093096, "grad_norm": 0.37605831, "learning_rate": 6.811e-05, "elapsed_time_per_iteration": 4.85584664, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 41s", "remaining_time": "10h 0m 39s", "loss_scale": 1.0, "consumed_samples": 1363200, "global_step/max_steps": "5325/12700"}
{"lm loss": 2.10639071, "grad_norm": 0.33709189, "learning_rate": 6.81e-05, "elapsed_time_per_iteration": 4.88430715, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 46s", "remaining_time": "10h 0m 34s", "loss_scale": 1.0, "consumed_samples": 1363456, "global_step/max_steps": "5326/12700"}
{"lm loss": 2.13552713, "grad_norm": 0.36454535, "learning_rate": 6.809e-05, "elapsed_time_per_iteration": 4.7639482, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 51s", "remaining_time": "10h 0m 29s", "loss_scale": 1.0, "consumed_samples": 1363712, "global_step/max_steps": "5327/12700"}
{"lm loss": 2.11320543, "grad_norm": 0.34496653, "learning_rate": 6.808e-05, "elapsed_time_per_iteration": 4.87957072, "memory(GiB)": 28.98, "elapsed_time": "7h 13m 56s", "remaining_time": "10h 0m 24s", "loss_scale": 1.0, "consumed_samples": 1363968, "global_step/max_steps": "5328/12700"}
{"lm loss": 2.11096048, "grad_norm": 0.35299611, "learning_rate": 6.806e-05, "elapsed_time_per_iteration": 4.91968918, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 1s", "remaining_time": "10h 0m 19s", "loss_scale": 1.0, "consumed_samples": 1364224, "global_step/max_steps": "5329/12700"}
{"lm loss": 2.10523033, "grad_norm": 0.36097968, "learning_rate": 6.805e-05, "elapsed_time_per_iteration": 4.89902067, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 5s", "remaining_time": "10h 0m 14s", "loss_scale": 1.0, "consumed_samples": 1364480, "global_step/max_steps": "5330/12700"}
{"lm loss": 2.11371875, "grad_norm": 0.37074283, "learning_rate": 6.804e-05, "elapsed_time_per_iteration": 4.80434513, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 10s", "remaining_time": "10h 0m 9s", "loss_scale": 1.0, "consumed_samples": 1364736, "global_step/max_steps": "5331/12700"}
{"lm loss": 2.15130663, "grad_norm": 0.34586388, "learning_rate": 6.803e-05, "elapsed_time_per_iteration": 4.85392714, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 15s", "remaining_time": "10h 0m 4s", "loss_scale": 1.0, "consumed_samples": 1364992, "global_step/max_steps": "5332/12700"}
{"lm loss": 2.10889506, "grad_norm": 0.37434936, "learning_rate": 6.802e-05, "elapsed_time_per_iteration": 4.8866353, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 20s", "remaining_time": "9h 59m 59s", "loss_scale": 1.0, "consumed_samples": 1365248, "global_step/max_steps": "5333/12700"}
{"lm loss": 2.08638239, "grad_norm": 0.34713298, "learning_rate": 6.8e-05, "elapsed_time_per_iteration": 4.90142608, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 25s", "remaining_time": "9h 59m 55s", "loss_scale": 1.0, "consumed_samples": 1365504, "global_step/max_steps": "5334/12700"}
{"lm loss": 2.09491372, "grad_norm": 0.35668448, "learning_rate": 6.799e-05, "elapsed_time_per_iteration": 4.82738876, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 30s", "remaining_time": "9h 59m 50s", "loss_scale": 1.0, "consumed_samples": 1365760, "global_step/max_steps": "5335/12700"}
{"lm loss": 2.11226964, "grad_norm": 0.3500123, "learning_rate": 6.798e-05, "elapsed_time_per_iteration": 4.91990042, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 35s", "remaining_time": "9h 59m 45s", "loss_scale": 1.0, "consumed_samples": 1366016, "global_step/max_steps": "5336/12700"}
{"lm loss": 2.15086389, "grad_norm": 0.35838279, "learning_rate": 6.797e-05, "elapsed_time_per_iteration": 4.98967457, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 40s", "remaining_time": "9h 59m 40s", "loss_scale": 1.0, "consumed_samples": 1366272, "global_step/max_steps": "5337/12700"}
{"lm loss": 2.10915923, "grad_norm": 0.37367859, "learning_rate": 6.796e-05, "elapsed_time_per_iteration": 4.98350334, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 45s", "remaining_time": "9h 59m 35s", "loss_scale": 1.0, "consumed_samples": 1366528, "global_step/max_steps": "5338/12700"}
{"lm loss": 2.10582495, "grad_norm": 0.39645484, "learning_rate": 6.794e-05, "elapsed_time_per_iteration": 4.93103909, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 50s", "remaining_time": "9h 59m 30s", "loss_scale": 1.0, "consumed_samples": 1366784, "global_step/max_steps": "5339/12700"}
{"lm loss": 2.08176136, "grad_norm": 0.34827781, "learning_rate": 6.793e-05, "elapsed_time_per_iteration": 4.87688661, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 54s", "remaining_time": "9h 59m 26s", "loss_scale": 1.0, "consumed_samples": 1367040, "global_step/max_steps": "5340/12700"}
{"lm loss": 2.10336304, "grad_norm": 0.41682196, "learning_rate": 6.792e-05, "elapsed_time_per_iteration": 4.85394955, "memory(GiB)": 28.98, "elapsed_time": "7h 14m 59s", "remaining_time": "9h 59m 21s", "loss_scale": 1.0, "consumed_samples": 1367296, "global_step/max_steps": "5341/12700"}
{"lm loss": 2.10922074, "grad_norm": 0.36194012, "learning_rate": 6.791e-05, "elapsed_time_per_iteration": 4.94049573, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 4s", "remaining_time": "9h 59m 16s", "loss_scale": 1.0, "consumed_samples": 1367552, "global_step/max_steps": "5342/12700"}
{"lm loss": 2.12343621, "grad_norm": 0.39184961, "learning_rate": 6.79e-05, "elapsed_time_per_iteration": 4.85786319, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 9s", "remaining_time": "9h 59m 11s", "loss_scale": 1.0, "consumed_samples": 1367808, "global_step/max_steps": "5343/12700"}
{"lm loss": 2.13074708, "grad_norm": 0.37134641, "learning_rate": 6.789e-05, "elapsed_time_per_iteration": 4.81079626, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 14s", "remaining_time": "9h 59m 6s", "loss_scale": 1.0, "consumed_samples": 1368064, "global_step/max_steps": "5344/12700"}
{"lm loss": 2.12026405, "grad_norm": 0.3690007, "learning_rate": 6.787e-05, "elapsed_time_per_iteration": 4.99939394, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 19s", "remaining_time": "9h 59m 1s", "loss_scale": 1.0, "consumed_samples": 1368320, "global_step/max_steps": "5345/12700"}
{"lm loss": 2.1274569, "grad_norm": 0.40490159, "learning_rate": 6.786e-05, "elapsed_time_per_iteration": 4.90133667, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 24s", "remaining_time": "9h 58m 56s", "loss_scale": 1.0, "consumed_samples": 1368576, "global_step/max_steps": "5346/12700"}
{"lm loss": 2.08791995, "grad_norm": 0.35342163, "learning_rate": 6.785e-05, "elapsed_time_per_iteration": 4.88013768, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 29s", "remaining_time": "9h 58m 51s", "loss_scale": 1.0, "consumed_samples": 1368832, "global_step/max_steps": "5347/12700"}
{"lm loss": 2.14233971, "grad_norm": 0.39184812, "learning_rate": 6.784e-05, "elapsed_time_per_iteration": 4.88019896, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 34s", "remaining_time": "9h 58m 46s", "loss_scale": 1.0, "consumed_samples": 1369088, "global_step/max_steps": "5348/12700"}
{"lm loss": 2.08716869, "grad_norm": 0.35676843, "learning_rate": 6.783e-05, "elapsed_time_per_iteration": 4.9034524, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 38s", "remaining_time": "9h 58m 42s", "loss_scale": 1.0, "consumed_samples": 1369344, "global_step/max_steps": "5349/12700"}
{"lm loss": 2.10514092, "grad_norm": 0.34572607, "learning_rate": 6.781e-05, "elapsed_time_per_iteration": 4.93923688, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 43s", "remaining_time": "9h 58m 37s", "loss_scale": 1.0, "consumed_samples": 1369600, "global_step/max_steps": "5350/12700"}
{"lm loss": 2.09009433, "grad_norm": 0.34365821, "learning_rate": 6.78e-05, "elapsed_time_per_iteration": 4.88813567, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 48s", "remaining_time": "9h 58m 32s", "loss_scale": 1.0, "consumed_samples": 1369856, "global_step/max_steps": "5351/12700"}
{"lm loss": 2.0874846, "grad_norm": 0.36686951, "learning_rate": 6.779e-05, "elapsed_time_per_iteration": 4.8723135, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 53s", "remaining_time": "9h 58m 27s", "loss_scale": 1.0, "consumed_samples": 1370112, "global_step/max_steps": "5352/12700"}
{"lm loss": 2.12395215, "grad_norm": 0.39296719, "learning_rate": 6.778e-05, "elapsed_time_per_iteration": 4.87470174, "memory(GiB)": 28.98, "elapsed_time": "7h 15m 58s", "remaining_time": "9h 58m 22s", "loss_scale": 1.0, "consumed_samples": 1370368, "global_step/max_steps": "5353/12700"}
{"lm loss": 2.11721683, "grad_norm": 0.36647868, "learning_rate": 6.777e-05, "elapsed_time_per_iteration": 4.92624664, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 3s", "remaining_time": "9h 58m 17s", "loss_scale": 1.0, "consumed_samples": 1370624, "global_step/max_steps": "5354/12700"}
{"lm loss": 2.11859536, "grad_norm": 0.3738803, "learning_rate": 6.775e-05, "elapsed_time_per_iteration": 4.96370673, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 8s", "remaining_time": "9h 58m 12s", "loss_scale": 1.0, "consumed_samples": 1370880, "global_step/max_steps": "5355/12700"}
{"lm loss": 2.10812402, "grad_norm": 0.36667109, "learning_rate": 6.774e-05, "elapsed_time_per_iteration": 4.83045292, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 13s", "remaining_time": "9h 58m 8s", "loss_scale": 1.0, "consumed_samples": 1371136, "global_step/max_steps": "5356/12700"}
{"lm loss": 2.11133122, "grad_norm": 0.40865833, "learning_rate": 6.773e-05, "elapsed_time_per_iteration": 4.93593884, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 18s", "remaining_time": "9h 58m 3s", "loss_scale": 1.0, "consumed_samples": 1371392, "global_step/max_steps": "5357/12700"}
{"lm loss": 2.10965753, "grad_norm": 0.37335411, "learning_rate": 6.772e-05, "elapsed_time_per_iteration": 4.97720671, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 23s", "remaining_time": "9h 57m 58s", "loss_scale": 1.0, "consumed_samples": 1371648, "global_step/max_steps": "5358/12700"}
{"lm loss": 2.12454891, "grad_norm": 0.38679168, "learning_rate": 6.771e-05, "elapsed_time_per_iteration": 4.87640142, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 28s", "remaining_time": "9h 57m 53s", "loss_scale": 1.0, "consumed_samples": 1371904, "global_step/max_steps": "5359/12700"}
{"lm loss": 2.10872626, "grad_norm": 0.37356949, "learning_rate": 6.77e-05, "elapsed_time_per_iteration": 4.89197016, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 32s", "remaining_time": "9h 57m 48s", "loss_scale": 1.0, "consumed_samples": 1372160, "global_step/max_steps": "5360/12700"}
{"lm loss": 2.11143255, "grad_norm": 0.39718634, "learning_rate": 6.768e-05, "elapsed_time_per_iteration": 4.93158698, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 37s", "remaining_time": "9h 57m 43s", "loss_scale": 1.0, "consumed_samples": 1372416, "global_step/max_steps": "5361/12700"}
{"lm loss": 2.11785436, "grad_norm": 0.37252873, "learning_rate": 6.767e-05, "elapsed_time_per_iteration": 4.84901214, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 42s", "remaining_time": "9h 57m 38s", "loss_scale": 1.0, "consumed_samples": 1372672, "global_step/max_steps": "5362/12700"}
{"lm loss": 2.1617682, "grad_norm": 0.4263525, "learning_rate": 6.766e-05, "elapsed_time_per_iteration": 4.93661857, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 47s", "remaining_time": "9h 57m 34s", "loss_scale": 1.0, "consumed_samples": 1372928, "global_step/max_steps": "5363/12700"}
{"lm loss": 2.08679152, "grad_norm": 0.34813771, "learning_rate": 6.765e-05, "elapsed_time_per_iteration": 4.94070482, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 52s", "remaining_time": "9h 57m 29s", "loss_scale": 1.0, "consumed_samples": 1373184, "global_step/max_steps": "5364/12700"}
{"lm loss": 2.07786918, "grad_norm": 0.3960304, "learning_rate": 6.764e-05, "elapsed_time_per_iteration": 4.84662271, "memory(GiB)": 28.98, "elapsed_time": "7h 16m 57s", "remaining_time": "9h 57m 24s", "loss_scale": 1.0, "consumed_samples": 1373440, "global_step/max_steps": "5365/12700"}
{"lm loss": 2.11879015, "grad_norm": 0.36758071, "learning_rate": 6.762e-05, "elapsed_time_per_iteration": 4.8487885, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 2s", "remaining_time": "9h 57m 19s", "loss_scale": 1.0, "consumed_samples": 1373696, "global_step/max_steps": "5366/12700"}
{"lm loss": 2.11565232, "grad_norm": 0.35206348, "learning_rate": 6.761e-05, "elapsed_time_per_iteration": 4.97947836, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 7s", "remaining_time": "9h 57m 14s", "loss_scale": 1.0, "consumed_samples": 1373952, "global_step/max_steps": "5367/12700"}
{"lm loss": 2.12047958, "grad_norm": 0.3738561, "learning_rate": 6.76e-05, "elapsed_time_per_iteration": 4.90784955, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 12s", "remaining_time": "9h 57m 9s", "loss_scale": 1.0, "consumed_samples": 1374208, "global_step/max_steps": "5368/12700"}
{"lm loss": 2.11982083, "grad_norm": 0.353183, "learning_rate": 6.759e-05, "elapsed_time_per_iteration": 4.83400583, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 16s", "remaining_time": "9h 57m 4s", "loss_scale": 1.0, "consumed_samples": 1374464, "global_step/max_steps": "5369/12700"}
{"lm loss": 2.0961504, "grad_norm": 0.37603471, "learning_rate": 6.758e-05, "elapsed_time_per_iteration": 4.99916577, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 21s", "remaining_time": "9h 57m 0s", "loss_scale": 1.0, "consumed_samples": 1374720, "global_step/max_steps": "5370/12700"}
{"lm loss": 2.06189084, "grad_norm": 0.37132552, "learning_rate": 6.756e-05, "elapsed_time_per_iteration": 4.80364013, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 26s", "remaining_time": "9h 56m 55s", "loss_scale": 1.0, "consumed_samples": 1374976, "global_step/max_steps": "5371/12700"}
{"lm loss": 2.11459231, "grad_norm": 0.3588587, "learning_rate": 6.755e-05, "elapsed_time_per_iteration": 4.83728051, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 31s", "remaining_time": "9h 56m 50s", "loss_scale": 1.0, "consumed_samples": 1375232, "global_step/max_steps": "5372/12700"}
{"lm loss": 2.10683846, "grad_norm": 0.35635075, "learning_rate": 6.754e-05, "elapsed_time_per_iteration": 4.96966147, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 36s", "remaining_time": "9h 56m 45s", "loss_scale": 1.0, "consumed_samples": 1375488, "global_step/max_steps": "5373/12700"}
{"lm loss": 2.09515071, "grad_norm": 0.337789, "learning_rate": 6.753e-05, "elapsed_time_per_iteration": 4.87951279, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 41s", "remaining_time": "9h 56m 40s", "loss_scale": 1.0, "consumed_samples": 1375744, "global_step/max_steps": "5374/12700"}
{"lm loss": 2.11908531, "grad_norm": 0.37000486, "learning_rate": 6.752e-05, "elapsed_time_per_iteration": 4.77420282, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 46s", "remaining_time": "9h 56m 35s", "loss_scale": 1.0, "consumed_samples": 1376000, "global_step/max_steps": "5375/12700"}
{"lm loss": 2.10993195, "grad_norm": 0.35248771, "learning_rate": 6.75e-05, "elapsed_time_per_iteration": 4.76304221, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 51s", "remaining_time": "9h 56m 30s", "loss_scale": 1.0, "consumed_samples": 1376256, "global_step/max_steps": "5376/12700"}
{"lm loss": 2.12660599, "grad_norm": 0.37625396, "learning_rate": 6.749e-05, "elapsed_time_per_iteration": 4.89955258, "memory(GiB)": 28.98, "elapsed_time": "7h 17m 55s", "remaining_time": "9h 56m 25s", "loss_scale": 1.0, "consumed_samples": 1376512, "global_step/max_steps": "5377/12700"}
{"lm loss": 2.09051704, "grad_norm": 0.34341747, "learning_rate": 6.748e-05, "elapsed_time_per_iteration": 4.98885751, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 0s", "remaining_time": "9h 56m 20s", "loss_scale": 1.0, "consumed_samples": 1376768, "global_step/max_steps": "5378/12700"}
{"lm loss": 2.10528159, "grad_norm": 0.38551694, "learning_rate": 6.747e-05, "elapsed_time_per_iteration": 4.82937312, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 5s", "remaining_time": "9h 56m 15s", "loss_scale": 1.0, "consumed_samples": 1377024, "global_step/max_steps": "5379/12700"}
{"lm loss": 2.14952993, "grad_norm": 0.36953595, "learning_rate": 6.746e-05, "elapsed_time_per_iteration": 4.87308502, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 10s", "remaining_time": "9h 56m 10s", "loss_scale": 1.0, "consumed_samples": 1377280, "global_step/max_steps": "5380/12700"}
{"lm loss": 2.14180636, "grad_norm": 0.36763248, "learning_rate": 6.744e-05, "elapsed_time_per_iteration": 4.82432222, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 15s", "remaining_time": "9h 56m 5s", "loss_scale": 1.0, "consumed_samples": 1377536, "global_step/max_steps": "5381/12700"}
{"lm loss": 2.09842467, "grad_norm": 0.36905479, "learning_rate": 6.743e-05, "elapsed_time_per_iteration": 4.948982, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 20s", "remaining_time": "9h 56m 1s", "loss_scale": 1.0, "consumed_samples": 1377792, "global_step/max_steps": "5382/12700"}
{"lm loss": 2.10697556, "grad_norm": 0.36320519, "learning_rate": 6.742e-05, "elapsed_time_per_iteration": 4.81856847, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 25s", "remaining_time": "9h 55m 56s", "loss_scale": 1.0, "consumed_samples": 1378048, "global_step/max_steps": "5383/12700"}
{"lm loss": 2.12838769, "grad_norm": 0.38616484, "learning_rate": 6.741e-05, "elapsed_time_per_iteration": 4.83950877, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 30s", "remaining_time": "9h 55m 51s", "loss_scale": 1.0, "consumed_samples": 1378304, "global_step/max_steps": "5384/12700"}
{"lm loss": 2.1069479, "grad_norm": 0.35064954, "learning_rate": 6.74e-05, "elapsed_time_per_iteration": 4.86612248, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 34s", "remaining_time": "9h 55m 46s", "loss_scale": 1.0, "consumed_samples": 1378560, "global_step/max_steps": "5385/12700"}
{"lm loss": 2.14733171, "grad_norm": 0.3717739, "learning_rate": 6.739e-05, "elapsed_time_per_iteration": 4.82884121, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 39s", "remaining_time": "9h 55m 41s", "loss_scale": 1.0, "consumed_samples": 1378816, "global_step/max_steps": "5386/12700"}
{"lm loss": 2.12562418, "grad_norm": 0.37172034, "learning_rate": 6.737e-05, "elapsed_time_per_iteration": 4.89140511, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 44s", "remaining_time": "9h 55m 36s", "loss_scale": 1.0, "consumed_samples": 1379072, "global_step/max_steps": "5387/12700"}
{"lm loss": 2.10884595, "grad_norm": 0.35216311, "learning_rate": 6.736e-05, "elapsed_time_per_iteration": 4.76689386, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 49s", "remaining_time": "9h 55m 31s", "loss_scale": 1.0, "consumed_samples": 1379328, "global_step/max_steps": "5388/12700"}
{"lm loss": 2.08333421, "grad_norm": 0.37300339, "learning_rate": 6.735e-05, "elapsed_time_per_iteration": 4.93529153, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 54s", "remaining_time": "9h 55m 26s", "loss_scale": 1.0, "consumed_samples": 1379584, "global_step/max_steps": "5389/12700"}
{"lm loss": 2.10187125, "grad_norm": 0.36814097, "learning_rate": 6.734e-05, "elapsed_time_per_iteration": 4.8565464, "memory(GiB)": 28.98, "elapsed_time": "7h 18m 59s", "remaining_time": "9h 55m 21s", "loss_scale": 1.0, "consumed_samples": 1379840, "global_step/max_steps": "5390/12700"}
{"lm loss": 2.1090312, "grad_norm": 0.34996364, "learning_rate": 6.733e-05, "elapsed_time_per_iteration": 4.87201095, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 4s", "remaining_time": "9h 55m 16s", "loss_scale": 1.0, "consumed_samples": 1380096, "global_step/max_steps": "5391/12700"}
{"lm loss": 2.09919477, "grad_norm": 0.40168872, "learning_rate": 6.731e-05, "elapsed_time_per_iteration": 4.85170174, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 8s", "remaining_time": "9h 55m 11s", "loss_scale": 1.0, "consumed_samples": 1380352, "global_step/max_steps": "5392/12700"}
{"lm loss": 2.13206887, "grad_norm": 0.35272726, "learning_rate": 6.73e-05, "elapsed_time_per_iteration": 4.92358327, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 13s", "remaining_time": "9h 55m 6s", "loss_scale": 1.0, "consumed_samples": 1380608, "global_step/max_steps": "5393/12700"}
{"lm loss": 2.12563443, "grad_norm": 0.39510146, "learning_rate": 6.729e-05, "elapsed_time_per_iteration": 5.02862692, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 18s", "remaining_time": "9h 55m 2s", "loss_scale": 1.0, "consumed_samples": 1380864, "global_step/max_steps": "5394/12700"}
{"lm loss": 2.09609818, "grad_norm": 0.36164325, "learning_rate": 6.728e-05, "elapsed_time_per_iteration": 4.81752396, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 23s", "remaining_time": "9h 54m 57s", "loss_scale": 1.0, "consumed_samples": 1381120, "global_step/max_steps": "5395/12700"}
{"lm loss": 2.10689688, "grad_norm": 0.38171068, "learning_rate": 6.727e-05, "elapsed_time_per_iteration": 4.83731341, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 28s", "remaining_time": "9h 54m 52s", "loss_scale": 1.0, "consumed_samples": 1381376, "global_step/max_steps": "5396/12700"}
{"lm loss": 2.13752007, "grad_norm": 0.36076328, "learning_rate": 6.725e-05, "elapsed_time_per_iteration": 4.87571907, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 33s", "remaining_time": "9h 54m 47s", "loss_scale": 1.0, "consumed_samples": 1381632, "global_step/max_steps": "5397/12700"}
{"lm loss": 2.09363484, "grad_norm": 0.38641277, "learning_rate": 6.724e-05, "elapsed_time_per_iteration": 4.79687858, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 38s", "remaining_time": "9h 54m 42s", "loss_scale": 1.0, "consumed_samples": 1381888, "global_step/max_steps": "5398/12700"}
{"lm loss": 2.12130332, "grad_norm": 0.36267477, "learning_rate": 6.723e-05, "elapsed_time_per_iteration": 4.74477124, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 42s", "remaining_time": "9h 54m 37s", "loss_scale": 1.0, "consumed_samples": 1382144, "global_step/max_steps": "5399/12700"}
{"lm loss": 2.14677405, "grad_norm": 0.36433634, "learning_rate": 6.722e-05, "elapsed_time_per_iteration": 4.92996526, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 47s", "remaining_time": "9h 54m 32s", "loss_scale": 1.0, "consumed_samples": 1382400, "global_step/max_steps": "5400/12700"}
{"lm loss": 2.10548568, "grad_norm": 0.35708129, "learning_rate": 6.721e-05, "elapsed_time_per_iteration": 4.98724008, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 52s", "remaining_time": "9h 54m 27s", "loss_scale": 1.0, "consumed_samples": 1382656, "global_step/max_steps": "5401/12700"}
{"lm loss": 2.12565851, "grad_norm": 0.36562213, "learning_rate": 6.719e-05, "elapsed_time_per_iteration": 4.88107419, "memory(GiB)": 28.98, "elapsed_time": "7h 19m 57s", "remaining_time": "9h 54m 22s", "loss_scale": 1.0, "consumed_samples": 1382912, "global_step/max_steps": "5402/12700"}
{"lm loss": 2.12406182, "grad_norm": 0.36820206, "learning_rate": 6.718e-05, "elapsed_time_per_iteration": 4.86304665, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 2s", "remaining_time": "9h 54m 17s", "loss_scale": 1.0, "consumed_samples": 1383168, "global_step/max_steps": "5403/12700"}
{"lm loss": 2.09878397, "grad_norm": 0.37539789, "learning_rate": 6.717e-05, "elapsed_time_per_iteration": 4.79595399, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 7s", "remaining_time": "9h 54m 12s", "loss_scale": 1.0, "consumed_samples": 1383424, "global_step/max_steps": "5404/12700"}
{"lm loss": 2.12247205, "grad_norm": 0.37358177, "learning_rate": 6.716e-05, "elapsed_time_per_iteration": 4.89702368, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 12s", "remaining_time": "9h 54m 8s", "loss_scale": 1.0, "consumed_samples": 1383680, "global_step/max_steps": "5405/12700"}
{"lm loss": 2.10658288, "grad_norm": 0.373454, "learning_rate": 6.715e-05, "elapsed_time_per_iteration": 4.85453582, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 17s", "remaining_time": "9h 54m 3s", "loss_scale": 1.0, "consumed_samples": 1383936, "global_step/max_steps": "5406/12700"}
{"lm loss": 2.12696028, "grad_norm": 0.36985201, "learning_rate": 6.713e-05, "elapsed_time_per_iteration": 4.85294604, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 21s", "remaining_time": "9h 53m 58s", "loss_scale": 1.0, "consumed_samples": 1384192, "global_step/max_steps": "5407/12700"}
{"lm loss": 2.11176038, "grad_norm": 0.35949069, "learning_rate": 6.712e-05, "elapsed_time_per_iteration": 4.91247749, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 26s", "remaining_time": "9h 53m 53s", "loss_scale": 1.0, "consumed_samples": 1384448, "global_step/max_steps": "5408/12700"}
{"lm loss": 2.08614206, "grad_norm": 0.38858873, "learning_rate": 6.711e-05, "elapsed_time_per_iteration": 4.83644676, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 31s", "remaining_time": "9h 53m 48s", "loss_scale": 1.0, "consumed_samples": 1384704, "global_step/max_steps": "5409/12700"}
{"lm loss": 2.12245846, "grad_norm": 0.38679725, "learning_rate": 6.71e-05, "elapsed_time_per_iteration": 4.83940649, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 36s", "remaining_time": "9h 53m 43s", "loss_scale": 1.0, "consumed_samples": 1384960, "global_step/max_steps": "5410/12700"}
{"lm loss": 2.1151948, "grad_norm": 0.3700524, "learning_rate": 6.709e-05, "elapsed_time_per_iteration": 4.92262125, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 41s", "remaining_time": "9h 53m 38s", "loss_scale": 1.0, "consumed_samples": 1385216, "global_step/max_steps": "5411/12700"}
{"lm loss": 2.09652829, "grad_norm": 0.37165797, "learning_rate": 6.707e-05, "elapsed_time_per_iteration": 4.86332583, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 46s", "remaining_time": "9h 53m 33s", "loss_scale": 1.0, "consumed_samples": 1385472, "global_step/max_steps": "5412/12700"}
{"lm loss": 2.110888, "grad_norm": 0.34796807, "learning_rate": 6.706e-05, "elapsed_time_per_iteration": 4.90103602, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 51s", "remaining_time": "9h 53m 28s", "loss_scale": 1.0, "consumed_samples": 1385728, "global_step/max_steps": "5413/12700"}
{"lm loss": 2.06615543, "grad_norm": 0.37433875, "learning_rate": 6.705e-05, "elapsed_time_per_iteration": 4.85557294, "memory(GiB)": 28.98, "elapsed_time": "7h 20m 56s", "remaining_time": "9h 53m 23s", "loss_scale": 1.0, "consumed_samples": 1385984, "global_step/max_steps": "5414/12700"}
{"lm loss": 2.08372116, "grad_norm": 0.36934489, "learning_rate": 6.704e-05, "elapsed_time_per_iteration": 4.78165507, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 0s", "remaining_time": "9h 53m 18s", "loss_scale": 1.0, "consumed_samples": 1386240, "global_step/max_steps": "5415/12700"}
{"lm loss": 2.14218497, "grad_norm": 0.36002904, "learning_rate": 6.703e-05, "elapsed_time_per_iteration": 4.87702632, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 5s", "remaining_time": "9h 53m 13s", "loss_scale": 1.0, "consumed_samples": 1386496, "global_step/max_steps": "5416/12700"}
{"lm loss": 2.09003687, "grad_norm": 0.36156246, "learning_rate": 6.701e-05, "elapsed_time_per_iteration": 4.94080281, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 10s", "remaining_time": "9h 53m 9s", "loss_scale": 1.0, "consumed_samples": 1386752, "global_step/max_steps": "5417/12700"}
{"lm loss": 2.16274619, "grad_norm": 0.36803901, "learning_rate": 6.7e-05, "elapsed_time_per_iteration": 4.95507216, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 15s", "remaining_time": "9h 53m 4s", "loss_scale": 1.0, "consumed_samples": 1387008, "global_step/max_steps": "5418/12700"}
{"lm loss": 2.12284064, "grad_norm": 0.37056527, "learning_rate": 6.699e-05, "elapsed_time_per_iteration": 4.86636186, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 20s", "remaining_time": "9h 52m 59s", "loss_scale": 1.0, "consumed_samples": 1387264, "global_step/max_steps": "5419/12700"}
{"lm loss": 2.12447953, "grad_norm": 0.41128993, "learning_rate": 6.698e-05, "elapsed_time_per_iteration": 4.81547546, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 25s", "remaining_time": "9h 52m 54s", "loss_scale": 1.0, "consumed_samples": 1387520, "global_step/max_steps": "5420/12700"}
{"lm loss": 2.07108498, "grad_norm": 0.38996267, "learning_rate": 6.697e-05, "elapsed_time_per_iteration": 5.03882265, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 30s", "remaining_time": "9h 52m 49s", "loss_scale": 1.0, "consumed_samples": 1387776, "global_step/max_steps": "5421/12700"}
{"lm loss": 2.11057901, "grad_norm": 0.36932817, "learning_rate": 6.695e-05, "elapsed_time_per_iteration": 4.83818817, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 35s", "remaining_time": "9h 52m 44s", "loss_scale": 1.0, "consumed_samples": 1388032, "global_step/max_steps": "5422/12700"}
{"lm loss": 2.11879587, "grad_norm": 0.40984336, "learning_rate": 6.694e-05, "elapsed_time_per_iteration": 4.80084133, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 40s", "remaining_time": "9h 52m 39s", "loss_scale": 1.0, "consumed_samples": 1388288, "global_step/max_steps": "5423/12700"}
{"lm loss": 2.1126864, "grad_norm": 0.37123892, "learning_rate": 6.693e-05, "elapsed_time_per_iteration": 4.92368531, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 44s", "remaining_time": "9h 52m 34s", "loss_scale": 1.0, "consumed_samples": 1388544, "global_step/max_steps": "5424/12700"}
{"lm loss": 2.1026144, "grad_norm": 0.39353484, "learning_rate": 6.692e-05, "elapsed_time_per_iteration": 4.84486794, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 49s", "remaining_time": "9h 52m 30s", "loss_scale": 1.0, "consumed_samples": 1388800, "global_step/max_steps": "5425/12700"}
{"lm loss": 2.10715985, "grad_norm": 0.41884854, "learning_rate": 6.691e-05, "elapsed_time_per_iteration": 4.79838419, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 54s", "remaining_time": "9h 52m 25s", "loss_scale": 1.0, "consumed_samples": 1389056, "global_step/max_steps": "5426/12700"}
{"lm loss": 2.12544584, "grad_norm": 0.38480964, "learning_rate": 6.69e-05, "elapsed_time_per_iteration": 4.86171961, "memory(GiB)": 28.98, "elapsed_time": "7h 21m 59s", "remaining_time": "9h 52m 20s", "loss_scale": 1.0, "consumed_samples": 1389312, "global_step/max_steps": "5427/12700"}
{"lm loss": 2.08649206, "grad_norm": 0.36097068, "learning_rate": 6.688e-05, "elapsed_time_per_iteration": 4.83783817, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 4s", "remaining_time": "9h 52m 15s", "loss_scale": 1.0, "consumed_samples": 1389568, "global_step/max_steps": "5428/12700"}
{"lm loss": 2.10090685, "grad_norm": 0.42763704, "learning_rate": 6.687e-05, "elapsed_time_per_iteration": 4.87911892, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 9s", "remaining_time": "9h 52m 10s", "loss_scale": 1.0, "consumed_samples": 1389824, "global_step/max_steps": "5429/12700"}
{"lm loss": 2.0870738, "grad_norm": 0.37363869, "learning_rate": 6.686e-05, "elapsed_time_per_iteration": 4.88531041, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 14s", "remaining_time": "9h 52m 5s", "loss_scale": 1.0, "consumed_samples": 1390080, "global_step/max_steps": "5430/12700"}
{"lm loss": 2.12850761, "grad_norm": 0.37307853, "learning_rate": 6.685e-05, "elapsed_time_per_iteration": 4.92587757, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 18s", "remaining_time": "9h 52m 0s", "loss_scale": 1.0, "consumed_samples": 1390336, "global_step/max_steps": "5431/12700"}
{"lm loss": 2.07376695, "grad_norm": 0.37826508, "learning_rate": 6.684e-05, "elapsed_time_per_iteration": 4.77301478, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 23s", "remaining_time": "9h 51m 55s", "loss_scale": 1.0, "consumed_samples": 1390592, "global_step/max_steps": "5432/12700"}
{"lm loss": 2.12566376, "grad_norm": 0.37388062, "learning_rate": 6.682e-05, "elapsed_time_per_iteration": 4.8773067, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 28s", "remaining_time": "9h 51m 50s", "loss_scale": 1.0, "consumed_samples": 1390848, "global_step/max_steps": "5433/12700"}
{"lm loss": 2.08172083, "grad_norm": 0.38456941, "learning_rate": 6.681e-05, "elapsed_time_per_iteration": 4.85734749, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 33s", "remaining_time": "9h 51m 45s", "loss_scale": 1.0, "consumed_samples": 1391104, "global_step/max_steps": "5434/12700"}
{"lm loss": 2.1003387, "grad_norm": 0.37692356, "learning_rate": 6.68e-05, "elapsed_time_per_iteration": 4.96670318, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 38s", "remaining_time": "9h 51m 40s", "loss_scale": 1.0, "consumed_samples": 1391360, "global_step/max_steps": "5435/12700"}
{"lm loss": 2.06803775, "grad_norm": 0.40106976, "learning_rate": 6.679e-05, "elapsed_time_per_iteration": 4.84656119, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 43s", "remaining_time": "9h 51m 35s", "loss_scale": 1.0, "consumed_samples": 1391616, "global_step/max_steps": "5436/12700"}
{"lm loss": 2.13674617, "grad_norm": 0.38789517, "learning_rate": 6.678e-05, "elapsed_time_per_iteration": 4.88947678, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 48s", "remaining_time": "9h 51m 31s", "loss_scale": 1.0, "consumed_samples": 1391872, "global_step/max_steps": "5437/12700"}
{"lm loss": 2.11299133, "grad_norm": 0.3555367, "learning_rate": 6.676e-05, "elapsed_time_per_iteration": 4.83832026, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 53s", "remaining_time": "9h 51m 26s", "loss_scale": 1.0, "consumed_samples": 1392128, "global_step/max_steps": "5438/12700"}
{"lm loss": 2.11319923, "grad_norm": 0.38141805, "learning_rate": 6.675e-05, "elapsed_time_per_iteration": 4.86156225, "memory(GiB)": 28.98, "elapsed_time": "7h 22m 57s", "remaining_time": "9h 51m 21s", "loss_scale": 1.0, "consumed_samples": 1392384, "global_step/max_steps": "5439/12700"}
{"lm loss": 2.12041712, "grad_norm": 0.38928574, "learning_rate": 6.674e-05, "elapsed_time_per_iteration": 4.93477774, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 2s", "remaining_time": "9h 51m 16s", "loss_scale": 1.0, "consumed_samples": 1392640, "global_step/max_steps": "5440/12700"}
{"lm loss": 2.13342094, "grad_norm": 0.35761851, "learning_rate": 6.673e-05, "elapsed_time_per_iteration": 4.91405392, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 7s", "remaining_time": "9h 51m 11s", "loss_scale": 1.0, "consumed_samples": 1392896, "global_step/max_steps": "5441/12700"}
{"lm loss": 2.06697774, "grad_norm": 0.37311065, "learning_rate": 6.672e-05, "elapsed_time_per_iteration": 4.84411335, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 12s", "remaining_time": "9h 51m 6s", "loss_scale": 1.0, "consumed_samples": 1393152, "global_step/max_steps": "5442/12700"}
{"lm loss": 2.06612897, "grad_norm": 0.39377454, "learning_rate": 6.67e-05, "elapsed_time_per_iteration": 4.88458252, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 17s", "remaining_time": "9h 51m 1s", "loss_scale": 1.0, "consumed_samples": 1393408, "global_step/max_steps": "5443/12700"}
{"lm loss": 2.11877131, "grad_norm": 0.36667848, "learning_rate": 6.669e-05, "elapsed_time_per_iteration": 4.8479917, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 22s", "remaining_time": "9h 50m 56s", "loss_scale": 1.0, "consumed_samples": 1393664, "global_step/max_steps": "5444/12700"}
{"lm loss": 2.08597946, "grad_norm": 0.40188617, "learning_rate": 6.668e-05, "elapsed_time_per_iteration": 4.82316613, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 27s", "remaining_time": "9h 50m 51s", "loss_scale": 1.0, "consumed_samples": 1393920, "global_step/max_steps": "5445/12700"}
{"lm loss": 2.13526917, "grad_norm": 0.40149018, "learning_rate": 6.667e-05, "elapsed_time_per_iteration": 4.87783742, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 32s", "remaining_time": "9h 50m 46s", "loss_scale": 1.0, "consumed_samples": 1394176, "global_step/max_steps": "5446/12700"}
{"lm loss": 2.0747385, "grad_norm": 0.38745451, "learning_rate": 6.666e-05, "elapsed_time_per_iteration": 4.84281111, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 36s", "remaining_time": "9h 50m 41s", "loss_scale": 1.0, "consumed_samples": 1394432, "global_step/max_steps": "5447/12700"}
{"lm loss": 2.12845588, "grad_norm": 0.38873348, "learning_rate": 6.664e-05, "elapsed_time_per_iteration": 4.90426517, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 41s", "remaining_time": "9h 50m 37s", "loss_scale": 1.0, "consumed_samples": 1394688, "global_step/max_steps": "5448/12700"}
{"lm loss": 2.12382269, "grad_norm": 0.39085662, "learning_rate": 6.663e-05, "elapsed_time_per_iteration": 4.87694263, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 46s", "remaining_time": "9h 50m 32s", "loss_scale": 1.0, "consumed_samples": 1394944, "global_step/max_steps": "5449/12700"}
{"lm loss": 2.10541534, "grad_norm": 0.42733374, "learning_rate": 6.662e-05, "elapsed_time_per_iteration": 4.84480524, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 51s", "remaining_time": "9h 50m 27s", "loss_scale": 1.0, "consumed_samples": 1395200, "global_step/max_steps": "5450/12700"}
{"lm loss": 2.11510444, "grad_norm": 0.38677517, "learning_rate": 6.661e-05, "elapsed_time_per_iteration": 4.8444953, "memory(GiB)": 28.98, "elapsed_time": "7h 23m 56s", "remaining_time": "9h 50m 22s", "loss_scale": 1.0, "consumed_samples": 1395456, "global_step/max_steps": "5451/12700"}
{"lm loss": 2.08804226, "grad_norm": 0.41243696, "learning_rate": 6.66e-05, "elapsed_time_per_iteration": 4.82306004, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 1s", "remaining_time": "9h 50m 17s", "loss_scale": 1.0, "consumed_samples": 1395712, "global_step/max_steps": "5452/12700"}
{"lm loss": 2.0816443, "grad_norm": 0.3904942, "learning_rate": 6.658e-05, "elapsed_time_per_iteration": 4.87243366, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 6s", "remaining_time": "9h 50m 12s", "loss_scale": 1.0, "consumed_samples": 1395968, "global_step/max_steps": "5453/12700"}
{"lm loss": 2.11155081, "grad_norm": 0.37182608, "learning_rate": 6.657e-05, "elapsed_time_per_iteration": 4.88083529, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 10s", "remaining_time": "9h 50m 7s", "loss_scale": 1.0, "consumed_samples": 1396224, "global_step/max_steps": "5454/12700"}
{"lm loss": 2.07303596, "grad_norm": 0.38714585, "learning_rate": 6.656e-05, "elapsed_time_per_iteration": 4.8972199, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 15s", "remaining_time": "9h 50m 2s", "loss_scale": 1.0, "consumed_samples": 1396480, "global_step/max_steps": "5455/12700"}
{"lm loss": 2.10915947, "grad_norm": 0.35235757, "learning_rate": 6.655e-05, "elapsed_time_per_iteration": 4.8710413, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 20s", "remaining_time": "9h 49m 57s", "loss_scale": 1.0, "consumed_samples": 1396736, "global_step/max_steps": "5456/12700"}
{"lm loss": 2.11940503, "grad_norm": 0.39339358, "learning_rate": 6.654e-05, "elapsed_time_per_iteration": 4.82765079, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 25s", "remaining_time": "9h 49m 52s", "loss_scale": 1.0, "consumed_samples": 1396992, "global_step/max_steps": "5457/12700"}
{"lm loss": 2.09643221, "grad_norm": 0.39903787, "learning_rate": 6.652e-05, "elapsed_time_per_iteration": 4.84154892, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 30s", "remaining_time": "9h 49m 47s", "loss_scale": 1.0, "consumed_samples": 1397248, "global_step/max_steps": "5458/12700"}
{"lm loss": 2.08025575, "grad_norm": 0.37592858, "learning_rate": 6.651e-05, "elapsed_time_per_iteration": 4.94916582, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 35s", "remaining_time": "9h 49m 43s", "loss_scale": 1.0, "consumed_samples": 1397504, "global_step/max_steps": "5459/12700"}
{"lm loss": 2.10536456, "grad_norm": 0.36882898, "learning_rate": 6.65e-05, "elapsed_time_per_iteration": 4.86486101, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 40s", "remaining_time": "9h 49m 38s", "loss_scale": 1.0, "consumed_samples": 1397760, "global_step/max_steps": "5460/12700"}
{"lm loss": 2.09896421, "grad_norm": 0.38256142, "learning_rate": 6.649e-05, "elapsed_time_per_iteration": 4.90393686, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 45s", "remaining_time": "9h 49m 33s", "loss_scale": 1.0, "consumed_samples": 1398016, "global_step/max_steps": "5461/12700"}
{"lm loss": 2.11334229, "grad_norm": 0.35855207, "learning_rate": 6.648e-05, "elapsed_time_per_iteration": 4.86693454, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 49s", "remaining_time": "9h 49m 28s", "loss_scale": 1.0, "consumed_samples": 1398272, "global_step/max_steps": "5462/12700"}
{"lm loss": 2.11220193, "grad_norm": 0.39104143, "learning_rate": 6.646e-05, "elapsed_time_per_iteration": 4.85086799, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 54s", "remaining_time": "9h 49m 23s", "loss_scale": 1.0, "consumed_samples": 1398528, "global_step/max_steps": "5463/12700"}
{"lm loss": 2.07502198, "grad_norm": 0.34688807, "learning_rate": 6.645e-05, "elapsed_time_per_iteration": 4.92200994, "memory(GiB)": 28.98, "elapsed_time": "7h 24m 59s", "remaining_time": "9h 49m 18s", "loss_scale": 1.0, "consumed_samples": 1398784, "global_step/max_steps": "5464/12700"}
{"lm loss": 2.13273358, "grad_norm": 0.37525538, "learning_rate": 6.644e-05, "elapsed_time_per_iteration": 4.81315851, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 4s", "remaining_time": "9h 49m 13s", "loss_scale": 1.0, "consumed_samples": 1399040, "global_step/max_steps": "5465/12700"}
{"lm loss": 2.1041441, "grad_norm": 0.38116217, "learning_rate": 6.643e-05, "elapsed_time_per_iteration": 4.88706899, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 9s", "remaining_time": "9h 49m 8s", "loss_scale": 1.0, "consumed_samples": 1399296, "global_step/max_steps": "5466/12700"}
{"lm loss": 2.11661434, "grad_norm": 0.35904938, "learning_rate": 6.642e-05, "elapsed_time_per_iteration": 4.90095067, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 14s", "remaining_time": "9h 49m 3s", "loss_scale": 1.0, "consumed_samples": 1399552, "global_step/max_steps": "5467/12700"}
{"lm loss": 2.10784221, "grad_norm": 0.37950468, "learning_rate": 6.64e-05, "elapsed_time_per_iteration": 4.90138316, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 19s", "remaining_time": "9h 48m 58s", "loss_scale": 1.0, "consumed_samples": 1399808, "global_step/max_steps": "5468/12700"}
{"lm loss": 2.11103034, "grad_norm": 0.35346451, "learning_rate": 6.639e-05, "elapsed_time_per_iteration": 4.87514544, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 24s", "remaining_time": "9h 48m 54s", "loss_scale": 1.0, "consumed_samples": 1400064, "global_step/max_steps": "5469/12700"}
{"lm loss": 2.08624768, "grad_norm": 0.34721735, "learning_rate": 6.638e-05, "elapsed_time_per_iteration": 4.86602378, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 28s", "remaining_time": "9h 48m 49s", "loss_scale": 1.0, "consumed_samples": 1400320, "global_step/max_steps": "5470/12700"}
{"lm loss": 2.12151098, "grad_norm": 0.37570968, "learning_rate": 6.637e-05, "elapsed_time_per_iteration": 4.89636469, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 33s", "remaining_time": "9h 48m 44s", "loss_scale": 1.0, "consumed_samples": 1400576, "global_step/max_steps": "5471/12700"}
{"lm loss": 2.08818221, "grad_norm": 0.37497136, "learning_rate": 6.636e-05, "elapsed_time_per_iteration": 4.8361938, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 38s", "remaining_time": "9h 48m 39s", "loss_scale": 1.0, "consumed_samples": 1400832, "global_step/max_steps": "5472/12700"}
{"lm loss": 2.1068871, "grad_norm": 0.36818501, "learning_rate": 6.634e-05, "elapsed_time_per_iteration": 4.77996445, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 43s", "remaining_time": "9h 48m 34s", "loss_scale": 1.0, "consumed_samples": 1401088, "global_step/max_steps": "5473/12700"}
{"lm loss": 2.10908675, "grad_norm": 0.38309571, "learning_rate": 6.633e-05, "elapsed_time_per_iteration": 4.79996109, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 48s", "remaining_time": "9h 48m 29s", "loss_scale": 1.0, "consumed_samples": 1401344, "global_step/max_steps": "5474/12700"}
{"lm loss": 2.15853667, "grad_norm": 0.35656077, "learning_rate": 6.632e-05, "elapsed_time_per_iteration": 4.86892796, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 53s", "remaining_time": "9h 48m 24s", "loss_scale": 1.0, "consumed_samples": 1401600, "global_step/max_steps": "5475/12700"}
{"lm loss": 2.1229701, "grad_norm": 0.37329504, "learning_rate": 6.631e-05, "elapsed_time_per_iteration": 4.87393951, "memory(GiB)": 28.98, "elapsed_time": "7h 25m 58s", "remaining_time": "9h 48m 19s", "loss_scale": 1.0, "consumed_samples": 1401856, "global_step/max_steps": "5476/12700"}
{"lm loss": 2.13342333, "grad_norm": 0.35739392, "learning_rate": 6.63e-05, "elapsed_time_per_iteration": 4.91576409, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 2s", "remaining_time": "9h 48m 14s", "loss_scale": 1.0, "consumed_samples": 1402112, "global_step/max_steps": "5477/12700"}
{"lm loss": 2.1118598, "grad_norm": 0.38133997, "learning_rate": 6.628e-05, "elapsed_time_per_iteration": 4.90574837, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 7s", "remaining_time": "9h 48m 9s", "loss_scale": 1.0, "consumed_samples": 1402368, "global_step/max_steps": "5478/12700"}
{"lm loss": 2.06351924, "grad_norm": 0.35668823, "learning_rate": 6.627e-05, "elapsed_time_per_iteration": 4.91160107, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 12s", "remaining_time": "9h 48m 4s", "loss_scale": 1.0, "consumed_samples": 1402624, "global_step/max_steps": "5479/12700"}
{"lm loss": 2.09563565, "grad_norm": 0.394638, "learning_rate": 6.626e-05, "elapsed_time_per_iteration": 4.84853601, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 17s", "remaining_time": "9h 47m 59s", "loss_scale": 1.0, "consumed_samples": 1402880, "global_step/max_steps": "5480/12700"}
{"lm loss": 2.11215973, "grad_norm": 0.37478471, "learning_rate": 6.625e-05, "elapsed_time_per_iteration": 4.84904313, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 22s", "remaining_time": "9h 47m 55s", "loss_scale": 1.0, "consumed_samples": 1403136, "global_step/max_steps": "5481/12700"}
{"lm loss": 2.13139844, "grad_norm": 0.39487591, "learning_rate": 6.623e-05, "elapsed_time_per_iteration": 4.87374473, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 27s", "remaining_time": "9h 47m 50s", "loss_scale": 1.0, "consumed_samples": 1403392, "global_step/max_steps": "5482/12700"}
{"lm loss": 2.13845849, "grad_norm": 0.4404608, "learning_rate": 6.622e-05, "elapsed_time_per_iteration": 4.88316655, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 32s", "remaining_time": "9h 47m 45s", "loss_scale": 1.0, "consumed_samples": 1403648, "global_step/max_steps": "5483/12700"}
{"lm loss": 2.11137772, "grad_norm": 0.3704446, "learning_rate": 6.621e-05, "elapsed_time_per_iteration": 4.86169171, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 37s", "remaining_time": "9h 47m 40s", "loss_scale": 1.0, "consumed_samples": 1403904, "global_step/max_steps": "5484/12700"}
{"lm loss": 2.13337111, "grad_norm": 0.42273289, "learning_rate": 6.62e-05, "elapsed_time_per_iteration": 4.84037256, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 41s", "remaining_time": "9h 47m 35s", "loss_scale": 1.0, "consumed_samples": 1404160, "global_step/max_steps": "5485/12700"}
{"lm loss": 2.13113499, "grad_norm": 0.39048412, "learning_rate": 6.619e-05, "elapsed_time_per_iteration": 4.83411098, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 46s", "remaining_time": "9h 47m 30s", "loss_scale": 1.0, "consumed_samples": 1404416, "global_step/max_steps": "5486/12700"}
{"lm loss": 2.08768535, "grad_norm": 0.36987278, "learning_rate": 6.617e-05, "elapsed_time_per_iteration": 4.8870101, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 51s", "remaining_time": "9h 47m 25s", "loss_scale": 1.0, "consumed_samples": 1404672, "global_step/max_steps": "5487/12700"}
{"lm loss": 2.11988997, "grad_norm": 0.37859559, "learning_rate": 6.616e-05, "elapsed_time_per_iteration": 4.81191683, "memory(GiB)": 28.98, "elapsed_time": "7h 26m 56s", "remaining_time": "9h 47m 20s", "loss_scale": 1.0, "consumed_samples": 1404928, "global_step/max_steps": "5488/12700"}
{"lm loss": 2.15678453, "grad_norm": 0.37753874, "learning_rate": 6.615e-05, "elapsed_time_per_iteration": 4.84955978, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 1s", "remaining_time": "9h 47m 15s", "loss_scale": 1.0, "consumed_samples": 1405184, "global_step/max_steps": "5489/12700"}
{"lm loss": 2.10800147, "grad_norm": 0.37937143, "learning_rate": 6.614e-05, "elapsed_time_per_iteration": 4.91376853, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 6s", "remaining_time": "9h 47m 10s", "loss_scale": 1.0, "consumed_samples": 1405440, "global_step/max_steps": "5490/12700"}
{"lm loss": 2.10393691, "grad_norm": 0.36308837, "learning_rate": 6.613e-05, "elapsed_time_per_iteration": 4.82918286, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 11s", "remaining_time": "9h 47m 5s", "loss_scale": 1.0, "consumed_samples": 1405696, "global_step/max_steps": "5491/12700"}
{"lm loss": 2.09221172, "grad_norm": 0.37196085, "learning_rate": 6.611e-05, "elapsed_time_per_iteration": 4.85208774, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 15s", "remaining_time": "9h 47m 0s", "loss_scale": 1.0, "consumed_samples": 1405952, "global_step/max_steps": "5492/12700"}
{"lm loss": 2.12831068, "grad_norm": 0.39036322, "learning_rate": 6.61e-05, "elapsed_time_per_iteration": 4.91867733, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 20s", "remaining_time": "9h 46m 56s", "loss_scale": 1.0, "consumed_samples": 1406208, "global_step/max_steps": "5493/12700"}
{"lm loss": 2.12619686, "grad_norm": 0.36998037, "learning_rate": 6.609e-05, "elapsed_time_per_iteration": 4.94027996, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 25s", "remaining_time": "9h 46m 51s", "loss_scale": 1.0, "consumed_samples": 1406464, "global_step/max_steps": "5494/12700"}
{"lm loss": 2.08938932, "grad_norm": 0.38218886, "learning_rate": 6.608e-05, "elapsed_time_per_iteration": 4.87746453, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 30s", "remaining_time": "9h 46m 46s", "loss_scale": 1.0, "consumed_samples": 1406720, "global_step/max_steps": "5495/12700"}
{"lm loss": 2.10583782, "grad_norm": 0.35485545, "learning_rate": 6.607e-05, "elapsed_time_per_iteration": 4.88245273, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 35s", "remaining_time": "9h 46m 41s", "loss_scale": 1.0, "consumed_samples": 1406976, "global_step/max_steps": "5496/12700"}
{"lm loss": 2.08154893, "grad_norm": 0.36351272, "learning_rate": 6.605e-05, "elapsed_time_per_iteration": 4.89165616, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 40s", "remaining_time": "9h 46m 36s", "loss_scale": 1.0, "consumed_samples": 1407232, "global_step/max_steps": "5497/12700"}
{"lm loss": 2.1033361, "grad_norm": 0.37612963, "learning_rate": 6.604e-05, "elapsed_time_per_iteration": 4.79262424, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 45s", "remaining_time": "9h 46m 31s", "loss_scale": 1.0, "consumed_samples": 1407488, "global_step/max_steps": "5498/12700"}
{"lm loss": 2.1196506, "grad_norm": 0.39352405, "learning_rate": 6.603e-05, "elapsed_time_per_iteration": 4.88114929, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 50s", "remaining_time": "9h 46m 26s", "loss_scale": 1.0, "consumed_samples": 1407744, "global_step/max_steps": "5499/12700"}
{"lm loss": 2.1236558, "grad_norm": 0.40864182, "learning_rate": 6.602e-05, "elapsed_time_per_iteration": 4.82517028, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 54s", "remaining_time": "9h 46m 21s", "loss_scale": 1.0, "consumed_samples": 1408000, "global_step/max_steps": "5500/12700"}
{"lm loss": 2.08815169, "grad_norm": 0.38599703, "learning_rate": 6.601e-05, "elapsed_time_per_iteration": 4.83202672, "memory(GiB)": 28.98, "elapsed_time": "7h 27m 59s", "remaining_time": "9h 46m 16s", "loss_scale": 1.0, "consumed_samples": 1408256, "global_step/max_steps": "5501/12700"}
{"lm loss": 2.11221361, "grad_norm": 0.35267517, "learning_rate": 6.599e-05, "elapsed_time_per_iteration": 4.85344458, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 4s", "remaining_time": "9h 46m 11s", "loss_scale": 1.0, "consumed_samples": 1408512, "global_step/max_steps": "5502/12700"}
{"lm loss": 2.11369157, "grad_norm": 0.40664586, "learning_rate": 6.598e-05, "elapsed_time_per_iteration": 4.94969773, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 9s", "remaining_time": "9h 46m 6s", "loss_scale": 1.0, "consumed_samples": 1408768, "global_step/max_steps": "5503/12700"}
{"lm loss": 2.1231463, "grad_norm": 0.35597861, "learning_rate": 6.597e-05, "elapsed_time_per_iteration": 4.84658837, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 14s", "remaining_time": "9h 46m 2s", "loss_scale": 1.0, "consumed_samples": 1409024, "global_step/max_steps": "5504/12700"}
{"lm loss": 2.1143961, "grad_norm": 0.36616552, "learning_rate": 6.596e-05, "elapsed_time_per_iteration": 4.8174026, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 19s", "remaining_time": "9h 45m 57s", "loss_scale": 1.0, "consumed_samples": 1409280, "global_step/max_steps": "5505/12700"}
{"lm loss": 2.14390874, "grad_norm": 0.38164401, "learning_rate": 6.595e-05, "elapsed_time_per_iteration": 5.00239635, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 24s", "remaining_time": "9h 45m 52s", "loss_scale": 1.0, "consumed_samples": 1409536, "global_step/max_steps": "5506/12700"}
{"lm loss": 2.0896244, "grad_norm": 0.35031477, "learning_rate": 6.593e-05, "elapsed_time_per_iteration": 4.8678174, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 29s", "remaining_time": "9h 45m 47s", "loss_scale": 1.0, "consumed_samples": 1409792, "global_step/max_steps": "5507/12700"}
{"lm loss": 2.06640315, "grad_norm": 0.37196824, "learning_rate": 6.592e-05, "elapsed_time_per_iteration": 4.87356782, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 33s", "remaining_time": "9h 45m 42s", "loss_scale": 1.0, "consumed_samples": 1410048, "global_step/max_steps": "5508/12700"}
{"lm loss": 2.12232184, "grad_norm": 0.41691765, "learning_rate": 6.591e-05, "elapsed_time_per_iteration": 4.92797899, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 38s", "remaining_time": "9h 45m 37s", "loss_scale": 1.0, "consumed_samples": 1410304, "global_step/max_steps": "5509/12700"}
{"lm loss": 2.09762216, "grad_norm": 0.36568689, "learning_rate": 6.59e-05, "elapsed_time_per_iteration": 4.78706527, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 43s", "remaining_time": "9h 45m 32s", "loss_scale": 1.0, "consumed_samples": 1410560, "global_step/max_steps": "5510/12700"}
{"lm loss": 2.10560989, "grad_norm": 0.41201258, "learning_rate": 6.589e-05, "elapsed_time_per_iteration": 4.8557241, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 48s", "remaining_time": "9h 45m 27s", "loss_scale": 1.0, "consumed_samples": 1410816, "global_step/max_steps": "5511/12700"}
{"lm loss": 2.11538219, "grad_norm": 0.3688001, "learning_rate": 6.587e-05, "elapsed_time_per_iteration": 4.88787031, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 53s", "remaining_time": "9h 45m 22s", "loss_scale": 1.0, "consumed_samples": 1411072, "global_step/max_steps": "5512/12700"}
{"lm loss": 2.12193084, "grad_norm": 0.40809062, "learning_rate": 6.586e-05, "elapsed_time_per_iteration": 4.81886458, "memory(GiB)": 28.98, "elapsed_time": "7h 28m 58s", "remaining_time": "9h 45m 17s", "loss_scale": 1.0, "consumed_samples": 1411328, "global_step/max_steps": "5513/12700"}
{"lm loss": 2.08699703, "grad_norm": 0.41690457, "learning_rate": 6.585e-05, "elapsed_time_per_iteration": 4.99039745, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 3s", "remaining_time": "9h 45m 13s", "loss_scale": 1.0, "consumed_samples": 1411584, "global_step/max_steps": "5514/12700"}
{"lm loss": 2.12148333, "grad_norm": 0.3762438, "learning_rate": 6.584e-05, "elapsed_time_per_iteration": 4.77962065, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 7s", "remaining_time": "9h 45m 8s", "loss_scale": 1.0, "consumed_samples": 1411840, "global_step/max_steps": "5515/12700"}
{"lm loss": 2.06812143, "grad_norm": 0.40418604, "learning_rate": 6.583e-05, "elapsed_time_per_iteration": 4.94441152, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 12s", "remaining_time": "9h 45m 3s", "loss_scale": 1.0, "consumed_samples": 1412096, "global_step/max_steps": "5516/12700"}
{"lm loss": 2.11896181, "grad_norm": 0.3691884, "learning_rate": 6.581e-05, "elapsed_time_per_iteration": 4.94644284, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 17s", "remaining_time": "9h 44m 58s", "loss_scale": 1.0, "consumed_samples": 1412352, "global_step/max_steps": "5517/12700"}
{"lm loss": 2.11448979, "grad_norm": 0.44491488, "learning_rate": 6.58e-05, "elapsed_time_per_iteration": 4.89698339, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 22s", "remaining_time": "9h 44m 53s", "loss_scale": 1.0, "consumed_samples": 1412608, "global_step/max_steps": "5518/12700"}
{"lm loss": 2.10895753, "grad_norm": 0.3469364, "learning_rate": 6.579e-05, "elapsed_time_per_iteration": 4.83983088, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 27s", "remaining_time": "9h 44m 48s", "loss_scale": 1.0, "consumed_samples": 1412864, "global_step/max_steps": "5519/12700"}
{"lm loss": 2.09157515, "grad_norm": 0.36883077, "learning_rate": 6.578e-05, "elapsed_time_per_iteration": 4.84676862, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 32s", "remaining_time": "9h 44m 43s", "loss_scale": 1.0, "consumed_samples": 1413120, "global_step/max_steps": "5520/12700"}
{"lm loss": 2.08689189, "grad_norm": 0.34823477, "learning_rate": 6.576e-05, "elapsed_time_per_iteration": 4.8694241, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 37s", "remaining_time": "9h 44m 38s", "loss_scale": 1.0, "consumed_samples": 1413376, "global_step/max_steps": "5521/12700"}
{"lm loss": 2.13328338, "grad_norm": 0.35525432, "learning_rate": 6.575e-05, "elapsed_time_per_iteration": 4.85903192, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 42s", "remaining_time": "9h 44m 33s", "loss_scale": 1.0, "consumed_samples": 1413632, "global_step/max_steps": "5522/12700"}
{"lm loss": 2.09431362, "grad_norm": 0.35051531, "learning_rate": 6.574e-05, "elapsed_time_per_iteration": 4.82055902, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 47s", "remaining_time": "9h 44m 28s", "loss_scale": 1.0, "consumed_samples": 1413888, "global_step/max_steps": "5523/12700"}
{"lm loss": 2.09625602, "grad_norm": 0.32753643, "learning_rate": 6.573e-05, "elapsed_time_per_iteration": 4.88316011, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 51s", "remaining_time": "9h 44m 24s", "loss_scale": 1.0, "consumed_samples": 1414144, "global_step/max_steps": "5524/12700"}
{"lm loss": 2.12250519, "grad_norm": 0.38802114, "learning_rate": 6.572e-05, "elapsed_time_per_iteration": 4.90577292, "memory(GiB)": 28.98, "elapsed_time": "7h 29m 56s", "remaining_time": "9h 44m 19s", "loss_scale": 1.0, "consumed_samples": 1414400, "global_step/max_steps": "5525/12700"}
{"lm loss": 2.12434459, "grad_norm": 0.34279603, "learning_rate": 6.57e-05, "elapsed_time_per_iteration": 4.8281498, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 1s", "remaining_time": "9h 44m 14s", "loss_scale": 1.0, "consumed_samples": 1414656, "global_step/max_steps": "5526/12700"}
{"lm loss": 2.11864829, "grad_norm": 0.34856877, "learning_rate": 6.569e-05, "elapsed_time_per_iteration": 4.89016175, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 6s", "remaining_time": "9h 44m 9s", "loss_scale": 1.0, "consumed_samples": 1414912, "global_step/max_steps": "5527/12700"}
{"lm loss": 2.09399366, "grad_norm": 0.35160387, "learning_rate": 6.568e-05, "elapsed_time_per_iteration": 4.86689377, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 11s", "remaining_time": "9h 44m 4s", "loss_scale": 1.0, "consumed_samples": 1415168, "global_step/max_steps": "5528/12700"}
{"lm loss": 2.08991981, "grad_norm": 0.3526504, "learning_rate": 6.567e-05, "elapsed_time_per_iteration": 4.79392314, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 16s", "remaining_time": "9h 43m 59s", "loss_scale": 1.0, "consumed_samples": 1415424, "global_step/max_steps": "5529/12700"}
{"lm loss": 2.09083247, "grad_norm": 0.37004989, "learning_rate": 6.566e-05, "elapsed_time_per_iteration": 4.96790671, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 21s", "remaining_time": "9h 43m 54s", "loss_scale": 1.0, "consumed_samples": 1415680, "global_step/max_steps": "5530/12700"}
{"lm loss": 2.0820694, "grad_norm": 0.36775613, "learning_rate": 6.564e-05, "elapsed_time_per_iteration": 4.86862302, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 26s", "remaining_time": "9h 43m 49s", "loss_scale": 1.0, "consumed_samples": 1415936, "global_step/max_steps": "5531/12700"}
{"lm loss": 2.1072669, "grad_norm": 0.37944213, "learning_rate": 6.563e-05, "elapsed_time_per_iteration": 4.80420971, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 30s", "remaining_time": "9h 43m 44s", "loss_scale": 1.0, "consumed_samples": 1416192, "global_step/max_steps": "5532/12700"}
{"lm loss": 2.1164937, "grad_norm": 0.38335937, "learning_rate": 6.562e-05, "elapsed_time_per_iteration": 4.82756996, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 35s", "remaining_time": "9h 43m 39s", "loss_scale": 1.0, "consumed_samples": 1416448, "global_step/max_steps": "5533/12700"}
{"lm loss": 2.09415078, "grad_norm": 0.33191472, "learning_rate": 6.561e-05, "elapsed_time_per_iteration": 4.86245656, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 40s", "remaining_time": "9h 43m 34s", "loss_scale": 1.0, "consumed_samples": 1416704, "global_step/max_steps": "5534/12700"}
{"lm loss": 2.08382487, "grad_norm": 0.35293818, "learning_rate": 6.56e-05, "elapsed_time_per_iteration": 4.78557062, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 45s", "remaining_time": "9h 43m 29s", "loss_scale": 1.0, "consumed_samples": 1416960, "global_step/max_steps": "5535/12700"}
{"lm loss": 2.09577203, "grad_norm": 0.3627049, "learning_rate": 6.558e-05, "elapsed_time_per_iteration": 4.97805953, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 50s", "remaining_time": "9h 43m 25s", "loss_scale": 1.0, "consumed_samples": 1417216, "global_step/max_steps": "5536/12700"}
{"lm loss": 2.11649632, "grad_norm": 0.35023707, "learning_rate": 6.557e-05, "elapsed_time_per_iteration": 4.85902953, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 55s", "remaining_time": "9h 43m 20s", "loss_scale": 1.0, "consumed_samples": 1417472, "global_step/max_steps": "5537/12700"}
{"lm loss": 2.09434152, "grad_norm": 0.34951118, "learning_rate": 6.556e-05, "elapsed_time_per_iteration": 4.85470271, "memory(GiB)": 28.98, "elapsed_time": "7h 30m 59s", "remaining_time": "9h 43m 15s", "loss_scale": 1.0, "consumed_samples": 1417728, "global_step/max_steps": "5538/12700"}
{"lm loss": 2.11326647, "grad_norm": 0.3517361, "learning_rate": 6.555e-05, "elapsed_time_per_iteration": 4.85978699, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 4s", "remaining_time": "9h 43m 10s", "loss_scale": 1.0, "consumed_samples": 1417984, "global_step/max_steps": "5539/12700"}
{"lm loss": 2.09951282, "grad_norm": 0.38073397, "learning_rate": 6.554e-05, "elapsed_time_per_iteration": 4.92461824, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 9s", "remaining_time": "9h 43m 5s", "loss_scale": 1.0, "consumed_samples": 1418240, "global_step/max_steps": "5540/12700"}
{"lm loss": 2.10907936, "grad_norm": 0.37312227, "learning_rate": 6.552e-05, "elapsed_time_per_iteration": 4.86274886, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 14s", "remaining_time": "9h 43m 0s", "loss_scale": 1.0, "consumed_samples": 1418496, "global_step/max_steps": "5541/12700"}
{"lm loss": 2.10697746, "grad_norm": 0.35792199, "learning_rate": 6.551e-05, "elapsed_time_per_iteration": 4.92628551, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 19s", "remaining_time": "9h 42m 55s", "loss_scale": 1.0, "consumed_samples": 1418752, "global_step/max_steps": "5542/12700"}
{"lm loss": 2.05987167, "grad_norm": 0.38849872, "learning_rate": 6.55e-05, "elapsed_time_per_iteration": 4.84283805, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 24s", "remaining_time": "9h 42m 50s", "loss_scale": 1.0, "consumed_samples": 1419008, "global_step/max_steps": "5543/12700"}
{"lm loss": 2.08451962, "grad_norm": 0.40033701, "learning_rate": 6.549e-05, "elapsed_time_per_iteration": 4.8534677, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 29s", "remaining_time": "9h 42m 45s", "loss_scale": 1.0, "consumed_samples": 1419264, "global_step/max_steps": "5544/12700"}
{"lm loss": 2.11019015, "grad_norm": 0.37792468, "learning_rate": 6.547e-05, "elapsed_time_per_iteration": 4.89519978, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 34s", "remaining_time": "9h 42m 40s", "loss_scale": 1.0, "consumed_samples": 1419520, "global_step/max_steps": "5545/12700"}
{"lm loss": 2.0856607, "grad_norm": 0.38504517, "learning_rate": 6.546e-05, "elapsed_time_per_iteration": 4.80609584, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 38s", "remaining_time": "9h 42m 35s", "loss_scale": 1.0, "consumed_samples": 1419776, "global_step/max_steps": "5546/12700"}
{"lm loss": 2.08926272, "grad_norm": 0.41595545, "learning_rate": 6.545e-05, "elapsed_time_per_iteration": 4.85493708, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 43s", "remaining_time": "9h 42m 31s", "loss_scale": 1.0, "consumed_samples": 1420032, "global_step/max_steps": "5547/12700"}
{"lm loss": 2.12352848, "grad_norm": 0.41628909, "learning_rate": 6.544e-05, "elapsed_time_per_iteration": 4.93370557, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 48s", "remaining_time": "9h 42m 26s", "loss_scale": 1.0, "consumed_samples": 1420288, "global_step/max_steps": "5548/12700"}
{"lm loss": 2.10210586, "grad_norm": 0.35979179, "learning_rate": 6.543e-05, "elapsed_time_per_iteration": 4.94260693, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 53s", "remaining_time": "9h 42m 21s", "loss_scale": 1.0, "consumed_samples": 1420544, "global_step/max_steps": "5549/12700"}
{"lm loss": 2.1425159, "grad_norm": 0.39737865, "learning_rate": 6.541e-05, "elapsed_time_per_iteration": 4.93254495, "memory(GiB)": 28.98, "elapsed_time": "7h 31m 58s", "remaining_time": "9h 42m 16s", "loss_scale": 1.0, "consumed_samples": 1420800, "global_step/max_steps": "5550/12700"}
{"lm loss": 2.11007357, "grad_norm": 0.39297026, "learning_rate": 6.54e-05, "elapsed_time_per_iteration": 4.91657352, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 3s", "remaining_time": "9h 42m 11s", "loss_scale": 1.0, "consumed_samples": 1421056, "global_step/max_steps": "5551/12700"}
{"lm loss": 2.08803821, "grad_norm": 0.36841851, "learning_rate": 6.539e-05, "elapsed_time_per_iteration": 4.86987138, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 8s", "remaining_time": "9h 42m 6s", "loss_scale": 1.0, "consumed_samples": 1421312, "global_step/max_steps": "5552/12700"}
{"lm loss": 2.11137033, "grad_norm": 0.36943153, "learning_rate": 6.538e-05, "elapsed_time_per_iteration": 4.94432735, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 13s", "remaining_time": "9h 42m 2s", "loss_scale": 1.0, "consumed_samples": 1421568, "global_step/max_steps": "5553/12700"}
{"lm loss": 2.11151004, "grad_norm": 0.38855267, "learning_rate": 6.537e-05, "elapsed_time_per_iteration": 4.91339278, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 18s", "remaining_time": "9h 41m 57s", "loss_scale": 1.0, "consumed_samples": 1421824, "global_step/max_steps": "5554/12700"}
{"lm loss": 2.13265181, "grad_norm": 0.37373489, "learning_rate": 6.535e-05, "elapsed_time_per_iteration": 4.81997037, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 23s", "remaining_time": "9h 41m 52s", "loss_scale": 1.0, "consumed_samples": 1422080, "global_step/max_steps": "5555/12700"}
{"lm loss": 2.11232328, "grad_norm": 0.37260187, "learning_rate": 6.534e-05, "elapsed_time_per_iteration": 4.84897256, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 27s", "remaining_time": "9h 41m 47s", "loss_scale": 1.0, "consumed_samples": 1422336, "global_step/max_steps": "5556/12700"}
{"lm loss": 2.08412743, "grad_norm": 0.35128069, "learning_rate": 6.533e-05, "elapsed_time_per_iteration": 4.92249465, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 32s", "remaining_time": "9h 41m 42s", "loss_scale": 1.0, "consumed_samples": 1422592, "global_step/max_steps": "5557/12700"}
{"lm loss": 2.11075592, "grad_norm": 0.41084546, "learning_rate": 6.532e-05, "elapsed_time_per_iteration": 4.86834073, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 37s", "remaining_time": "9h 41m 37s", "loss_scale": 1.0, "consumed_samples": 1422848, "global_step/max_steps": "5558/12700"}
{"lm loss": 2.11012363, "grad_norm": 0.38283634, "learning_rate": 6.531e-05, "elapsed_time_per_iteration": 4.92935681, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 42s", "remaining_time": "9h 41m 32s", "loss_scale": 1.0, "consumed_samples": 1423104, "global_step/max_steps": "5559/12700"}
{"lm loss": 2.12250113, "grad_norm": 0.41438076, "learning_rate": 6.529e-05, "elapsed_time_per_iteration": 4.84046769, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 47s", "remaining_time": "9h 41m 27s", "loss_scale": 1.0, "consumed_samples": 1423360, "global_step/max_steps": "5560/12700"}
{"lm loss": 2.09843349, "grad_norm": 0.39956939, "learning_rate": 6.528e-05, "elapsed_time_per_iteration": 4.95349669, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 52s", "remaining_time": "9h 41m 22s", "loss_scale": 1.0, "consumed_samples": 1423616, "global_step/max_steps": "5561/12700"}
{"lm loss": 2.08123684, "grad_norm": 0.41054142, "learning_rate": 6.527e-05, "elapsed_time_per_iteration": 4.94796658, "memory(GiB)": 28.98, "elapsed_time": "7h 32m 57s", "remaining_time": "9h 41m 18s", "loss_scale": 1.0, "consumed_samples": 1423872, "global_step/max_steps": "5562/12700"}
{"lm loss": 2.11838412, "grad_norm": 0.44926503, "learning_rate": 6.526e-05, "elapsed_time_per_iteration": 4.90201092, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 2s", "remaining_time": "9h 41m 13s", "loss_scale": 1.0, "consumed_samples": 1424128, "global_step/max_steps": "5563/12700"}
{"lm loss": 2.12703443, "grad_norm": 0.35893431, "learning_rate": 6.524e-05, "elapsed_time_per_iteration": 4.90964079, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 7s", "remaining_time": "9h 41m 8s", "loss_scale": 1.0, "consumed_samples": 1424384, "global_step/max_steps": "5564/12700"}
{"lm loss": 2.08925724, "grad_norm": 0.41743252, "learning_rate": 6.523e-05, "elapsed_time_per_iteration": 4.85711026, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 12s", "remaining_time": "9h 41m 3s", "loss_scale": 1.0, "consumed_samples": 1424640, "global_step/max_steps": "5565/12700"}
{"lm loss": 2.1209476, "grad_norm": 0.36827344, "learning_rate": 6.522e-05, "elapsed_time_per_iteration": 4.89901829, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 16s", "remaining_time": "9h 40m 58s", "loss_scale": 1.0, "consumed_samples": 1424896, "global_step/max_steps": "5566/12700"}
{"lm loss": 2.11162281, "grad_norm": 0.4125683, "learning_rate": 6.521e-05, "elapsed_time_per_iteration": 4.87906718, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 21s", "remaining_time": "9h 40m 53s", "loss_scale": 1.0, "consumed_samples": 1425152, "global_step/max_steps": "5567/12700"}
{"lm loss": 2.12026429, "grad_norm": 0.37215608, "learning_rate": 6.52e-05, "elapsed_time_per_iteration": 4.93621469, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 26s", "remaining_time": "9h 40m 48s", "loss_scale": 1.0, "consumed_samples": 1425408, "global_step/max_steps": "5568/12700"}
{"lm loss": 2.14285445, "grad_norm": 0.40188026, "learning_rate": 6.518e-05, "elapsed_time_per_iteration": 4.86147213, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 31s", "remaining_time": "9h 40m 43s", "loss_scale": 1.0, "consumed_samples": 1425664, "global_step/max_steps": "5569/12700"}
{"lm loss": 2.11846948, "grad_norm": 0.38296136, "learning_rate": 6.517e-05, "elapsed_time_per_iteration": 4.99668527, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 36s", "remaining_time": "9h 40m 39s", "loss_scale": 1.0, "consumed_samples": 1425920, "global_step/max_steps": "5570/12700"}
{"lm loss": 2.11670041, "grad_norm": 0.38444167, "learning_rate": 6.516e-05, "elapsed_time_per_iteration": 4.83444071, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 41s", "remaining_time": "9h 40m 34s", "loss_scale": 1.0, "consumed_samples": 1426176, "global_step/max_steps": "5571/12700"}
{"lm loss": 2.07980251, "grad_norm": 0.38731438, "learning_rate": 6.515e-05, "elapsed_time_per_iteration": 4.8506434, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 46s", "remaining_time": "9h 40m 29s", "loss_scale": 1.0, "consumed_samples": 1426432, "global_step/max_steps": "5572/12700"}
{"lm loss": 2.10426831, "grad_norm": 0.38687524, "learning_rate": 6.514e-05, "elapsed_time_per_iteration": 4.83815765, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 51s", "remaining_time": "9h 40m 24s", "loss_scale": 1.0, "consumed_samples": 1426688, "global_step/max_steps": "5573/12700"}
{"lm loss": 2.08488417, "grad_norm": 0.37965328, "learning_rate": 6.512e-05, "elapsed_time_per_iteration": 4.79133821, "memory(GiB)": 28.98, "elapsed_time": "7h 33m 55s", "remaining_time": "9h 40m 19s", "loss_scale": 1.0, "consumed_samples": 1426944, "global_step/max_steps": "5574/12700"}
{"lm loss": 2.09136844, "grad_norm": 0.39193359, "learning_rate": 6.511e-05, "elapsed_time_per_iteration": 4.85304475, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 0s", "remaining_time": "9h 40m 14s", "loss_scale": 1.0, "consumed_samples": 1427200, "global_step/max_steps": "5575/12700"}
{"lm loss": 2.07752728, "grad_norm": 0.39737275, "learning_rate": 6.51e-05, "elapsed_time_per_iteration": 4.8387475, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 5s", "remaining_time": "9h 40m 9s", "loss_scale": 1.0, "consumed_samples": 1427456, "global_step/max_steps": "5576/12700"}
{"lm loss": 2.10382104, "grad_norm": 0.39058414, "learning_rate": 6.509e-05, "elapsed_time_per_iteration": 4.81441832, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 10s", "remaining_time": "9h 40m 4s", "loss_scale": 1.0, "consumed_samples": 1427712, "global_step/max_steps": "5577/12700"}
{"lm loss": 2.08768892, "grad_norm": 0.37661248, "learning_rate": 6.508e-05, "elapsed_time_per_iteration": 4.79526925, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 15s", "remaining_time": "9h 39m 59s", "loss_scale": 1.0, "consumed_samples": 1427968, "global_step/max_steps": "5578/12700"}
{"lm loss": 2.10168433, "grad_norm": 0.37857929, "learning_rate": 6.506e-05, "elapsed_time_per_iteration": 4.85125017, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 20s", "remaining_time": "9h 39m 54s", "loss_scale": 1.0, "consumed_samples": 1428224, "global_step/max_steps": "5579/12700"}
{"lm loss": 2.10386825, "grad_norm": 0.38874859, "learning_rate": 6.505e-05, "elapsed_time_per_iteration": 4.834234, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 24s", "remaining_time": "9h 39m 49s", "loss_scale": 1.0, "consumed_samples": 1428480, "global_step/max_steps": "5580/12700"}
{"lm loss": 2.07795763, "grad_norm": 0.3549735, "learning_rate": 6.504e-05, "elapsed_time_per_iteration": 4.9177835, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 29s", "remaining_time": "9h 39m 44s", "loss_scale": 1.0, "consumed_samples": 1428736, "global_step/max_steps": "5581/12700"}
{"lm loss": 2.12006211, "grad_norm": 0.38588318, "learning_rate": 6.503e-05, "elapsed_time_per_iteration": 4.8804419, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 34s", "remaining_time": "9h 39m 39s", "loss_scale": 1.0, "consumed_samples": 1428992, "global_step/max_steps": "5582/12700"}
{"lm loss": 2.09842134, "grad_norm": 0.33874282, "learning_rate": 6.501e-05, "elapsed_time_per_iteration": 4.86576033, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 39s", "remaining_time": "9h 39m 35s", "loss_scale": 1.0, "consumed_samples": 1429248, "global_step/max_steps": "5583/12700"}
{"lm loss": 2.12228847, "grad_norm": 0.35441798, "learning_rate": 6.5e-05, "elapsed_time_per_iteration": 4.78783703, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 44s", "remaining_time": "9h 39m 30s", "loss_scale": 1.0, "consumed_samples": 1429504, "global_step/max_steps": "5584/12700"}
{"lm loss": 2.11887503, "grad_norm": 0.36471137, "learning_rate": 6.499e-05, "elapsed_time_per_iteration": 5.01529121, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 49s", "remaining_time": "9h 39m 25s", "loss_scale": 1.0, "consumed_samples": 1429760, "global_step/max_steps": "5585/12700"}
{"lm loss": 2.09743261, "grad_norm": 0.37187994, "learning_rate": 6.498e-05, "elapsed_time_per_iteration": 4.86212277, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 54s", "remaining_time": "9h 39m 20s", "loss_scale": 1.0, "consumed_samples": 1430016, "global_step/max_steps": "5586/12700"}
{"lm loss": 2.07069468, "grad_norm": 0.36548784, "learning_rate": 6.497e-05, "elapsed_time_per_iteration": 4.85048199, "memory(GiB)": 28.98, "elapsed_time": "7h 34m 59s", "remaining_time": "9h 39m 15s", "loss_scale": 1.0, "consumed_samples": 1430272, "global_step/max_steps": "5587/12700"}
{"lm loss": 2.08421564, "grad_norm": 0.36811596, "learning_rate": 6.495e-05, "elapsed_time_per_iteration": 4.85611153, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 3s", "remaining_time": "9h 39m 10s", "loss_scale": 1.0, "consumed_samples": 1430528, "global_step/max_steps": "5588/12700"}
{"lm loss": 2.12438488, "grad_norm": 0.35041371, "learning_rate": 6.494e-05, "elapsed_time_per_iteration": 4.83836436, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 8s", "remaining_time": "9h 39m 5s", "loss_scale": 1.0, "consumed_samples": 1430784, "global_step/max_steps": "5589/12700"}
{"lm loss": 2.11748505, "grad_norm": 0.38611042, "learning_rate": 6.493e-05, "elapsed_time_per_iteration": 4.84390593, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 13s", "remaining_time": "9h 39m 0s", "loss_scale": 1.0, "consumed_samples": 1431040, "global_step/max_steps": "5590/12700"}
{"lm loss": 2.10993576, "grad_norm": 0.34940866, "learning_rate": 6.492e-05, "elapsed_time_per_iteration": 4.80147815, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 18s", "remaining_time": "9h 38m 55s", "loss_scale": 1.0, "consumed_samples": 1431296, "global_step/max_steps": "5591/12700"}
{"lm loss": 2.08478928, "grad_norm": 0.36347458, "learning_rate": 6.491e-05, "elapsed_time_per_iteration": 4.91907167, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 23s", "remaining_time": "9h 38m 50s", "loss_scale": 1.0, "consumed_samples": 1431552, "global_step/max_steps": "5592/12700"}
{"lm loss": 2.1148653, "grad_norm": 0.35884812, "learning_rate": 6.489e-05, "elapsed_time_per_iteration": 4.95002651, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 28s", "remaining_time": "9h 38m 45s", "loss_scale": 1.0, "consumed_samples": 1431808, "global_step/max_steps": "5593/12700"}
{"lm loss": 2.114712, "grad_norm": 0.3915596, "learning_rate": 6.488e-05, "elapsed_time_per_iteration": 4.81468439, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 33s", "remaining_time": "9h 38m 40s", "loss_scale": 1.0, "consumed_samples": 1432064, "global_step/max_steps": "5594/12700"}
{"lm loss": 2.10036492, "grad_norm": 0.34903556, "learning_rate": 6.487e-05, "elapsed_time_per_iteration": 4.86162043, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 37s", "remaining_time": "9h 38m 36s", "loss_scale": 1.0, "consumed_samples": 1432320, "global_step/max_steps": "5595/12700"}
{"lm loss": 2.12021708, "grad_norm": 0.35600114, "learning_rate": 6.486e-05, "elapsed_time_per_iteration": 4.83989501, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 42s", "remaining_time": "9h 38m 31s", "loss_scale": 1.0, "consumed_samples": 1432576, "global_step/max_steps": "5596/12700"}
{"lm loss": 2.13329148, "grad_norm": 0.3653608, "learning_rate": 6.484e-05, "elapsed_time_per_iteration": 4.84817624, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 47s", "remaining_time": "9h 38m 26s", "loss_scale": 1.0, "consumed_samples": 1432832, "global_step/max_steps": "5597/12700"}
{"lm loss": 2.07056761, "grad_norm": 0.38112959, "learning_rate": 6.483e-05, "elapsed_time_per_iteration": 4.88591933, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 52s", "remaining_time": "9h 38m 21s", "loss_scale": 1.0, "consumed_samples": 1433088, "global_step/max_steps": "5598/12700"}
{"lm loss": 2.08443713, "grad_norm": 0.36199841, "learning_rate": 6.482e-05, "elapsed_time_per_iteration": 4.94415331, "memory(GiB)": 28.98, "elapsed_time": "7h 35m 57s", "remaining_time": "9h 38m 16s", "loss_scale": 1.0, "consumed_samples": 1433344, "global_step/max_steps": "5599/12700"}
{"lm loss": 2.07643437, "grad_norm": 0.34988225, "learning_rate": 6.481e-05, "elapsed_time_per_iteration": 4.84893608, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 2s", "remaining_time": "9h 38m 11s", "loss_scale": 1.0, "consumed_samples": 1433600, "global_step/max_steps": "5600/12700"}
{"lm loss": 2.10612512, "grad_norm": 0.36414433, "learning_rate": 6.48e-05, "elapsed_time_per_iteration": 4.8993392, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 7s", "remaining_time": "9h 38m 6s", "loss_scale": 1.0, "consumed_samples": 1433856, "global_step/max_steps": "5601/12700"}
{"lm loss": 2.08303356, "grad_norm": 0.36598727, "learning_rate": 6.478e-05, "elapsed_time_per_iteration": 4.95533442, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 12s", "remaining_time": "9h 38m 1s", "loss_scale": 1.0, "consumed_samples": 1434112, "global_step/max_steps": "5602/12700"}
{"lm loss": 2.08736706, "grad_norm": 0.35670701, "learning_rate": 6.477e-05, "elapsed_time_per_iteration": 4.97503853, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 17s", "remaining_time": "9h 37m 57s", "loss_scale": 1.0, "consumed_samples": 1434368, "global_step/max_steps": "5603/12700"}
{"lm loss": 2.11221647, "grad_norm": 0.38832146, "learning_rate": 6.476e-05, "elapsed_time_per_iteration": 5.03786993, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 22s", "remaining_time": "9h 37m 52s", "loss_scale": 1.0, "consumed_samples": 1434624, "global_step/max_steps": "5604/12700"}
{"lm loss": 2.081604, "grad_norm": 0.35840246, "learning_rate": 6.475e-05, "elapsed_time_per_iteration": 4.96325302, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 27s", "remaining_time": "9h 37m 47s", "loss_scale": 1.0, "consumed_samples": 1434880, "global_step/max_steps": "5605/12700"}
{"lm loss": 2.1005106, "grad_norm": 0.37644598, "learning_rate": 6.474e-05, "elapsed_time_per_iteration": 4.87231636, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 32s", "remaining_time": "9h 37m 42s", "loss_scale": 1.0, "consumed_samples": 1435136, "global_step/max_steps": "5606/12700"}
{"lm loss": 2.07791448, "grad_norm": 0.35000691, "learning_rate": 6.472e-05, "elapsed_time_per_iteration": 4.86031437, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 36s", "remaining_time": "9h 37m 37s", "loss_scale": 1.0, "consumed_samples": 1435392, "global_step/max_steps": "5607/12700"}
{"lm loss": 2.09637928, "grad_norm": 0.37036872, "learning_rate": 6.471e-05, "elapsed_time_per_iteration": 4.91580963, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 41s", "remaining_time": "9h 37m 32s", "loss_scale": 1.0, "consumed_samples": 1435648, "global_step/max_steps": "5608/12700"}
{"lm loss": 2.10005069, "grad_norm": 0.36466947, "learning_rate": 6.47e-05, "elapsed_time_per_iteration": 4.85615897, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 46s", "remaining_time": "9h 37m 28s", "loss_scale": 1.0, "consumed_samples": 1435904, "global_step/max_steps": "5609/12700"}
{"lm loss": 2.0924325, "grad_norm": 0.37098223, "learning_rate": 6.469e-05, "elapsed_time_per_iteration": 4.87250638, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 51s", "remaining_time": "9h 37m 23s", "loss_scale": 1.0, "consumed_samples": 1436160, "global_step/max_steps": "5610/12700"}
{"lm loss": 2.07519007, "grad_norm": 0.34749338, "learning_rate": 6.467e-05, "elapsed_time_per_iteration": 4.98197293, "memory(GiB)": 28.98, "elapsed_time": "7h 36m 56s", "remaining_time": "9h 37m 18s", "loss_scale": 1.0, "consumed_samples": 1436416, "global_step/max_steps": "5611/12700"}
{"lm loss": 2.07956338, "grad_norm": 0.38305488, "learning_rate": 6.466e-05, "elapsed_time_per_iteration": 4.8785069, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 1s", "remaining_time": "9h 37m 13s", "loss_scale": 1.0, "consumed_samples": 1436672, "global_step/max_steps": "5612/12700"}
{"lm loss": 2.09742475, "grad_norm": 0.37985027, "learning_rate": 6.465e-05, "elapsed_time_per_iteration": 4.87604523, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 6s", "remaining_time": "9h 37m 8s", "loss_scale": 1.0, "consumed_samples": 1436928, "global_step/max_steps": "5613/12700"}
{"lm loss": 2.10121632, "grad_norm": 0.36059654, "learning_rate": 6.464e-05, "elapsed_time_per_iteration": 4.9165473, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 11s", "remaining_time": "9h 37m 3s", "loss_scale": 1.0, "consumed_samples": 1437184, "global_step/max_steps": "5614/12700"}
{"lm loss": 2.14060163, "grad_norm": 0.40525442, "learning_rate": 6.463e-05, "elapsed_time_per_iteration": 4.86627007, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 16s", "remaining_time": "9h 36m 58s", "loss_scale": 1.0, "consumed_samples": 1437440, "global_step/max_steps": "5615/12700"}
{"lm loss": 2.10718107, "grad_norm": 0.38126045, "learning_rate": 6.461e-05, "elapsed_time_per_iteration": 4.95518184, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 21s", "remaining_time": "9h 36m 54s", "loss_scale": 1.0, "consumed_samples": 1437696, "global_step/max_steps": "5616/12700"}
{"lm loss": 2.10740614, "grad_norm": 0.37188563, "learning_rate": 6.46e-05, "elapsed_time_per_iteration": 4.86844993, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 25s", "remaining_time": "9h 36m 49s", "loss_scale": 1.0, "consumed_samples": 1437952, "global_step/max_steps": "5617/12700"}
{"lm loss": 2.1291697, "grad_norm": 0.37234327, "learning_rate": 6.459e-05, "elapsed_time_per_iteration": 4.88811064, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 30s", "remaining_time": "9h 36m 44s", "loss_scale": 1.0, "consumed_samples": 1438208, "global_step/max_steps": "5618/12700"}
{"lm loss": 2.10434747, "grad_norm": 0.38259038, "learning_rate": 6.458e-05, "elapsed_time_per_iteration": 4.84898186, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 35s", "remaining_time": "9h 36m 39s", "loss_scale": 1.0, "consumed_samples": 1438464, "global_step/max_steps": "5619/12700"}
{"lm loss": 2.13024139, "grad_norm": 0.37633491, "learning_rate": 6.457e-05, "elapsed_time_per_iteration": 4.83973479, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 40s", "remaining_time": "9h 36m 34s", "loss_scale": 1.0, "consumed_samples": 1438720, "global_step/max_steps": "5620/12700"}
{"lm loss": 2.12297297, "grad_norm": 0.37077248, "learning_rate": 6.455e-05, "elapsed_time_per_iteration": 5.03265023, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 45s", "remaining_time": "9h 36m 29s", "loss_scale": 1.0, "consumed_samples": 1438976, "global_step/max_steps": "5621/12700"}
{"lm loss": 2.1210444, "grad_norm": 0.40889886, "learning_rate": 6.454e-05, "elapsed_time_per_iteration": 4.93462729, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 50s", "remaining_time": "9h 36m 24s", "loss_scale": 1.0, "consumed_samples": 1439232, "global_step/max_steps": "5622/12700"}
{"lm loss": 2.09409356, "grad_norm": 0.37496516, "learning_rate": 6.453e-05, "elapsed_time_per_iteration": 4.97633958, "memory(GiB)": 28.98, "elapsed_time": "7h 37m 55s", "remaining_time": "9h 36m 20s", "loss_scale": 1.0, "consumed_samples": 1439488, "global_step/max_steps": "5623/12700"}
{"lm loss": 2.12964535, "grad_norm": 0.38328165, "learning_rate": 6.452e-05, "elapsed_time_per_iteration": 4.8865521, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 0s", "remaining_time": "9h 36m 15s", "loss_scale": 1.0, "consumed_samples": 1439744, "global_step/max_steps": "5624/12700"}
{"lm loss": 2.13970399, "grad_norm": 0.37747195, "learning_rate": 6.45e-05, "elapsed_time_per_iteration": 4.88173151, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 5s", "remaining_time": "9h 36m 10s", "loss_scale": 1.0, "consumed_samples": 1440000, "global_step/max_steps": "5625/12700"}
{"lm loss": 2.09950662, "grad_norm": 0.36312187, "learning_rate": 6.449e-05, "elapsed_time_per_iteration": 4.81416011, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 10s", "remaining_time": "9h 36m 5s", "loss_scale": 1.0, "consumed_samples": 1440256, "global_step/max_steps": "5626/12700"}
{"lm loss": 2.12790346, "grad_norm": 0.38516819, "learning_rate": 6.448e-05, "elapsed_time_per_iteration": 4.89201546, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 14s", "remaining_time": "9h 36m 0s", "loss_scale": 1.0, "consumed_samples": 1440512, "global_step/max_steps": "5627/12700"}
{"lm loss": 2.12764478, "grad_norm": 0.39362499, "learning_rate": 6.447e-05, "elapsed_time_per_iteration": 4.84710479, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 19s", "remaining_time": "9h 35m 55s", "loss_scale": 1.0, "consumed_samples": 1440768, "global_step/max_steps": "5628/12700"}
{"lm loss": 2.12501407, "grad_norm": 0.36430684, "learning_rate": 6.446e-05, "elapsed_time_per_iteration": 4.96498871, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 24s", "remaining_time": "9h 35m 50s", "loss_scale": 1.0, "consumed_samples": 1441024, "global_step/max_steps": "5629/12700"}
{"lm loss": 2.08334231, "grad_norm": 0.3886227, "learning_rate": 6.444e-05, "elapsed_time_per_iteration": 4.84471393, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 29s", "remaining_time": "9h 35m 45s", "loss_scale": 1.0, "consumed_samples": 1441280, "global_step/max_steps": "5630/12700"}
{"lm loss": 2.08963513, "grad_norm": 0.37419334, "learning_rate": 6.443e-05, "elapsed_time_per_iteration": 4.91461015, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 34s", "remaining_time": "9h 35m 40s", "loss_scale": 1.0, "consumed_samples": 1441536, "global_step/max_steps": "5631/12700"}
{"lm loss": 2.12393093, "grad_norm": 0.37342185, "learning_rate": 6.442e-05, "elapsed_time_per_iteration": 4.78485537, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 39s", "remaining_time": "9h 35m 35s", "loss_scale": 1.0, "consumed_samples": 1441792, "global_step/max_steps": "5632/12700"}
{"lm loss": 2.10582805, "grad_norm": 0.39631626, "learning_rate": 6.441e-05, "elapsed_time_per_iteration": 4.89362645, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 44s", "remaining_time": "9h 35m 31s", "loss_scale": 1.0, "consumed_samples": 1442048, "global_step/max_steps": "5633/12700"}
{"lm loss": 2.08008504, "grad_norm": 0.38306233, "learning_rate": 6.439e-05, "elapsed_time_per_iteration": 4.94586968, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 49s", "remaining_time": "9h 35m 26s", "loss_scale": 1.0, "consumed_samples": 1442304, "global_step/max_steps": "5634/12700"}
{"lm loss": 2.09333897, "grad_norm": 0.40351906, "learning_rate": 6.438e-05, "elapsed_time_per_iteration": 4.79694605, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 53s", "remaining_time": "9h 35m 21s", "loss_scale": 1.0, "consumed_samples": 1442560, "global_step/max_steps": "5635/12700"}
{"lm loss": 2.12389517, "grad_norm": 0.36160696, "learning_rate": 6.437e-05, "elapsed_time_per_iteration": 4.88951635, "memory(GiB)": 28.98, "elapsed_time": "7h 38m 58s", "remaining_time": "9h 35m 16s", "loss_scale": 1.0, "consumed_samples": 1442816, "global_step/max_steps": "5636/12700"}
{"lm loss": 2.11201191, "grad_norm": 0.38698125, "learning_rate": 6.436e-05, "elapsed_time_per_iteration": 4.94050384, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 3s", "remaining_time": "9h 35m 11s", "loss_scale": 1.0, "consumed_samples": 1443072, "global_step/max_steps": "5637/12700"}
{"lm loss": 2.09843802, "grad_norm": 0.41439462, "learning_rate": 6.435e-05, "elapsed_time_per_iteration": 4.8310051, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 8s", "remaining_time": "9h 35m 6s", "loss_scale": 1.0, "consumed_samples": 1443328, "global_step/max_steps": "5638/12700"}
{"lm loss": 2.11501694, "grad_norm": 0.37325004, "learning_rate": 6.433e-05, "elapsed_time_per_iteration": 4.93004274, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 13s", "remaining_time": "9h 35m 1s", "loss_scale": 1.0, "consumed_samples": 1443584, "global_step/max_steps": "5639/12700"}
{"lm loss": 2.06200528, "grad_norm": 0.40886486, "learning_rate": 6.432e-05, "elapsed_time_per_iteration": 4.98808646, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 18s", "remaining_time": "9h 34m 56s", "loss_scale": 1.0, "consumed_samples": 1443840, "global_step/max_steps": "5640/12700"}
{"lm loss": 2.11247373, "grad_norm": 0.39081383, "learning_rate": 6.431e-05, "elapsed_time_per_iteration": 4.99583387, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 23s", "remaining_time": "9h 34m 52s", "loss_scale": 1.0, "consumed_samples": 1444096, "global_step/max_steps": "5641/12700"}
{"lm loss": 2.10103536, "grad_norm": 0.40857783, "learning_rate": 6.43e-05, "elapsed_time_per_iteration": 4.76261067, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 28s", "remaining_time": "9h 34m 47s", "loss_scale": 1.0, "consumed_samples": 1444352, "global_step/max_steps": "5642/12700"}
{"lm loss": 2.10034204, "grad_norm": 0.37616095, "learning_rate": 6.429e-05, "elapsed_time_per_iteration": 4.81436396, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 33s", "remaining_time": "9h 34m 42s", "loss_scale": 1.0, "consumed_samples": 1444608, "global_step/max_steps": "5643/12700"}
{"lm loss": 2.09037805, "grad_norm": 0.37979138, "learning_rate": 6.427e-05, "elapsed_time_per_iteration": 4.8729291, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 37s", "remaining_time": "9h 34m 37s", "loss_scale": 1.0, "consumed_samples": 1444864, "global_step/max_steps": "5644/12700"}
{"lm loss": 2.09553313, "grad_norm": 0.35180923, "learning_rate": 6.426e-05, "elapsed_time_per_iteration": 4.84597492, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 42s", "remaining_time": "9h 34m 32s", "loss_scale": 1.0, "consumed_samples": 1445120, "global_step/max_steps": "5645/12700"}
{"lm loss": 2.11284375, "grad_norm": 0.36545485, "learning_rate": 6.425e-05, "elapsed_time_per_iteration": 4.89443421, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 47s", "remaining_time": "9h 34m 27s", "loss_scale": 1.0, "consumed_samples": 1445376, "global_step/max_steps": "5646/12700"}
{"lm loss": 2.12858891, "grad_norm": 0.40088847, "learning_rate": 6.424e-05, "elapsed_time_per_iteration": 4.84704685, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 52s", "remaining_time": "9h 34m 22s", "loss_scale": 1.0, "consumed_samples": 1445632, "global_step/max_steps": "5647/12700"}
{"lm loss": 2.13167453, "grad_norm": 0.35465574, "learning_rate": 6.422e-05, "elapsed_time_per_iteration": 4.81628489, "memory(GiB)": 28.98, "elapsed_time": "7h 39m 57s", "remaining_time": "9h 34m 17s", "loss_scale": 1.0, "consumed_samples": 1445888, "global_step/max_steps": "5648/12700"}
{"lm loss": 2.13239956, "grad_norm": 0.40994665, "learning_rate": 6.421e-05, "elapsed_time_per_iteration": 4.85852957, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 2s", "remaining_time": "9h 34m 12s", "loss_scale": 1.0, "consumed_samples": 1446144, "global_step/max_steps": "5649/12700"}
{"lm loss": 2.05452108, "grad_norm": 0.36915046, "learning_rate": 6.42e-05, "elapsed_time_per_iteration": 4.8989079, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 7s", "remaining_time": "9h 34m 7s", "loss_scale": 1.0, "consumed_samples": 1446400, "global_step/max_steps": "5650/12700"}
{"lm loss": 2.12795568, "grad_norm": 0.42618316, "learning_rate": 6.419e-05, "elapsed_time_per_iteration": 4.81626201, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 11s", "remaining_time": "9h 34m 2s", "loss_scale": 1.0, "consumed_samples": 1446656, "global_step/max_steps": "5651/12700"}
{"lm loss": 2.07412028, "grad_norm": 0.37495577, "learning_rate": 6.418e-05, "elapsed_time_per_iteration": 4.9327836, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 16s", "remaining_time": "9h 33m 57s", "loss_scale": 1.0, "consumed_samples": 1446912, "global_step/max_steps": "5652/12700"}
{"lm loss": 2.05982828, "grad_norm": 0.38882115, "learning_rate": 6.416e-05, "elapsed_time_per_iteration": 4.85599351, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 21s", "remaining_time": "9h 33m 53s", "loss_scale": 1.0, "consumed_samples": 1447168, "global_step/max_steps": "5653/12700"}
{"lm loss": 2.13146782, "grad_norm": 0.41848794, "learning_rate": 6.415e-05, "elapsed_time_per_iteration": 4.97069788, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 26s", "remaining_time": "9h 33m 48s", "loss_scale": 1.0, "consumed_samples": 1447424, "global_step/max_steps": "5654/12700"}
{"lm loss": 2.10990238, "grad_norm": 0.3624045, "learning_rate": 6.414e-05, "elapsed_time_per_iteration": 4.85807323, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 31s", "remaining_time": "9h 33m 43s", "loss_scale": 1.0, "consumed_samples": 1447680, "global_step/max_steps": "5655/12700"}
{"lm loss": 2.08332443, "grad_norm": 0.39003789, "learning_rate": 6.413e-05, "elapsed_time_per_iteration": 5.03237581, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 36s", "remaining_time": "9h 33m 38s", "loss_scale": 1.0, "consumed_samples": 1447936, "global_step/max_steps": "5656/12700"}
{"lm loss": 2.05309081, "grad_norm": 0.36813068, "learning_rate": 6.411e-05, "elapsed_time_per_iteration": 4.81619883, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 41s", "remaining_time": "9h 33m 33s", "loss_scale": 1.0, "consumed_samples": 1448192, "global_step/max_steps": "5657/12700"}
{"lm loss": 2.10605407, "grad_norm": 0.38401839, "learning_rate": 6.41e-05, "elapsed_time_per_iteration": 4.90330076, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 46s", "remaining_time": "9h 33m 28s", "loss_scale": 1.0, "consumed_samples": 1448448, "global_step/max_steps": "5658/12700"}
{"lm loss": 2.09846067, "grad_norm": 0.40432721, "learning_rate": 6.409e-05, "elapsed_time_per_iteration": 4.86562347, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 51s", "remaining_time": "9h 33m 23s", "loss_scale": 1.0, "consumed_samples": 1448704, "global_step/max_steps": "5659/12700"}
{"lm loss": 2.08375025, "grad_norm": 0.38187093, "learning_rate": 6.408e-05, "elapsed_time_per_iteration": 4.89073586, "memory(GiB)": 28.98, "elapsed_time": "7h 40m 56s", "remaining_time": "9h 33m 19s", "loss_scale": 1.0, "consumed_samples": 1448960, "global_step/max_steps": "5660/12700"}
{"lm loss": 2.13570976, "grad_norm": 0.39655244, "learning_rate": 6.407e-05, "elapsed_time_per_iteration": 4.88095117, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 0s", "remaining_time": "9h 33m 14s", "loss_scale": 1.0, "consumed_samples": 1449216, "global_step/max_steps": "5661/12700"}
{"lm loss": 2.08797193, "grad_norm": 0.36146891, "learning_rate": 6.405e-05, "elapsed_time_per_iteration": 4.79805517, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 5s", "remaining_time": "9h 33m 9s", "loss_scale": 1.0, "consumed_samples": 1449472, "global_step/max_steps": "5662/12700"}
{"lm loss": 2.10595059, "grad_norm": 0.37494257, "learning_rate": 6.404e-05, "elapsed_time_per_iteration": 4.90976238, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 10s", "remaining_time": "9h 33m 4s", "loss_scale": 1.0, "consumed_samples": 1449728, "global_step/max_steps": "5663/12700"}
{"lm loss": 2.11485982, "grad_norm": 0.37037879, "learning_rate": 6.403e-05, "elapsed_time_per_iteration": 4.83800268, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 15s", "remaining_time": "9h 32m 59s", "loss_scale": 1.0, "consumed_samples": 1449984, "global_step/max_steps": "5664/12700"}
{"lm loss": 2.12799168, "grad_norm": 0.41532502, "learning_rate": 6.402e-05, "elapsed_time_per_iteration": 4.83821797, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 20s", "remaining_time": "9h 32m 54s", "loss_scale": 1.0, "consumed_samples": 1450240, "global_step/max_steps": "5665/12700"}
{"lm loss": 2.08636808, "grad_norm": 0.34555918, "learning_rate": 6.4e-05, "elapsed_time_per_iteration": 4.81004095, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 25s", "remaining_time": "9h 32m 49s", "loss_scale": 1.0, "consumed_samples": 1450496, "global_step/max_steps": "5666/12700"}
{"lm loss": 2.08688641, "grad_norm": 0.40515685, "learning_rate": 6.399e-05, "elapsed_time_per_iteration": 4.83248258, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 29s", "remaining_time": "9h 32m 44s", "loss_scale": 1.0, "consumed_samples": 1450752, "global_step/max_steps": "5667/12700"}
{"lm loss": 2.10305929, "grad_norm": 0.35875022, "learning_rate": 6.398e-05, "elapsed_time_per_iteration": 4.9174993, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 34s", "remaining_time": "9h 32m 39s", "loss_scale": 1.0, "consumed_samples": 1451008, "global_step/max_steps": "5668/12700"}
{"lm loss": 2.12194419, "grad_norm": 0.37666282, "learning_rate": 6.397e-05, "elapsed_time_per_iteration": 4.86276793, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 39s", "remaining_time": "9h 32m 34s", "loss_scale": 1.0, "consumed_samples": 1451264, "global_step/max_steps": "5669/12700"}
{"lm loss": 2.09740543, "grad_norm": 0.37883991, "learning_rate": 6.396e-05, "elapsed_time_per_iteration": 4.85031009, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 44s", "remaining_time": "9h 32m 29s", "loss_scale": 1.0, "consumed_samples": 1451520, "global_step/max_steps": "5670/12700"}
{"lm loss": 2.08463502, "grad_norm": 0.34646419, "learning_rate": 6.394e-05, "elapsed_time_per_iteration": 4.86739469, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 49s", "remaining_time": "9h 32m 24s", "loss_scale": 1.0, "consumed_samples": 1451776, "global_step/max_steps": "5671/12700"}
{"lm loss": 2.11094928, "grad_norm": 0.37009016, "learning_rate": 6.393e-05, "elapsed_time_per_iteration": 4.82564139, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 54s", "remaining_time": "9h 32m 19s", "loss_scale": 1.0, "consumed_samples": 1452032, "global_step/max_steps": "5672/12700"}
{"lm loss": 2.10116124, "grad_norm": 0.3371321, "learning_rate": 6.392e-05, "elapsed_time_per_iteration": 4.81016278, "memory(GiB)": 28.98, "elapsed_time": "7h 41m 59s", "remaining_time": "9h 32m 14s", "loss_scale": 1.0, "consumed_samples": 1452288, "global_step/max_steps": "5673/12700"}
{"lm loss": 2.14222956, "grad_norm": 0.37504557, "learning_rate": 6.391e-05, "elapsed_time_per_iteration": 4.90197086, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 3s", "remaining_time": "9h 32m 10s", "loss_scale": 1.0, "consumed_samples": 1452544, "global_step/max_steps": "5674/12700"}
{"lm loss": 2.10678482, "grad_norm": 0.33287746, "learning_rate": 6.39e-05, "elapsed_time_per_iteration": 4.83554244, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 8s", "remaining_time": "9h 32m 5s", "loss_scale": 1.0, "consumed_samples": 1452800, "global_step/max_steps": "5675/12700"}
{"lm loss": 2.06879401, "grad_norm": 0.406284, "learning_rate": 6.388e-05, "elapsed_time_per_iteration": 4.80678082, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 13s", "remaining_time": "9h 32m 0s", "loss_scale": 1.0, "consumed_samples": 1453056, "global_step/max_steps": "5676/12700"}
{"lm loss": 2.1052165, "grad_norm": 0.33686876, "learning_rate": 6.387e-05, "elapsed_time_per_iteration": 4.98182249, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 18s", "remaining_time": "9h 31m 55s", "loss_scale": 1.0, "consumed_samples": 1453312, "global_step/max_steps": "5677/12700"}
{"lm loss": 2.12215066, "grad_norm": 0.37099001, "learning_rate": 6.386e-05, "elapsed_time_per_iteration": 4.8470819, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 23s", "remaining_time": "9h 31m 50s", "loss_scale": 1.0, "consumed_samples": 1453568, "global_step/max_steps": "5678/12700"}
{"lm loss": 2.09387374, "grad_norm": 0.37096033, "learning_rate": 6.385e-05, "elapsed_time_per_iteration": 5.09508824, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 28s", "remaining_time": "9h 31m 45s", "loss_scale": 1.0, "consumed_samples": 1453824, "global_step/max_steps": "5679/12700"}
{"lm loss": 2.10051489, "grad_norm": 0.34878296, "learning_rate": 6.383e-05, "elapsed_time_per_iteration": 4.98655343, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 33s", "remaining_time": "9h 31m 41s", "loss_scale": 1.0, "consumed_samples": 1454080, "global_step/max_steps": "5680/12700"}
{"lm loss": 2.12631702, "grad_norm": 0.38510671, "learning_rate": 6.382e-05, "elapsed_time_per_iteration": 4.88320041, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 38s", "remaining_time": "9h 31m 36s", "loss_scale": 1.0, "consumed_samples": 1454336, "global_step/max_steps": "5681/12700"}
{"lm loss": 2.0774579, "grad_norm": 0.35835117, "learning_rate": 6.381e-05, "elapsed_time_per_iteration": 4.89468074, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 43s", "remaining_time": "9h 31m 31s", "loss_scale": 1.0, "consumed_samples": 1454592, "global_step/max_steps": "5682/12700"}
{"lm loss": 2.10991359, "grad_norm": 0.370188, "learning_rate": 6.38e-05, "elapsed_time_per_iteration": 4.88111448, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 48s", "remaining_time": "9h 31m 26s", "loss_scale": 1.0, "consumed_samples": 1454848, "global_step/max_steps": "5683/12700"}
{"lm loss": 2.10255027, "grad_norm": 0.37714648, "learning_rate": 6.379e-05, "elapsed_time_per_iteration": 4.88830113, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 53s", "remaining_time": "9h 31m 21s", "loss_scale": 1.0, "consumed_samples": 1455104, "global_step/max_steps": "5684/12700"}
{"lm loss": 2.14337707, "grad_norm": 0.36239874, "learning_rate": 6.377e-05, "elapsed_time_per_iteration": 4.79675674, "memory(GiB)": 28.98, "elapsed_time": "7h 42m 57s", "remaining_time": "9h 31m 16s", "loss_scale": 1.0, "consumed_samples": 1455360, "global_step/max_steps": "5685/12700"}
{"lm loss": 2.07726717, "grad_norm": 0.36209968, "learning_rate": 6.376e-05, "elapsed_time_per_iteration": 4.84348106, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 2s", "remaining_time": "9h 31m 11s", "loss_scale": 1.0, "consumed_samples": 1455616, "global_step/max_steps": "5686/12700"}
{"lm loss": 2.12453365, "grad_norm": 0.37756971, "learning_rate": 6.375e-05, "elapsed_time_per_iteration": 4.80382514, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 7s", "remaining_time": "9h 31m 6s", "loss_scale": 1.0, "consumed_samples": 1455872, "global_step/max_steps": "5687/12700"}
{"lm loss": 2.11398149, "grad_norm": 0.39770332, "learning_rate": 6.374e-05, "elapsed_time_per_iteration": 4.77987766, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 12s", "remaining_time": "9h 31m 1s", "loss_scale": 1.0, "consumed_samples": 1456128, "global_step/max_steps": "5688/12700"}
{"lm loss": 2.13731432, "grad_norm": 0.37050632, "learning_rate": 6.372e-05, "elapsed_time_per_iteration": 4.77270555, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 17s", "remaining_time": "9h 30m 56s", "loss_scale": 1.0, "consumed_samples": 1456384, "global_step/max_steps": "5689/12700"}
{"lm loss": 2.11552882, "grad_norm": 0.36379325, "learning_rate": 6.371e-05, "elapsed_time_per_iteration": 4.78419423, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 21s", "remaining_time": "9h 30m 51s", "loss_scale": 1.0, "consumed_samples": 1456640, "global_step/max_steps": "5690/12700"}
{"lm loss": 2.08759379, "grad_norm": 0.3981863, "learning_rate": 6.37e-05, "elapsed_time_per_iteration": 4.82357502, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 26s", "remaining_time": "9h 30m 46s", "loss_scale": 1.0, "consumed_samples": 1456896, "global_step/max_steps": "5691/12700"}
{"lm loss": 2.13480949, "grad_norm": 0.37356424, "learning_rate": 6.369e-05, "elapsed_time_per_iteration": 4.86553216, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 31s", "remaining_time": "9h 30m 41s", "loss_scale": 1.0, "consumed_samples": 1457152, "global_step/max_steps": "5692/12700"}
{"lm loss": 2.1130147, "grad_norm": 0.38012981, "learning_rate": 6.368e-05, "elapsed_time_per_iteration": 4.86127496, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 36s", "remaining_time": "9h 30m 36s", "loss_scale": 1.0, "consumed_samples": 1457408, "global_step/max_steps": "5693/12700"}
{"lm loss": 2.12790465, "grad_norm": 0.37716442, "learning_rate": 6.366e-05, "elapsed_time_per_iteration": 4.97758579, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 41s", "remaining_time": "9h 30m 31s", "loss_scale": 1.0, "consumed_samples": 1457664, "global_step/max_steps": "5694/12700"}
{"lm loss": 2.08332682, "grad_norm": 0.40012819, "learning_rate": 6.365e-05, "elapsed_time_per_iteration": 5.07616186, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 46s", "remaining_time": "9h 30m 27s", "loss_scale": 1.0, "consumed_samples": 1457920, "global_step/max_steps": "5695/12700"}
{"lm loss": 2.10581279, "grad_norm": 0.36965546, "learning_rate": 6.364e-05, "elapsed_time_per_iteration": 4.81962824, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 51s", "remaining_time": "9h 30m 22s", "loss_scale": 1.0, "consumed_samples": 1458176, "global_step/max_steps": "5696/12700"}
{"lm loss": 2.11206007, "grad_norm": 0.36065945, "learning_rate": 6.363e-05, "elapsed_time_per_iteration": 4.77161098, "memory(GiB)": 28.98, "elapsed_time": "7h 43m 56s", "remaining_time": "9h 30m 17s", "loss_scale": 1.0, "consumed_samples": 1458432, "global_step/max_steps": "5697/12700"}
{"lm loss": 2.06430721, "grad_norm": 0.37695846, "learning_rate": 6.361e-05, "elapsed_time_per_iteration": 4.97725391, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 1s", "remaining_time": "9h 30m 12s", "loss_scale": 1.0, "consumed_samples": 1458688, "global_step/max_steps": "5698/12700"}
{"lm loss": 2.15482569, "grad_norm": 0.36856785, "learning_rate": 6.36e-05, "elapsed_time_per_iteration": 4.91006684, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 5s", "remaining_time": "9h 30m 7s", "loss_scale": 1.0, "consumed_samples": 1458944, "global_step/max_steps": "5699/12700"}
{"lm loss": 2.11350203, "grad_norm": 0.39686158, "learning_rate": 6.359e-05, "elapsed_time_per_iteration": 4.88476419, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 10s", "remaining_time": "9h 30m 2s", "loss_scale": 1.0, "consumed_samples": 1459200, "global_step/max_steps": "5700/12700"}
{"lm loss": 2.13855052, "grad_norm": 0.37465736, "learning_rate": 6.358e-05, "elapsed_time_per_iteration": 4.88604784, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 15s", "remaining_time": "9h 29m 57s", "loss_scale": 1.0, "consumed_samples": 1459456, "global_step/max_steps": "5701/12700"}
{"lm loss": 2.09781575, "grad_norm": 0.38432235, "learning_rate": 6.357e-05, "elapsed_time_per_iteration": 4.77712154, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 20s", "remaining_time": "9h 29m 52s", "loss_scale": 1.0, "consumed_samples": 1459712, "global_step/max_steps": "5702/12700"}
{"lm loss": 2.12941384, "grad_norm": 0.3844761, "learning_rate": 6.355e-05, "elapsed_time_per_iteration": 4.81588817, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 25s", "remaining_time": "9h 29m 47s", "loss_scale": 1.0, "consumed_samples": 1459968, "global_step/max_steps": "5703/12700"}
{"lm loss": 2.1035192, "grad_norm": 0.38511965, "learning_rate": 6.354e-05, "elapsed_time_per_iteration": 4.86330724, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 30s", "remaining_time": "9h 29m 42s", "loss_scale": 1.0, "consumed_samples": 1460224, "global_step/max_steps": "5704/12700"}
{"lm loss": 2.11717105, "grad_norm": 0.3992233, "learning_rate": 6.353e-05, "elapsed_time_per_iteration": 4.79320788, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 34s", "remaining_time": "9h 29m 37s", "loss_scale": 1.0, "consumed_samples": 1460480, "global_step/max_steps": "5705/12700"}
{"lm loss": 2.09217286, "grad_norm": 0.41330931, "learning_rate": 6.352e-05, "elapsed_time_per_iteration": 4.77348113, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 39s", "remaining_time": "9h 29m 32s", "loss_scale": 1.0, "consumed_samples": 1460736, "global_step/max_steps": "5706/12700"}
{"lm loss": 2.0961957, "grad_norm": 0.39343855, "learning_rate": 6.35e-05, "elapsed_time_per_iteration": 4.79215193, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 44s", "remaining_time": "9h 29m 27s", "loss_scale": 1.0, "consumed_samples": 1460992, "global_step/max_steps": "5707/12700"}
{"lm loss": 2.09933114, "grad_norm": 0.39215094, "learning_rate": 6.349e-05, "elapsed_time_per_iteration": 4.79325819, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 49s", "remaining_time": "9h 29m 22s", "loss_scale": 1.0, "consumed_samples": 1461248, "global_step/max_steps": "5708/12700"}
{"lm loss": 2.17549181, "grad_norm": 0.38906637, "learning_rate": 6.348e-05, "elapsed_time_per_iteration": 4.99105763, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 54s", "remaining_time": "9h 29m 18s", "loss_scale": 1.0, "consumed_samples": 1461504, "global_step/max_steps": "5709/12700"}
{"lm loss": 2.10715461, "grad_norm": 0.39384046, "learning_rate": 6.347e-05, "elapsed_time_per_iteration": 4.83945727, "memory(GiB)": 28.98, "elapsed_time": "7h 44m 59s", "remaining_time": "9h 29m 13s", "loss_scale": 1.0, "consumed_samples": 1461760, "global_step/max_steps": "5710/12700"}
{"lm loss": 2.10607052, "grad_norm": 0.37207779, "learning_rate": 6.346e-05, "elapsed_time_per_iteration": 4.87952423, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 4s", "remaining_time": "9h 29m 8s", "loss_scale": 1.0, "consumed_samples": 1462016, "global_step/max_steps": "5711/12700"}
{"lm loss": 2.11681366, "grad_norm": 0.37569109, "learning_rate": 6.344e-05, "elapsed_time_per_iteration": 4.89473867, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 8s", "remaining_time": "9h 29m 3s", "loss_scale": 1.0, "consumed_samples": 1462272, "global_step/max_steps": "5712/12700"}
{"lm loss": 2.08985662, "grad_norm": 0.40067071, "learning_rate": 6.343e-05, "elapsed_time_per_iteration": 4.75155783, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 13s", "remaining_time": "9h 28m 58s", "loss_scale": 1.0, "consumed_samples": 1462528, "global_step/max_steps": "5713/12700"}
{"lm loss": 2.09261703, "grad_norm": 0.37076467, "learning_rate": 6.342e-05, "elapsed_time_per_iteration": 4.77650213, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 18s", "remaining_time": "9h 28m 53s", "loss_scale": 1.0, "consumed_samples": 1462784, "global_step/max_steps": "5714/12700"}
{"lm loss": 2.12071347, "grad_norm": 0.3711417, "learning_rate": 6.341e-05, "elapsed_time_per_iteration": 4.86841512, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 23s", "remaining_time": "9h 28m 48s", "loss_scale": 1.0, "consumed_samples": 1463040, "global_step/max_steps": "5715/12700"}
{"lm loss": 2.11979675, "grad_norm": 0.37041044, "learning_rate": 6.339e-05, "elapsed_time_per_iteration": 4.8158617, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 28s", "remaining_time": "9h 28m 43s", "loss_scale": 1.0, "consumed_samples": 1463296, "global_step/max_steps": "5716/12700"}
{"lm loss": 2.08560371, "grad_norm": 0.38177633, "learning_rate": 6.338e-05, "elapsed_time_per_iteration": 4.86804175, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 33s", "remaining_time": "9h 28m 38s", "loss_scale": 1.0, "consumed_samples": 1463552, "global_step/max_steps": "5717/12700"}
{"lm loss": 2.10856032, "grad_norm": 0.36919993, "learning_rate": 6.337e-05, "elapsed_time_per_iteration": 4.99380684, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 37s", "remaining_time": "9h 28m 33s", "loss_scale": 1.0, "consumed_samples": 1463808, "global_step/max_steps": "5718/12700"}
{"lm loss": 2.09294462, "grad_norm": 0.41113499, "learning_rate": 6.336e-05, "elapsed_time_per_iteration": 4.8887701, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 42s", "remaining_time": "9h 28m 28s", "loss_scale": 1.0, "consumed_samples": 1464064, "global_step/max_steps": "5719/12700"}
{"lm loss": 2.0845046, "grad_norm": 0.38324004, "learning_rate": 6.334e-05, "elapsed_time_per_iteration": 4.83352685, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 47s", "remaining_time": "9h 28m 24s", "loss_scale": 1.0, "consumed_samples": 1464320, "global_step/max_steps": "5720/12700"}
{"lm loss": 2.08828497, "grad_norm": 0.40785038, "learning_rate": 6.333e-05, "elapsed_time_per_iteration": 4.82716274, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 52s", "remaining_time": "9h 28m 19s", "loss_scale": 1.0, "consumed_samples": 1464576, "global_step/max_steps": "5721/12700"}
{"lm loss": 2.10793591, "grad_norm": 0.38125223, "learning_rate": 6.332e-05, "elapsed_time_per_iteration": 4.92812467, "memory(GiB)": 28.98, "elapsed_time": "7h 45m 57s", "remaining_time": "9h 28m 14s", "loss_scale": 1.0, "consumed_samples": 1464832, "global_step/max_steps": "5722/12700"}
{"lm loss": 2.09247637, "grad_norm": 0.3520014, "learning_rate": 6.331e-05, "elapsed_time_per_iteration": 4.82403541, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 2s", "remaining_time": "9h 28m 9s", "loss_scale": 1.0, "consumed_samples": 1465088, "global_step/max_steps": "5723/12700"}
{"lm loss": 2.09288311, "grad_norm": 0.40087488, "learning_rate": 6.33e-05, "elapsed_time_per_iteration": 4.77113104, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 7s", "remaining_time": "9h 28m 4s", "loss_scale": 1.0, "consumed_samples": 1465344, "global_step/max_steps": "5724/12700"}
{"lm loss": 2.08968067, "grad_norm": 0.39531028, "learning_rate": 6.328e-05, "elapsed_time_per_iteration": 4.89330673, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 11s", "remaining_time": "9h 27m 59s", "loss_scale": 1.0, "consumed_samples": 1465600, "global_step/max_steps": "5725/12700"}
{"lm loss": 2.05260587, "grad_norm": 0.36345804, "learning_rate": 6.327e-05, "elapsed_time_per_iteration": 4.82074571, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 16s", "remaining_time": "9h 27m 54s", "loss_scale": 1.0, "consumed_samples": 1465856, "global_step/max_steps": "5726/12700"}
{"lm loss": 2.1033926, "grad_norm": 0.37964714, "learning_rate": 6.326e-05, "elapsed_time_per_iteration": 4.95393896, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 21s", "remaining_time": "9h 27m 49s", "loss_scale": 1.0, "consumed_samples": 1466112, "global_step/max_steps": "5727/12700"}
{"lm loss": 2.0927155, "grad_norm": 0.39961484, "learning_rate": 6.325e-05, "elapsed_time_per_iteration": 4.84578252, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 26s", "remaining_time": "9h 27m 44s", "loss_scale": 1.0, "consumed_samples": 1466368, "global_step/max_steps": "5728/12700"}
{"lm loss": 2.11208081, "grad_norm": 0.3937701, "learning_rate": 6.323e-05, "elapsed_time_per_iteration": 4.79837632, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 31s", "remaining_time": "9h 27m 39s", "loss_scale": 1.0, "consumed_samples": 1466624, "global_step/max_steps": "5729/12700"}
{"lm loss": 2.1111145, "grad_norm": 0.34646198, "learning_rate": 6.322e-05, "elapsed_time_per_iteration": 4.76999187, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 36s", "remaining_time": "9h 27m 34s", "loss_scale": 1.0, "consumed_samples": 1466880, "global_step/max_steps": "5730/12700"}
{"lm loss": 2.10860372, "grad_norm": 0.39575434, "learning_rate": 6.321e-05, "elapsed_time_per_iteration": 4.88434434, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 41s", "remaining_time": "9h 27m 29s", "loss_scale": 1.0, "consumed_samples": 1467136, "global_step/max_steps": "5731/12700"}
{"lm loss": 2.09931445, "grad_norm": 0.34082374, "learning_rate": 6.32e-05, "elapsed_time_per_iteration": 4.8291533, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 45s", "remaining_time": "9h 27m 24s", "loss_scale": 1.0, "consumed_samples": 1467392, "global_step/max_steps": "5732/12700"}
{"lm loss": 2.10179281, "grad_norm": 0.37722531, "learning_rate": 6.319e-05, "elapsed_time_per_iteration": 4.83896804, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 50s", "remaining_time": "9h 27m 19s", "loss_scale": 1.0, "consumed_samples": 1467648, "global_step/max_steps": "5733/12700"}
{"lm loss": 2.09699321, "grad_norm": 0.34743389, "learning_rate": 6.317e-05, "elapsed_time_per_iteration": 4.86706328, "memory(GiB)": 28.98, "elapsed_time": "7h 46m 55s", "remaining_time": "9h 27m 14s", "loss_scale": 1.0, "consumed_samples": 1467904, "global_step/max_steps": "5734/12700"}
{"lm loss": 2.09834814, "grad_norm": 0.3833952, "learning_rate": 6.316e-05, "elapsed_time_per_iteration": 4.85068727, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 0s", "remaining_time": "9h 27m 10s", "loss_scale": 1.0, "consumed_samples": 1468160, "global_step/max_steps": "5735/12700"}
{"lm loss": 2.11652899, "grad_norm": 0.3696399, "learning_rate": 6.315e-05, "elapsed_time_per_iteration": 4.88201356, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 5s", "remaining_time": "9h 27m 5s", "loss_scale": 1.0, "consumed_samples": 1468416, "global_step/max_steps": "5736/12700"}
{"lm loss": 2.10150433, "grad_norm": 0.36785939, "learning_rate": 6.314e-05, "elapsed_time_per_iteration": 4.86681533, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 10s", "remaining_time": "9h 27m 0s", "loss_scale": 1.0, "consumed_samples": 1468672, "global_step/max_steps": "5737/12700"}
{"lm loss": 2.10719943, "grad_norm": 0.35490751, "learning_rate": 6.312e-05, "elapsed_time_per_iteration": 4.91255069, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 15s", "remaining_time": "9h 26m 55s", "loss_scale": 1.0, "consumed_samples": 1468928, "global_step/max_steps": "5738/12700"}
{"lm loss": 2.09831285, "grad_norm": 0.37800464, "learning_rate": 6.311e-05, "elapsed_time_per_iteration": 4.96895981, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 20s", "remaining_time": "9h 26m 50s", "loss_scale": 1.0, "consumed_samples": 1469184, "global_step/max_steps": "5739/12700"}
{"lm loss": 2.09626818, "grad_norm": 0.3701424, "learning_rate": 6.31e-05, "elapsed_time_per_iteration": 4.92060447, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 24s", "remaining_time": "9h 26m 45s", "loss_scale": 1.0, "consumed_samples": 1469440, "global_step/max_steps": "5740/12700"}
{"lm loss": 2.10497713, "grad_norm": 0.3761048, "learning_rate": 6.309e-05, "elapsed_time_per_iteration": 4.90556693, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 29s", "remaining_time": "9h 26m 40s", "loss_scale": 1.0, "consumed_samples": 1469696, "global_step/max_steps": "5741/12700"}
{"lm loss": 2.10666823, "grad_norm": 0.37826157, "learning_rate": 6.308e-05, "elapsed_time_per_iteration": 4.96926665, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 34s", "remaining_time": "9h 26m 36s", "loss_scale": 1.0, "consumed_samples": 1469952, "global_step/max_steps": "5742/12700"}
{"lm loss": 2.10088825, "grad_norm": 0.38032842, "learning_rate": 6.306e-05, "elapsed_time_per_iteration": 4.90179825, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 39s", "remaining_time": "9h 26m 31s", "loss_scale": 1.0, "consumed_samples": 1470208, "global_step/max_steps": "5743/12700"}
{"lm loss": 2.11122012, "grad_norm": 0.37763649, "learning_rate": 6.305e-05, "elapsed_time_per_iteration": 4.90865254, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 44s", "remaining_time": "9h 26m 26s", "loss_scale": 1.0, "consumed_samples": 1470464, "global_step/max_steps": "5744/12700"}
{"lm loss": 2.11770558, "grad_norm": 0.41227579, "learning_rate": 6.304e-05, "elapsed_time_per_iteration": 4.91335869, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 49s", "remaining_time": "9h 26m 21s", "loss_scale": 1.0, "consumed_samples": 1470720, "global_step/max_steps": "5745/12700"}
{"lm loss": 2.13314748, "grad_norm": 0.41880423, "learning_rate": 6.303e-05, "elapsed_time_per_iteration": 4.86642623, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 54s", "remaining_time": "9h 26m 16s", "loss_scale": 1.0, "consumed_samples": 1470976, "global_step/max_steps": "5746/12700"}
{"lm loss": 2.11606073, "grad_norm": 0.38050887, "learning_rate": 6.301e-05, "elapsed_time_per_iteration": 4.96764541, "memory(GiB)": 28.98, "elapsed_time": "7h 47m 59s", "remaining_time": "9h 26m 11s", "loss_scale": 1.0, "consumed_samples": 1471232, "global_step/max_steps": "5747/12700"}
{"lm loss": 2.09934354, "grad_norm": 0.38909063, "learning_rate": 6.3e-05, "elapsed_time_per_iteration": 4.835989, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 4s", "remaining_time": "9h 26m 6s", "loss_scale": 1.0, "consumed_samples": 1471488, "global_step/max_steps": "5748/12700"}
{"lm loss": 2.12300611, "grad_norm": 0.36633927, "learning_rate": 6.299e-05, "elapsed_time_per_iteration": 4.85724854, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 9s", "remaining_time": "9h 26m 1s", "loss_scale": 1.0, "consumed_samples": 1471744, "global_step/max_steps": "5749/12700"}
{"lm loss": 2.11448431, "grad_norm": 0.39229327, "learning_rate": 6.298e-05, "elapsed_time_per_iteration": 4.90169525, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 14s", "remaining_time": "9h 25m 57s", "loss_scale": 1.0, "consumed_samples": 1472000, "global_step/max_steps": "5750/12700"}
{"lm loss": 2.09911728, "grad_norm": 0.39850339, "learning_rate": 6.296e-05, "elapsed_time_per_iteration": 4.79252505, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 18s", "remaining_time": "9h 25m 52s", "loss_scale": 1.0, "consumed_samples": 1472256, "global_step/max_steps": "5751/12700"}
{"lm loss": 2.11979222, "grad_norm": 0.3805683, "learning_rate": 6.295e-05, "elapsed_time_per_iteration": 4.9432807, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 23s", "remaining_time": "9h 25m 47s", "loss_scale": 1.0, "consumed_samples": 1472512, "global_step/max_steps": "5752/12700"}
{"lm loss": 2.1180377, "grad_norm": 0.36936489, "learning_rate": 6.294e-05, "elapsed_time_per_iteration": 4.87409592, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 28s", "remaining_time": "9h 25m 42s", "loss_scale": 1.0, "consumed_samples": 1472768, "global_step/max_steps": "5753/12700"}
{"lm loss": 2.10955024, "grad_norm": 0.36653334, "learning_rate": 6.293e-05, "elapsed_time_per_iteration": 4.90329432, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 33s", "remaining_time": "9h 25m 37s", "loss_scale": 1.0, "consumed_samples": 1473024, "global_step/max_steps": "5754/12700"}
{"lm loss": 2.09883022, "grad_norm": 0.38476756, "learning_rate": 6.292e-05, "elapsed_time_per_iteration": 4.78360391, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 38s", "remaining_time": "9h 25m 32s", "loss_scale": 1.0, "consumed_samples": 1473280, "global_step/max_steps": "5755/12700"}
{"lm loss": 2.13753748, "grad_norm": 0.40106004, "learning_rate": 6.29e-05, "elapsed_time_per_iteration": 4.93796277, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 43s", "remaining_time": "9h 25m 27s", "loss_scale": 1.0, "consumed_samples": 1473536, "global_step/max_steps": "5756/12700"}
{"lm loss": 2.10720658, "grad_norm": 0.36489812, "learning_rate": 6.289e-05, "elapsed_time_per_iteration": 5.00791264, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 48s", "remaining_time": "9h 25m 22s", "loss_scale": 1.0, "consumed_samples": 1473792, "global_step/max_steps": "5757/12700"}
{"lm loss": 2.12659431, "grad_norm": 0.37600547, "learning_rate": 6.288e-05, "elapsed_time_per_iteration": 4.85162258, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 53s", "remaining_time": "9h 25m 18s", "loss_scale": 1.0, "consumed_samples": 1474048, "global_step/max_steps": "5758/12700"}
{"lm loss": 2.06882501, "grad_norm": 0.38423735, "learning_rate": 6.287e-05, "elapsed_time_per_iteration": 4.800457, "memory(GiB)": 28.98, "elapsed_time": "7h 48m 57s", "remaining_time": "9h 25m 13s", "loss_scale": 1.0, "consumed_samples": 1474304, "global_step/max_steps": "5759/12700"}
{"lm loss": 2.09050632, "grad_norm": 0.35769436, "learning_rate": 6.285e-05, "elapsed_time_per_iteration": 4.87074089, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 2s", "remaining_time": "9h 25m 8s", "loss_scale": 1.0, "consumed_samples": 1474560, "global_step/max_steps": "5760/12700"}
{"lm loss": 2.07239079, "grad_norm": 0.37909144, "learning_rate": 6.284e-05, "elapsed_time_per_iteration": 4.80554819, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 7s", "remaining_time": "9h 25m 3s", "loss_scale": 1.0, "consumed_samples": 1474816, "global_step/max_steps": "5761/12700"}
{"lm loss": 2.12209702, "grad_norm": 0.40055346, "learning_rate": 6.283e-05, "elapsed_time_per_iteration": 5.01512504, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 12s", "remaining_time": "9h 24m 58s", "loss_scale": 1.0, "consumed_samples": 1475072, "global_step/max_steps": "5762/12700"}
{"lm loss": 2.09766126, "grad_norm": 0.35246119, "learning_rate": 6.282e-05, "elapsed_time_per_iteration": 4.8705709, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 17s", "remaining_time": "9h 24m 53s", "loss_scale": 1.0, "consumed_samples": 1475328, "global_step/max_steps": "5763/12700"}
{"lm loss": 2.12006116, "grad_norm": 0.36423513, "learning_rate": 6.281e-05, "elapsed_time_per_iteration": 4.90359092, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 22s", "remaining_time": "9h 24m 48s", "loss_scale": 1.0, "consumed_samples": 1475584, "global_step/max_steps": "5764/12700"}
{"lm loss": 2.10089564, "grad_norm": 0.36861557, "learning_rate": 6.279e-05, "elapsed_time_per_iteration": 4.87397742, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 27s", "remaining_time": "9h 24m 43s", "loss_scale": 1.0, "consumed_samples": 1475840, "global_step/max_steps": "5765/12700"}
{"lm loss": 2.11052155, "grad_norm": 0.35815004, "learning_rate": 6.278e-05, "elapsed_time_per_iteration": 4.85557795, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 32s", "remaining_time": "9h 24m 38s", "loss_scale": 1.0, "consumed_samples": 1476096, "global_step/max_steps": "5766/12700"}
{"lm loss": 2.06834579, "grad_norm": 0.38312364, "learning_rate": 6.277e-05, "elapsed_time_per_iteration": 4.89001846, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 36s", "remaining_time": "9h 24m 33s", "loss_scale": 1.0, "consumed_samples": 1476352, "global_step/max_steps": "5767/12700"}
{"lm loss": 2.0960443, "grad_norm": 0.35437688, "learning_rate": 6.276e-05, "elapsed_time_per_iteration": 4.92057395, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 41s", "remaining_time": "9h 24m 29s", "loss_scale": 1.0, "consumed_samples": 1476608, "global_step/max_steps": "5768/12700"}
{"lm loss": 2.11760616, "grad_norm": 0.39442256, "learning_rate": 6.274e-05, "elapsed_time_per_iteration": 4.93073535, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 46s", "remaining_time": "9h 24m 24s", "loss_scale": 1.0, "consumed_samples": 1476864, "global_step/max_steps": "5769/12700"}
{"lm loss": 2.11735749, "grad_norm": 0.37044969, "learning_rate": 6.273e-05, "elapsed_time_per_iteration": 4.90127182, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 51s", "remaining_time": "9h 24m 19s", "loss_scale": 1.0, "consumed_samples": 1477120, "global_step/max_steps": "5770/12700"}
{"lm loss": 2.1124413, "grad_norm": 0.37871841, "learning_rate": 6.272e-05, "elapsed_time_per_iteration": 4.8726871, "memory(GiB)": 28.98, "elapsed_time": "7h 49m 56s", "remaining_time": "9h 24m 14s", "loss_scale": 1.0, "consumed_samples": 1477376, "global_step/max_steps": "5771/12700"}
{"lm loss": 2.10490584, "grad_norm": 0.37838882, "learning_rate": 6.271e-05, "elapsed_time_per_iteration": 4.92902684, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 1s", "remaining_time": "9h 24m 9s", "loss_scale": 1.0, "consumed_samples": 1477632, "global_step/max_steps": "5772/12700"}
{"lm loss": 2.08621383, "grad_norm": 0.38305935, "learning_rate": 6.269e-05, "elapsed_time_per_iteration": 4.86675501, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 6s", "remaining_time": "9h 24m 4s", "loss_scale": 1.0, "consumed_samples": 1477888, "global_step/max_steps": "5773/12700"}
{"lm loss": 2.09643698, "grad_norm": 0.37440386, "learning_rate": 6.268e-05, "elapsed_time_per_iteration": 5.01659775, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 11s", "remaining_time": "9h 24m 0s", "loss_scale": 1.0, "consumed_samples": 1478144, "global_step/max_steps": "5774/12700"}
{"lm loss": 2.13803434, "grad_norm": 0.37131447, "learning_rate": 6.267e-05, "elapsed_time_per_iteration": 4.82084751, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 16s", "remaining_time": "9h 23m 55s", "loss_scale": 1.0, "consumed_samples": 1478400, "global_step/max_steps": "5775/12700"}
{"lm loss": 2.09766626, "grad_norm": 0.33986956, "learning_rate": 6.266e-05, "elapsed_time_per_iteration": 4.87153435, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 21s", "remaining_time": "9h 23m 50s", "loss_scale": 1.0, "consumed_samples": 1478656, "global_step/max_steps": "5776/12700"}
{"lm loss": 2.11697173, "grad_norm": 0.36860359, "learning_rate": 6.265e-05, "elapsed_time_per_iteration": 4.81317711, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 25s", "remaining_time": "9h 23m 45s", "loss_scale": 1.0, "consumed_samples": 1478912, "global_step/max_steps": "5777/12700"}
{"lm loss": 2.11496687, "grad_norm": 0.355764, "learning_rate": 6.263e-05, "elapsed_time_per_iteration": 4.83166313, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 30s", "remaining_time": "9h 23m 40s", "loss_scale": 1.0, "consumed_samples": 1479168, "global_step/max_steps": "5778/12700"}
{"lm loss": 2.08758807, "grad_norm": 0.38049242, "learning_rate": 6.262e-05, "elapsed_time_per_iteration": 4.86475253, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 35s", "remaining_time": "9h 23m 35s", "loss_scale": 1.0, "consumed_samples": 1479424, "global_step/max_steps": "5779/12700"}
{"lm loss": 2.0998497, "grad_norm": 0.34403259, "learning_rate": 6.261e-05, "elapsed_time_per_iteration": 4.84188032, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 40s", "remaining_time": "9h 23m 30s", "loss_scale": 1.0, "consumed_samples": 1479680, "global_step/max_steps": "5780/12700"}
{"lm loss": 2.09817147, "grad_norm": 0.37583897, "learning_rate": 6.26e-05, "elapsed_time_per_iteration": 4.85261083, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 45s", "remaining_time": "9h 23m 25s", "loss_scale": 1.0, "consumed_samples": 1479936, "global_step/max_steps": "5781/12700"}
{"lm loss": 2.10241199, "grad_norm": 0.36088535, "learning_rate": 6.258e-05, "elapsed_time_per_iteration": 4.78991508, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 50s", "remaining_time": "9h 23m 20s", "loss_scale": 1.0, "consumed_samples": 1480192, "global_step/max_steps": "5782/12700"}
{"lm loss": 2.1104846, "grad_norm": 0.37867615, "learning_rate": 6.257e-05, "elapsed_time_per_iteration": 4.84662127, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 54s", "remaining_time": "9h 23m 15s", "loss_scale": 1.0, "consumed_samples": 1480448, "global_step/max_steps": "5783/12700"}
{"lm loss": 2.08455253, "grad_norm": 0.38403025, "learning_rate": 6.256e-05, "elapsed_time_per_iteration": 4.87823296, "memory(GiB)": 28.98, "elapsed_time": "7h 50m 59s", "remaining_time": "9h 23m 10s", "loss_scale": 1.0, "consumed_samples": 1480704, "global_step/max_steps": "5784/12700"}
{"lm loss": 2.09227777, "grad_norm": 0.35340181, "learning_rate": 6.255e-05, "elapsed_time_per_iteration": 4.83445811, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 4s", "remaining_time": "9h 23m 5s", "loss_scale": 1.0, "consumed_samples": 1480960, "global_step/max_steps": "5785/12700"}
{"lm loss": 2.08857369, "grad_norm": 0.37782973, "learning_rate": 6.253e-05, "elapsed_time_per_iteration": 5.04839492, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 9s", "remaining_time": "9h 23m 0s", "loss_scale": 1.0, "consumed_samples": 1481216, "global_step/max_steps": "5786/12700"}
{"lm loss": 2.10322833, "grad_norm": 0.35507324, "learning_rate": 6.252e-05, "elapsed_time_per_iteration": 4.81815886, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 14s", "remaining_time": "9h 22m 56s", "loss_scale": 1.0, "consumed_samples": 1481472, "global_step/max_steps": "5787/12700"}
{"lm loss": 2.07522082, "grad_norm": 0.36844116, "learning_rate": 6.251e-05, "elapsed_time_per_iteration": 4.94564891, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 19s", "remaining_time": "9h 22m 51s", "loss_scale": 1.0, "consumed_samples": 1481728, "global_step/max_steps": "5788/12700"}
{"lm loss": 2.06259108, "grad_norm": 0.35277402, "learning_rate": 6.25e-05, "elapsed_time_per_iteration": 4.87993073, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 24s", "remaining_time": "9h 22m 46s", "loss_scale": 1.0, "consumed_samples": 1481984, "global_step/max_steps": "5789/12700"}
{"lm loss": 2.10621119, "grad_norm": 0.37416151, "learning_rate": 6.249e-05, "elapsed_time_per_iteration": 4.82781625, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 29s", "remaining_time": "9h 22m 41s", "loss_scale": 1.0, "consumed_samples": 1482240, "global_step/max_steps": "5790/12700"}
{"lm loss": 2.08186865, "grad_norm": 0.36551508, "learning_rate": 6.247e-05, "elapsed_time_per_iteration": 4.86316895, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 34s", "remaining_time": "9h 22m 36s", "loss_scale": 1.0, "consumed_samples": 1482496, "global_step/max_steps": "5791/12700"}
{"lm loss": 2.12043571, "grad_norm": 0.38774282, "learning_rate": 6.246e-05, "elapsed_time_per_iteration": 4.91783786, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 38s", "remaining_time": "9h 22m 31s", "loss_scale": 1.0, "consumed_samples": 1482752, "global_step/max_steps": "5792/12700"}
{"lm loss": 2.10239267, "grad_norm": 0.33418781, "learning_rate": 6.245e-05, "elapsed_time_per_iteration": 5.04267383, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 44s", "remaining_time": "9h 22m 26s", "loss_scale": 1.0, "consumed_samples": 1483008, "global_step/max_steps": "5793/12700"}
{"lm loss": 2.08721519, "grad_norm": 0.43568623, "learning_rate": 6.244e-05, "elapsed_time_per_iteration": 4.91730952, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 48s", "remaining_time": "9h 22m 22s", "loss_scale": 1.0, "consumed_samples": 1483264, "global_step/max_steps": "5794/12700"}
{"lm loss": 2.08340192, "grad_norm": 0.34664467, "learning_rate": 6.242e-05, "elapsed_time_per_iteration": 4.8800354, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 53s", "remaining_time": "9h 22m 17s", "loss_scale": 1.0, "consumed_samples": 1483520, "global_step/max_steps": "5795/12700"}
{"lm loss": 2.06915712, "grad_norm": 0.38848227, "learning_rate": 6.241e-05, "elapsed_time_per_iteration": 5.01825905, "memory(GiB)": 28.98, "elapsed_time": "7h 51m 58s", "remaining_time": "9h 22m 12s", "loss_scale": 1.0, "consumed_samples": 1483776, "global_step/max_steps": "5796/12700"}
{"lm loss": 2.107054, "grad_norm": 0.3743819, "learning_rate": 6.24e-05, "elapsed_time_per_iteration": 4.86367702, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 3s", "remaining_time": "9h 22m 7s", "loss_scale": 1.0, "consumed_samples": 1484032, "global_step/max_steps": "5797/12700"}
{"lm loss": 2.11169672, "grad_norm": 0.38724819, "learning_rate": 6.239e-05, "elapsed_time_per_iteration": 4.92406344, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 8s", "remaining_time": "9h 22m 2s", "loss_scale": 1.0, "consumed_samples": 1484288, "global_step/max_steps": "5798/12700"}
{"lm loss": 2.13853812, "grad_norm": 0.39026079, "learning_rate": 6.237e-05, "elapsed_time_per_iteration": 4.78578949, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 13s", "remaining_time": "9h 21m 57s", "loss_scale": 1.0, "consumed_samples": 1484544, "global_step/max_steps": "5799/12700"}
{"lm loss": 2.08063841, "grad_norm": 0.39264989, "learning_rate": 6.236e-05, "elapsed_time_per_iteration": 4.87162876, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 18s", "remaining_time": "9h 21m 52s", "loss_scale": 1.0, "consumed_samples": 1484800, "global_step/max_steps": "5800/12700"}
{"lm loss": 2.11073995, "grad_norm": 0.37908101, "learning_rate": 6.235e-05, "elapsed_time_per_iteration": 4.84783196, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 23s", "remaining_time": "9h 21m 47s", "loss_scale": 1.0, "consumed_samples": 1485056, "global_step/max_steps": "5801/12700"}
{"lm loss": 2.11470556, "grad_norm": 0.37558103, "learning_rate": 6.234e-05, "elapsed_time_per_iteration": 4.89388394, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 28s", "remaining_time": "9h 21m 42s", "loss_scale": 1.0, "consumed_samples": 1485312, "global_step/max_steps": "5802/12700"}
{"lm loss": 2.12930226, "grad_norm": 0.40051305, "learning_rate": 6.233e-05, "elapsed_time_per_iteration": 4.87065101, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 32s", "remaining_time": "9h 21m 38s", "loss_scale": 1.0, "consumed_samples": 1485568, "global_step/max_steps": "5803/12700"}
{"lm loss": 2.12278605, "grad_norm": 0.37026244, "learning_rate": 6.231e-05, "elapsed_time_per_iteration": 4.98980784, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 37s", "remaining_time": "9h 21m 33s", "loss_scale": 1.0, "consumed_samples": 1485824, "global_step/max_steps": "5804/12700"}
{"lm loss": 2.11425543, "grad_norm": 0.38139883, "learning_rate": 6.23e-05, "elapsed_time_per_iteration": 4.85000682, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 42s", "remaining_time": "9h 21m 28s", "loss_scale": 1.0, "consumed_samples": 1486080, "global_step/max_steps": "5805/12700"}
{"lm loss": 2.13057923, "grad_norm": 0.38447076, "learning_rate": 6.229e-05, "elapsed_time_per_iteration": 4.83916807, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 47s", "remaining_time": "9h 21m 23s", "loss_scale": 1.0, "consumed_samples": 1486336, "global_step/max_steps": "5806/12700"}
{"lm loss": 2.12347364, "grad_norm": 0.38109213, "learning_rate": 6.228e-05, "elapsed_time_per_iteration": 4.87812614, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 52s", "remaining_time": "9h 21m 18s", "loss_scale": 1.0, "consumed_samples": 1486592, "global_step/max_steps": "5807/12700"}
{"lm loss": 2.0883131, "grad_norm": 0.39272752, "learning_rate": 6.226e-05, "elapsed_time_per_iteration": 4.88632417, "memory(GiB)": 28.98, "elapsed_time": "7h 52m 57s", "remaining_time": "9h 21m 13s", "loss_scale": 1.0, "consumed_samples": 1486848, "global_step/max_steps": "5808/12700"}
{"lm loss": 2.10127306, "grad_norm": 0.39301467, "learning_rate": 6.225e-05, "elapsed_time_per_iteration": 4.84201646, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 2s", "remaining_time": "9h 21m 8s", "loss_scale": 1.0, "consumed_samples": 1487104, "global_step/max_steps": "5809/12700"}
{"lm loss": 2.12177825, "grad_norm": 0.41758877, "learning_rate": 6.224e-05, "elapsed_time_per_iteration": 4.8966918, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 7s", "remaining_time": "9h 21m 3s", "loss_scale": 1.0, "consumed_samples": 1487360, "global_step/max_steps": "5810/12700"}
{"lm loss": 2.09381008, "grad_norm": 0.40968063, "learning_rate": 6.223e-05, "elapsed_time_per_iteration": 4.81647635, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 11s", "remaining_time": "9h 20m 58s", "loss_scale": 1.0, "consumed_samples": 1487616, "global_step/max_steps": "5811/12700"}
{"lm loss": 2.0730052, "grad_norm": 0.39028373, "learning_rate": 6.221e-05, "elapsed_time_per_iteration": 4.96961951, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 16s", "remaining_time": "9h 20m 54s", "loss_scale": 1.0, "consumed_samples": 1487872, "global_step/max_steps": "5812/12700"}
{"lm loss": 2.09154987, "grad_norm": 0.38657919, "learning_rate": 6.22e-05, "elapsed_time_per_iteration": 4.85815263, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 21s", "remaining_time": "9h 20m 49s", "loss_scale": 1.0, "consumed_samples": 1488128, "global_step/max_steps": "5813/12700"}
{"lm loss": 2.09055829, "grad_norm": 0.40425715, "learning_rate": 6.219e-05, "elapsed_time_per_iteration": 4.84496331, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 26s", "remaining_time": "9h 20m 44s", "loss_scale": 1.0, "consumed_samples": 1488384, "global_step/max_steps": "5814/12700"}
{"lm loss": 2.06844234, "grad_norm": 0.43492767, "learning_rate": 6.218e-05, "elapsed_time_per_iteration": 4.88850546, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 31s", "remaining_time": "9h 20m 39s", "loss_scale": 1.0, "consumed_samples": 1488640, "global_step/max_steps": "5815/12700"}
{"lm loss": 2.09232163, "grad_norm": 0.39708468, "learning_rate": 6.217e-05, "elapsed_time_per_iteration": 4.79669952, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 36s", "remaining_time": "9h 20m 34s", "loss_scale": 1.0, "consumed_samples": 1488896, "global_step/max_steps": "5816/12700"}
{"lm loss": 2.07977581, "grad_norm": 0.38538709, "learning_rate": 6.215e-05, "elapsed_time_per_iteration": 4.81654882, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 41s", "remaining_time": "9h 20m 29s", "loss_scale": 1.0, "consumed_samples": 1489152, "global_step/max_steps": "5817/12700"}
{"lm loss": 2.08979034, "grad_norm": 0.41394937, "learning_rate": 6.214e-05, "elapsed_time_per_iteration": 4.87837458, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 45s", "remaining_time": "9h 20m 24s", "loss_scale": 1.0, "consumed_samples": 1489408, "global_step/max_steps": "5818/12700"}
{"lm loss": 2.08709121, "grad_norm": 0.38901341, "learning_rate": 6.213e-05, "elapsed_time_per_iteration": 4.9319551, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 50s", "remaining_time": "9h 20m 19s", "loss_scale": 1.0, "consumed_samples": 1489664, "global_step/max_steps": "5819/12700"}
{"lm loss": 2.09738851, "grad_norm": 0.40289199, "learning_rate": 6.212e-05, "elapsed_time_per_iteration": 4.87359214, "memory(GiB)": 28.98, "elapsed_time": "7h 53m 55s", "remaining_time": "9h 20m 14s", "loss_scale": 1.0, "consumed_samples": 1489920, "global_step/max_steps": "5820/12700"}
{"lm loss": 2.13951874, "grad_norm": 0.42644137, "learning_rate": 6.21e-05, "elapsed_time_per_iteration": 4.76410508, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 0s", "remaining_time": "9h 20m 9s", "loss_scale": 1.0, "consumed_samples": 1490176, "global_step/max_steps": "5821/12700"}
{"lm loss": 2.12469435, "grad_norm": 0.38566288, "learning_rate": 6.209e-05, "elapsed_time_per_iteration": 4.90124559, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 5s", "remaining_time": "9h 20m 4s", "loss_scale": 1.0, "consumed_samples": 1490432, "global_step/max_steps": "5822/12700"}
{"lm loss": 2.11659551, "grad_norm": 0.38512695, "learning_rate": 6.208e-05, "elapsed_time_per_iteration": 4.89839959, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 10s", "remaining_time": "9h 19m 59s", "loss_scale": 1.0, "consumed_samples": 1490688, "global_step/max_steps": "5823/12700"}
{"lm loss": 2.09452486, "grad_norm": 0.38170063, "learning_rate": 6.207e-05, "elapsed_time_per_iteration": 4.90057015, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 15s", "remaining_time": "9h 19m 55s", "loss_scale": 1.0, "consumed_samples": 1490944, "global_step/max_steps": "5824/12700"}
{"lm loss": 2.0676384, "grad_norm": 0.36676589, "learning_rate": 6.205e-05, "elapsed_time_per_iteration": 4.82184649, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 20s", "remaining_time": "9h 19m 50s", "loss_scale": 1.0, "consumed_samples": 1491200, "global_step/max_steps": "5825/12700"}
{"lm loss": 2.10406566, "grad_norm": 0.41941783, "learning_rate": 6.204e-05, "elapsed_time_per_iteration": 4.82216048, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 24s", "remaining_time": "9h 19m 45s", "loss_scale": 1.0, "consumed_samples": 1491456, "global_step/max_steps": "5826/12700"}
{"lm loss": 2.09679222, "grad_norm": 0.35409883, "learning_rate": 6.203e-05, "elapsed_time_per_iteration": 4.86433482, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 29s", "remaining_time": "9h 19m 40s", "loss_scale": 1.0, "consumed_samples": 1491712, "global_step/max_steps": "5827/12700"}
{"lm loss": 2.07883167, "grad_norm": 0.37494799, "learning_rate": 6.202e-05, "elapsed_time_per_iteration": 4.83110046, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 34s", "remaining_time": "9h 19m 35s", "loss_scale": 1.0, "consumed_samples": 1491968, "global_step/max_steps": "5828/12700"}
{"lm loss": 2.07150364, "grad_norm": 0.3813028, "learning_rate": 6.201e-05, "elapsed_time_per_iteration": 4.84342337, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 39s", "remaining_time": "9h 19m 30s", "loss_scale": 1.0, "consumed_samples": 1492224, "global_step/max_steps": "5829/12700"}
{"lm loss": 2.10670924, "grad_norm": 0.37067574, "learning_rate": 6.199e-05, "elapsed_time_per_iteration": 4.93883419, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 44s", "remaining_time": "9h 19m 25s", "loss_scale": 1.0, "consumed_samples": 1492480, "global_step/max_steps": "5830/12700"}
{"lm loss": 2.10341644, "grad_norm": 0.34653121, "learning_rate": 6.198e-05, "elapsed_time_per_iteration": 4.82483244, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 49s", "remaining_time": "9h 19m 20s", "loss_scale": 1.0, "consumed_samples": 1492736, "global_step/max_steps": "5831/12700"}
{"lm loss": 2.09696054, "grad_norm": 0.41874054, "learning_rate": 6.197e-05, "elapsed_time_per_iteration": 4.87323761, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 54s", "remaining_time": "9h 19m 15s", "loss_scale": 1.0, "consumed_samples": 1492992, "global_step/max_steps": "5832/12700"}
{"lm loss": 2.13258362, "grad_norm": 0.35729492, "learning_rate": 6.196e-05, "elapsed_time_per_iteration": 4.79545665, "memory(GiB)": 28.98, "elapsed_time": "7h 54m 58s", "remaining_time": "9h 19m 10s", "loss_scale": 1.0, "consumed_samples": 1493248, "global_step/max_steps": "5833/12700"}
{"lm loss": 2.07429719, "grad_norm": 0.3910147, "learning_rate": 6.194e-05, "elapsed_time_per_iteration": 4.8675766, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 3s", "remaining_time": "9h 19m 5s", "loss_scale": 1.0, "consumed_samples": 1493504, "global_step/max_steps": "5834/12700"}
{"lm loss": 2.11058354, "grad_norm": 0.38655588, "learning_rate": 6.193e-05, "elapsed_time_per_iteration": 4.86901641, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 8s", "remaining_time": "9h 19m 0s", "loss_scale": 1.0, "consumed_samples": 1493760, "global_step/max_steps": "5835/12700"}
{"lm loss": 2.07049203, "grad_norm": 0.39328653, "learning_rate": 6.192e-05, "elapsed_time_per_iteration": 4.91094756, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 13s", "remaining_time": "9h 18m 56s", "loss_scale": 1.0, "consumed_samples": 1494016, "global_step/max_steps": "5836/12700"}
{"lm loss": 2.12680149, "grad_norm": 0.40204945, "learning_rate": 6.191e-05, "elapsed_time_per_iteration": 4.90067387, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 18s", "remaining_time": "9h 18m 51s", "loss_scale": 1.0, "consumed_samples": 1494272, "global_step/max_steps": "5837/12700"}
{"lm loss": 2.11736417, "grad_norm": 0.33728164, "learning_rate": 6.189e-05, "elapsed_time_per_iteration": 4.89704418, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 23s", "remaining_time": "9h 18m 46s", "loss_scale": 1.0, "consumed_samples": 1494528, "global_step/max_steps": "5838/12700"}
{"lm loss": 2.13010931, "grad_norm": 0.42149106, "learning_rate": 6.188e-05, "elapsed_time_per_iteration": 4.80913162, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 28s", "remaining_time": "9h 18m 41s", "loss_scale": 1.0, "consumed_samples": 1494784, "global_step/max_steps": "5839/12700"}
{"lm loss": 2.07364464, "grad_norm": 0.37810248, "learning_rate": 6.187e-05, "elapsed_time_per_iteration": 4.9323597, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 33s", "remaining_time": "9h 18m 36s", "loss_scale": 1.0, "consumed_samples": 1495040, "global_step/max_steps": "5840/12700"}
{"lm loss": 2.103127, "grad_norm": 0.38977584, "learning_rate": 6.186e-05, "elapsed_time_per_iteration": 4.81390429, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 37s", "remaining_time": "9h 18m 31s", "loss_scale": 1.0, "consumed_samples": 1495296, "global_step/max_steps": "5841/12700"}
{"lm loss": 2.08497882, "grad_norm": 0.33290282, "learning_rate": 6.185e-05, "elapsed_time_per_iteration": 4.84743094, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 42s", "remaining_time": "9h 18m 26s", "loss_scale": 1.0, "consumed_samples": 1495552, "global_step/max_steps": "5842/12700"}
{"lm loss": 2.06976223, "grad_norm": 0.39171177, "learning_rate": 6.183e-05, "elapsed_time_per_iteration": 4.93714929, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 47s", "remaining_time": "9h 18m 21s", "loss_scale": 1.0, "consumed_samples": 1495808, "global_step/max_steps": "5843/12700"}
{"lm loss": 2.08242965, "grad_norm": 0.37625438, "learning_rate": 6.182e-05, "elapsed_time_per_iteration": 4.84712815, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 52s", "remaining_time": "9h 18m 16s", "loss_scale": 1.0, "consumed_samples": 1496064, "global_step/max_steps": "5844/12700"}
{"lm loss": 2.11618257, "grad_norm": 0.37566146, "learning_rate": 6.181e-05, "elapsed_time_per_iteration": 4.89630175, "memory(GiB)": 28.98, "elapsed_time": "7h 55m 57s", "remaining_time": "9h 18m 11s", "loss_scale": 1.0, "consumed_samples": 1496320, "global_step/max_steps": "5845/12700"}
{"lm loss": 2.14808941, "grad_norm": 0.38118693, "learning_rate": 6.18e-05, "elapsed_time_per_iteration": 4.81435204, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 2s", "remaining_time": "9h 18m 7s", "loss_scale": 1.0, "consumed_samples": 1496576, "global_step/max_steps": "5846/12700"}
{"lm loss": 2.15321136, "grad_norm": 0.40318233, "learning_rate": 6.178e-05, "elapsed_time_per_iteration": 4.86274004, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 7s", "remaining_time": "9h 18m 2s", "loss_scale": 1.0, "consumed_samples": 1496832, "global_step/max_steps": "5847/12700"}
{"lm loss": 2.10732913, "grad_norm": 0.41521019, "learning_rate": 6.177e-05, "elapsed_time_per_iteration": 4.82050323, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 11s", "remaining_time": "9h 17m 57s", "loss_scale": 1.0, "consumed_samples": 1497088, "global_step/max_steps": "5848/12700"}
{"lm loss": 2.14112997, "grad_norm": 0.37316865, "learning_rate": 6.176e-05, "elapsed_time_per_iteration": 4.89160323, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 16s", "remaining_time": "9h 17m 52s", "loss_scale": 1.0, "consumed_samples": 1497344, "global_step/max_steps": "5849/12700"}
{"lm loss": 2.06983614, "grad_norm": 0.38854977, "learning_rate": 6.175e-05, "elapsed_time_per_iteration": 4.99304628, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 21s", "remaining_time": "9h 17m 47s", "loss_scale": 1.0, "consumed_samples": 1497600, "global_step/max_steps": "5850/12700"}
{"lm loss": 2.09407663, "grad_norm": 0.36054391, "learning_rate": 6.173e-05, "elapsed_time_per_iteration": 4.82165265, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 26s", "remaining_time": "9h 17m 42s", "loss_scale": 1.0, "consumed_samples": 1497856, "global_step/max_steps": "5851/12700"}
{"lm loss": 2.10343838, "grad_norm": 0.40086004, "learning_rate": 6.172e-05, "elapsed_time_per_iteration": 4.93366218, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 31s", "remaining_time": "9h 17m 37s", "loss_scale": 1.0, "consumed_samples": 1498112, "global_step/max_steps": "5852/12700"}
{"lm loss": 2.12072349, "grad_norm": 0.3364971, "learning_rate": 6.171e-05, "elapsed_time_per_iteration": 4.87531018, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 36s", "remaining_time": "9h 17m 32s", "loss_scale": 1.0, "consumed_samples": 1498368, "global_step/max_steps": "5853/12700"}
{"lm loss": 2.11347842, "grad_norm": 0.43090564, "learning_rate": 6.17e-05, "elapsed_time_per_iteration": 4.92405772, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 41s", "remaining_time": "9h 17m 27s", "loss_scale": 1.0, "consumed_samples": 1498624, "global_step/max_steps": "5854/12700"}
{"lm loss": 2.10959792, "grad_norm": 0.37770557, "learning_rate": 6.168e-05, "elapsed_time_per_iteration": 4.87345052, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 46s", "remaining_time": "9h 17m 23s", "loss_scale": 1.0, "consumed_samples": 1498880, "global_step/max_steps": "5855/12700"}
{"lm loss": 2.06118584, "grad_norm": 0.38733152, "learning_rate": 6.167e-05, "elapsed_time_per_iteration": 4.93076563, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 51s", "remaining_time": "9h 17m 18s", "loss_scale": 1.0, "consumed_samples": 1499136, "global_step/max_steps": "5856/12700"}
{"lm loss": 2.09525108, "grad_norm": 0.38682058, "learning_rate": 6.166e-05, "elapsed_time_per_iteration": 4.95218897, "memory(GiB)": 28.98, "elapsed_time": "7h 56m 56s", "remaining_time": "9h 17m 13s", "loss_scale": 1.0, "consumed_samples": 1499392, "global_step/max_steps": "5857/12700"}
{"lm loss": 2.10287404, "grad_norm": 0.37549749, "learning_rate": 6.165e-05, "elapsed_time_per_iteration": 4.81857324, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 0s", "remaining_time": "9h 17m 8s", "loss_scale": 1.0, "consumed_samples": 1499648, "global_step/max_steps": "5858/12700"}
{"lm loss": 2.10876131, "grad_norm": 0.38503432, "learning_rate": 6.164e-05, "elapsed_time_per_iteration": 4.84551978, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 5s", "remaining_time": "9h 17m 3s", "loss_scale": 1.0, "consumed_samples": 1499904, "global_step/max_steps": "5859/12700"}
{"lm loss": 2.08741665, "grad_norm": 0.36797315, "learning_rate": 6.162e-05, "elapsed_time_per_iteration": 4.87717199, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 10s", "remaining_time": "9h 16m 58s", "loss_scale": 1.0, "consumed_samples": 1500160, "global_step/max_steps": "5860/12700"}
{"lm loss": 2.0897069, "grad_norm": 0.41337603, "learning_rate": 6.161e-05, "elapsed_time_per_iteration": 4.8018415, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 15s", "remaining_time": "9h 16m 53s", "loss_scale": 1.0, "consumed_samples": 1500416, "global_step/max_steps": "5861/12700"}
{"lm loss": 2.1201148, "grad_norm": 0.35702032, "learning_rate": 6.16e-05, "elapsed_time_per_iteration": 4.82539105, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 20s", "remaining_time": "9h 16m 48s", "loss_scale": 1.0, "consumed_samples": 1500672, "global_step/max_steps": "5862/12700"}
{"lm loss": 2.09972835, "grad_norm": 0.44597769, "learning_rate": 6.159e-05, "elapsed_time_per_iteration": 4.86896133, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 25s", "remaining_time": "9h 16m 43s", "loss_scale": 1.0, "consumed_samples": 1500928, "global_step/max_steps": "5863/12700"}
{"lm loss": 2.10450506, "grad_norm": 0.37738594, "learning_rate": 6.157e-05, "elapsed_time_per_iteration": 4.77223706, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 29s", "remaining_time": "9h 16m 38s", "loss_scale": 1.0, "consumed_samples": 1501184, "global_step/max_steps": "5864/12700"}
{"lm loss": 2.11196446, "grad_norm": 0.43303981, "learning_rate": 6.156e-05, "elapsed_time_per_iteration": 5.02627301, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 34s", "remaining_time": "9h 16m 34s", "loss_scale": 1.0, "consumed_samples": 1501440, "global_step/max_steps": "5865/12700"}
{"lm loss": 2.07132196, "grad_norm": 0.43317541, "learning_rate": 6.155e-05, "elapsed_time_per_iteration": 4.80354643, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 39s", "remaining_time": "9h 16m 29s", "loss_scale": 1.0, "consumed_samples": 1501696, "global_step/max_steps": "5866/12700"}
{"lm loss": 2.06088495, "grad_norm": 0.37751502, "learning_rate": 6.154e-05, "elapsed_time_per_iteration": 4.85676718, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 44s", "remaining_time": "9h 16m 24s", "loss_scale": 1.0, "consumed_samples": 1501952, "global_step/max_steps": "5867/12700"}
{"lm loss": 2.13012171, "grad_norm": 0.41862294, "learning_rate": 6.152e-05, "elapsed_time_per_iteration": 4.95405817, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 49s", "remaining_time": "9h 16m 19s", "loss_scale": 1.0, "consumed_samples": 1502208, "global_step/max_steps": "5868/12700"}
{"lm loss": 2.12332773, "grad_norm": 0.36823407, "learning_rate": 6.151e-05, "elapsed_time_per_iteration": 4.85516834, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 54s", "remaining_time": "9h 16m 14s", "loss_scale": 1.0, "consumed_samples": 1502464, "global_step/max_steps": "5869/12700"}
{"lm loss": 2.13231802, "grad_norm": 0.39477795, "learning_rate": 6.15e-05, "elapsed_time_per_iteration": 4.87951708, "memory(GiB)": 28.98, "elapsed_time": "7h 57m 59s", "remaining_time": "9h 16m 9s", "loss_scale": 1.0, "consumed_samples": 1502720, "global_step/max_steps": "5870/12700"}
{"lm loss": 2.09762573, "grad_norm": 0.35070702, "learning_rate": 6.149e-05, "elapsed_time_per_iteration": 4.79347873, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 4s", "remaining_time": "9h 16m 4s", "loss_scale": 1.0, "consumed_samples": 1502976, "global_step/max_steps": "5871/12700"}
{"lm loss": 2.08820534, "grad_norm": 0.37666079, "learning_rate": 6.147e-05, "elapsed_time_per_iteration": 4.84279394, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 8s", "remaining_time": "9h 15m 59s", "loss_scale": 1.0, "consumed_samples": 1503232, "global_step/max_steps": "5872/12700"}
{"lm loss": 2.07773042, "grad_norm": 0.35177502, "learning_rate": 6.146e-05, "elapsed_time_per_iteration": 4.87762046, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 13s", "remaining_time": "9h 15m 54s", "loss_scale": 1.0, "consumed_samples": 1503488, "global_step/max_steps": "5873/12700"}
{"lm loss": 2.10376215, "grad_norm": 0.35606518, "learning_rate": 6.145e-05, "elapsed_time_per_iteration": 4.91537905, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 18s", "remaining_time": "9h 15m 49s", "loss_scale": 1.0, "consumed_samples": 1503744, "global_step/max_steps": "5874/12700"}
{"lm loss": 2.11557412, "grad_norm": 0.35340798, "learning_rate": 6.144e-05, "elapsed_time_per_iteration": 4.87825251, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 23s", "remaining_time": "9h 15m 44s", "loss_scale": 1.0, "consumed_samples": 1504000, "global_step/max_steps": "5875/12700"}
{"lm loss": 2.06871891, "grad_norm": 0.40088066, "learning_rate": 6.143e-05, "elapsed_time_per_iteration": 4.92848277, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 28s", "remaining_time": "9h 15m 40s", "loss_scale": 1.0, "consumed_samples": 1504256, "global_step/max_steps": "5876/12700"}
{"lm loss": 2.11411953, "grad_norm": 0.37029278, "learning_rate": 6.141e-05, "elapsed_time_per_iteration": 4.92347646, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 33s", "remaining_time": "9h 15m 35s", "loss_scale": 1.0, "consumed_samples": 1504512, "global_step/max_steps": "5877/12700"}
{"lm loss": 2.10856795, "grad_norm": 0.42192727, "learning_rate": 6.14e-05, "elapsed_time_per_iteration": 4.9307096, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 38s", "remaining_time": "9h 15m 30s", "loss_scale": 1.0, "consumed_samples": 1504768, "global_step/max_steps": "5878/12700"}
{"lm loss": 2.1160295, "grad_norm": 0.37679297, "learning_rate": 6.139e-05, "elapsed_time_per_iteration": 4.86280155, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 43s", "remaining_time": "9h 15m 25s", "loss_scale": 1.0, "consumed_samples": 1505024, "global_step/max_steps": "5879/12700"}
{"lm loss": 2.13033676, "grad_norm": 0.39886221, "learning_rate": 6.138e-05, "elapsed_time_per_iteration": 4.94988894, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 48s", "remaining_time": "9h 15m 20s", "loss_scale": 1.0, "consumed_samples": 1505280, "global_step/max_steps": "5880/12700"}
{"lm loss": 2.11106515, "grad_norm": 0.3893564, "learning_rate": 6.136e-05, "elapsed_time_per_iteration": 4.7445662, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 52s", "remaining_time": "9h 15m 15s", "loss_scale": 1.0, "consumed_samples": 1505536, "global_step/max_steps": "5881/12700"}
{"lm loss": 2.12689996, "grad_norm": 0.3974601, "learning_rate": 6.135e-05, "elapsed_time_per_iteration": 4.87748408, "memory(GiB)": 28.98, "elapsed_time": "7h 58m 57s", "remaining_time": "9h 15m 10s", "loss_scale": 1.0, "consumed_samples": 1505792, "global_step/max_steps": "5882/12700"}
{"lm loss": 2.10757756, "grad_norm": 0.40299451, "learning_rate": 6.134e-05, "elapsed_time_per_iteration": 4.81193566, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 2s", "remaining_time": "9h 15m 5s", "loss_scale": 1.0, "consumed_samples": 1506048, "global_step/max_steps": "5883/12700"}
{"lm loss": 2.07913327, "grad_norm": 0.37928343, "learning_rate": 6.133e-05, "elapsed_time_per_iteration": 4.96252751, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 7s", "remaining_time": "9h 15m 1s", "loss_scale": 1.0, "consumed_samples": 1506304, "global_step/max_steps": "5884/12700"}
{"lm loss": 2.0654068, "grad_norm": 0.39657351, "learning_rate": 6.131e-05, "elapsed_time_per_iteration": 4.8900404, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 12s", "remaining_time": "9h 14m 56s", "loss_scale": 1.0, "consumed_samples": 1506560, "global_step/max_steps": "5885/12700"}
{"lm loss": 2.12372518, "grad_norm": 0.37930787, "learning_rate": 6.13e-05, "elapsed_time_per_iteration": 4.90635371, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 17s", "remaining_time": "9h 14m 51s", "loss_scale": 1.0, "consumed_samples": 1506816, "global_step/max_steps": "5886/12700"}
{"lm loss": 2.13858438, "grad_norm": 0.40096912, "learning_rate": 6.129e-05, "elapsed_time_per_iteration": 4.76411724, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 22s", "remaining_time": "9h 14m 46s", "loss_scale": 1.0, "consumed_samples": 1507072, "global_step/max_steps": "5887/12700"}
{"lm loss": 2.1126368, "grad_norm": 0.3893407, "learning_rate": 6.128e-05, "elapsed_time_per_iteration": 4.89045382, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 26s", "remaining_time": "9h 14m 41s", "loss_scale": 1.0, "consumed_samples": 1507328, "global_step/max_steps": "5888/12700"}
{"lm loss": 2.12451577, "grad_norm": 0.3522622, "learning_rate": 6.126e-05, "elapsed_time_per_iteration": 4.84363413, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 31s", "remaining_time": "9h 14m 36s", "loss_scale": 1.0, "consumed_samples": 1507584, "global_step/max_steps": "5889/12700"}
{"lm loss": 2.07021809, "grad_norm": 0.38391212, "learning_rate": 6.125e-05, "elapsed_time_per_iteration": 4.85019565, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 36s", "remaining_time": "9h 14m 31s", "loss_scale": 1.0, "consumed_samples": 1507840, "global_step/max_steps": "5890/12700"}
{"lm loss": 2.11152911, "grad_norm": 0.38002831, "learning_rate": 6.124e-05, "elapsed_time_per_iteration": 4.90811443, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 41s", "remaining_time": "9h 14m 26s", "loss_scale": 1.0, "consumed_samples": 1508096, "global_step/max_steps": "5891/12700"}
{"lm loss": 2.10239244, "grad_norm": 0.36318618, "learning_rate": 6.123e-05, "elapsed_time_per_iteration": 4.91076612, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 46s", "remaining_time": "9h 14m 21s", "loss_scale": 1.0, "consumed_samples": 1508352, "global_step/max_steps": "5892/12700"}
{"lm loss": 2.09067392, "grad_norm": 0.36521947, "learning_rate": 6.121e-05, "elapsed_time_per_iteration": 4.90251589, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 51s", "remaining_time": "9h 14m 16s", "loss_scale": 1.0, "consumed_samples": 1508608, "global_step/max_steps": "5893/12700"}
{"lm loss": 2.09069633, "grad_norm": 0.36545771, "learning_rate": 6.12e-05, "elapsed_time_per_iteration": 4.85259247, "memory(GiB)": 28.98, "elapsed_time": "7h 59m 56s", "remaining_time": "9h 14m 11s", "loss_scale": 1.0, "consumed_samples": 1508864, "global_step/max_steps": "5894/12700"}
{"lm loss": 2.08086467, "grad_norm": 0.37326619, "learning_rate": 6.119e-05, "elapsed_time_per_iteration": 4.89899826, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 1s", "remaining_time": "9h 14m 7s", "loss_scale": 1.0, "consumed_samples": 1509120, "global_step/max_steps": "5895/12700"}
{"lm loss": 2.09539938, "grad_norm": 0.36616239, "learning_rate": 6.118e-05, "elapsed_time_per_iteration": 4.75304389, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 5s", "remaining_time": "9h 14m 2s", "loss_scale": 1.0, "consumed_samples": 1509376, "global_step/max_steps": "5896/12700"}
{"lm loss": 2.06212258, "grad_norm": 0.38512924, "learning_rate": 6.117e-05, "elapsed_time_per_iteration": 4.87914419, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 10s", "remaining_time": "9h 13m 57s", "loss_scale": 1.0, "consumed_samples": 1509632, "global_step/max_steps": "5897/12700"}
{"lm loss": 2.10312128, "grad_norm": 0.37255856, "learning_rate": 6.115e-05, "elapsed_time_per_iteration": 4.91842842, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 15s", "remaining_time": "9h 13m 52s", "loss_scale": 1.0, "consumed_samples": 1509888, "global_step/max_steps": "5898/12700"}
{"lm loss": 2.07833767, "grad_norm": 0.3833774, "learning_rate": 6.114e-05, "elapsed_time_per_iteration": 4.97556567, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 20s", "remaining_time": "9h 13m 47s", "loss_scale": 1.0, "consumed_samples": 1510144, "global_step/max_steps": "5899/12700"}
{"lm loss": 2.11013412, "grad_norm": 0.36831501, "learning_rate": 6.113e-05, "elapsed_time_per_iteration": 4.8409338, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 25s", "remaining_time": "9h 13m 42s", "loss_scale": 1.0, "consumed_samples": 1510400, "global_step/max_steps": "5900/12700"}
{"lm loss": 2.10417104, "grad_norm": 0.35546413, "learning_rate": 6.112e-05, "elapsed_time_per_iteration": 4.85829997, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 30s", "remaining_time": "9h 13m 37s", "loss_scale": 1.0, "consumed_samples": 1510656, "global_step/max_steps": "5901/12700"}
{"lm loss": 2.085922, "grad_norm": 0.36898181, "learning_rate": 6.11e-05, "elapsed_time_per_iteration": 4.83064175, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 35s", "remaining_time": "9h 13m 32s", "loss_scale": 1.0, "consumed_samples": 1510912, "global_step/max_steps": "5902/12700"}
{"lm loss": 2.13802981, "grad_norm": 0.33297884, "learning_rate": 6.109e-05, "elapsed_time_per_iteration": 4.82225513, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 40s", "remaining_time": "9h 13m 27s", "loss_scale": 1.0, "consumed_samples": 1511168, "global_step/max_steps": "5903/12700"}
{"lm loss": 2.05287623, "grad_norm": 0.36236086, "learning_rate": 6.108e-05, "elapsed_time_per_iteration": 4.8587544, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 44s", "remaining_time": "9h 13m 22s", "loss_scale": 1.0, "consumed_samples": 1511424, "global_step/max_steps": "5904/12700"}
{"lm loss": 2.10407591, "grad_norm": 0.35616785, "learning_rate": 6.107e-05, "elapsed_time_per_iteration": 4.84851003, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 49s", "remaining_time": "9h 13m 17s", "loss_scale": 1.0, "consumed_samples": 1511680, "global_step/max_steps": "5905/12700"}
{"lm loss": 2.11506104, "grad_norm": 0.38020813, "learning_rate": 6.105e-05, "elapsed_time_per_iteration": 4.87481737, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 54s", "remaining_time": "9h 13m 13s", "loss_scale": 1.0, "consumed_samples": 1511936, "global_step/max_steps": "5906/12700"}
{"lm loss": 2.11284876, "grad_norm": 0.3785215, "learning_rate": 6.104e-05, "elapsed_time_per_iteration": 4.8459022, "memory(GiB)": 28.98, "elapsed_time": "8h 0m 59s", "remaining_time": "9h 13m 8s", "loss_scale": 1.0, "consumed_samples": 1512192, "global_step/max_steps": "5907/12700"}
{"lm loss": 2.11316538, "grad_norm": 0.37584198, "learning_rate": 6.103e-05, "elapsed_time_per_iteration": 4.87010813, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 4s", "remaining_time": "9h 13m 3s", "loss_scale": 1.0, "consumed_samples": 1512448, "global_step/max_steps": "5908/12700"}
{"lm loss": 2.11237502, "grad_norm": 0.39454889, "learning_rate": 6.102e-05, "elapsed_time_per_iteration": 4.91803503, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 9s", "remaining_time": "9h 12m 58s", "loss_scale": 1.0, "consumed_samples": 1512704, "global_step/max_steps": "5909/12700"}
{"lm loss": 2.07007051, "grad_norm": 0.36378145, "learning_rate": 6.1e-05, "elapsed_time_per_iteration": 4.86041594, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 14s", "remaining_time": "9h 12m 53s", "loss_scale": 1.0, "consumed_samples": 1512960, "global_step/max_steps": "5910/12700"}
{"lm loss": 2.13602376, "grad_norm": 0.40323988, "learning_rate": 6.099e-05, "elapsed_time_per_iteration": 4.87914848, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 18s", "remaining_time": "9h 12m 48s", "loss_scale": 1.0, "consumed_samples": 1513216, "global_step/max_steps": "5911/12700"}
{"lm loss": 2.09320569, "grad_norm": 0.34210265, "learning_rate": 6.098e-05, "elapsed_time_per_iteration": 4.99367189, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 23s", "remaining_time": "9h 12m 43s", "loss_scale": 1.0, "consumed_samples": 1513472, "global_step/max_steps": "5912/12700"}
{"lm loss": 2.11687016, "grad_norm": 0.41374895, "learning_rate": 6.097e-05, "elapsed_time_per_iteration": 4.90313339, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 28s", "remaining_time": "9h 12m 38s", "loss_scale": 1.0, "consumed_samples": 1513728, "global_step/max_steps": "5913/12700"}
{"lm loss": 2.11638379, "grad_norm": 0.36972898, "learning_rate": 6.095e-05, "elapsed_time_per_iteration": 4.8834002, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 33s", "remaining_time": "9h 12m 34s", "loss_scale": 1.0, "consumed_samples": 1513984, "global_step/max_steps": "5914/12700"}
{"lm loss": 2.07946014, "grad_norm": 0.39680237, "learning_rate": 6.094e-05, "elapsed_time_per_iteration": 4.92089939, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 38s", "remaining_time": "9h 12m 29s", "loss_scale": 1.0, "consumed_samples": 1514240, "global_step/max_steps": "5915/12700"}
{"lm loss": 2.07913303, "grad_norm": 0.41297817, "learning_rate": 6.093e-05, "elapsed_time_per_iteration": 4.92162561, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 43s", "remaining_time": "9h 12m 24s", "loss_scale": 1.0, "consumed_samples": 1514496, "global_step/max_steps": "5916/12700"}
{"lm loss": 2.1130898, "grad_norm": 0.35734138, "learning_rate": 6.092e-05, "elapsed_time_per_iteration": 4.97999287, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 48s", "remaining_time": "9h 12m 19s", "loss_scale": 1.0, "consumed_samples": 1514752, "global_step/max_steps": "5917/12700"}
{"lm loss": 2.1198132, "grad_norm": 0.40742055, "learning_rate": 6.091e-05, "elapsed_time_per_iteration": 4.9861958, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 53s", "remaining_time": "9h 12m 14s", "loss_scale": 1.0, "consumed_samples": 1515008, "global_step/max_steps": "5918/12700"}
{"lm loss": 2.10750771, "grad_norm": 0.36941749, "learning_rate": 6.089e-05, "elapsed_time_per_iteration": 4.93236136, "memory(GiB)": 28.98, "elapsed_time": "8h 1m 58s", "remaining_time": "9h 12m 9s", "loss_scale": 1.0, "consumed_samples": 1515264, "global_step/max_steps": "5919/12700"}
{"lm loss": 2.1014986, "grad_norm": 0.36589631, "learning_rate": 6.088e-05, "elapsed_time_per_iteration": 4.91378212, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 3s", "remaining_time": "9h 12m 5s", "loss_scale": 1.0, "consumed_samples": 1515520, "global_step/max_steps": "5920/12700"}
{"lm loss": 2.1245153, "grad_norm": 0.39620453, "learning_rate": 6.087e-05, "elapsed_time_per_iteration": 4.85930371, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 8s", "remaining_time": "9h 12m 0s", "loss_scale": 1.0, "consumed_samples": 1515776, "global_step/max_steps": "5921/12700"}
{"lm loss": 2.10311604, "grad_norm": 0.35916242, "learning_rate": 6.086e-05, "elapsed_time_per_iteration": 4.90158892, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 13s", "remaining_time": "9h 11m 55s", "loss_scale": 1.0, "consumed_samples": 1516032, "global_step/max_steps": "5922/12700"}
{"lm loss": 2.10883427, "grad_norm": 0.37071609, "learning_rate": 6.084e-05, "elapsed_time_per_iteration": 5.00200224, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 18s", "remaining_time": "9h 11m 50s", "loss_scale": 1.0, "consumed_samples": 1516288, "global_step/max_steps": "5923/12700"}
{"lm loss": 2.09310675, "grad_norm": 0.34741035, "learning_rate": 6.083e-05, "elapsed_time_per_iteration": 4.91960883, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 23s", "remaining_time": "9h 11m 45s", "loss_scale": 1.0, "consumed_samples": 1516544, "global_step/max_steps": "5924/12700"}
{"lm loss": 2.08806205, "grad_norm": 0.36242083, "learning_rate": 6.082e-05, "elapsed_time_per_iteration": 4.86525631, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 27s", "remaining_time": "9h 11m 40s", "loss_scale": 1.0, "consumed_samples": 1516800, "global_step/max_steps": "5925/12700"}
{"lm loss": 2.11454034, "grad_norm": 0.3540414, "learning_rate": 6.081e-05, "elapsed_time_per_iteration": 4.95700932, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 32s", "remaining_time": "9h 11m 36s", "loss_scale": 1.0, "consumed_samples": 1517056, "global_step/max_steps": "5926/12700"}
{"lm loss": 2.06960773, "grad_norm": 0.34502643, "learning_rate": 6.079e-05, "elapsed_time_per_iteration": 4.93215013, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 37s", "remaining_time": "9h 11m 31s", "loss_scale": 1.0, "consumed_samples": 1517312, "global_step/max_steps": "5927/12700"}
{"lm loss": 2.12686443, "grad_norm": 0.38640922, "learning_rate": 6.078e-05, "elapsed_time_per_iteration": 4.84715796, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 42s", "remaining_time": "9h 11m 26s", "loss_scale": 1.0, "consumed_samples": 1517568, "global_step/max_steps": "5928/12700"}
{"lm loss": 2.09917164, "grad_norm": 0.33117208, "learning_rate": 6.077e-05, "elapsed_time_per_iteration": 4.92858553, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 47s", "remaining_time": "9h 11m 21s", "loss_scale": 1.0, "consumed_samples": 1517824, "global_step/max_steps": "5929/12700"}
{"lm loss": 2.12590146, "grad_norm": 0.3604815, "learning_rate": 6.076e-05, "elapsed_time_per_iteration": 4.91580248, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 52s", "remaining_time": "9h 11m 16s", "loss_scale": 1.0, "consumed_samples": 1518080, "global_step/max_steps": "5930/12700"}
{"lm loss": 2.07496238, "grad_norm": 0.36376417, "learning_rate": 6.074e-05, "elapsed_time_per_iteration": 4.85976124, "memory(GiB)": 28.98, "elapsed_time": "8h 2m 57s", "remaining_time": "9h 11m 11s", "loss_scale": 1.0, "consumed_samples": 1518336, "global_step/max_steps": "5931/12700"}
{"lm loss": 2.06981874, "grad_norm": 0.35532466, "learning_rate": 6.073e-05, "elapsed_time_per_iteration": 4.82393408, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 2s", "remaining_time": "9h 11m 6s", "loss_scale": 1.0, "consumed_samples": 1518592, "global_step/max_steps": "5932/12700"}
{"lm loss": 2.08814096, "grad_norm": 0.3516534, "learning_rate": 6.072e-05, "elapsed_time_per_iteration": 4.87609863, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 7s", "remaining_time": "9h 11m 1s", "loss_scale": 1.0, "consumed_samples": 1518848, "global_step/max_steps": "5933/12700"}
{"lm loss": 2.13076591, "grad_norm": 0.35869995, "learning_rate": 6.071e-05, "elapsed_time_per_iteration": 4.90166903, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 12s", "remaining_time": "9h 10m 56s", "loss_scale": 1.0, "consumed_samples": 1519104, "global_step/max_steps": "5934/12700"}
{"lm loss": 2.09334993, "grad_norm": 0.39337865, "learning_rate": 6.069e-05, "elapsed_time_per_iteration": 4.8182416, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 16s", "remaining_time": "9h 10m 51s", "loss_scale": 1.0, "consumed_samples": 1519360, "global_step/max_steps": "5935/12700"}
{"lm loss": 2.08365297, "grad_norm": 0.37247258, "learning_rate": 6.068e-05, "elapsed_time_per_iteration": 4.8820951, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 21s", "remaining_time": "9h 10m 47s", "loss_scale": 1.0, "consumed_samples": 1519616, "global_step/max_steps": "5936/12700"}
{"lm loss": 2.09967303, "grad_norm": 0.37884593, "learning_rate": 6.067e-05, "elapsed_time_per_iteration": 4.82820821, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 26s", "remaining_time": "9h 10m 42s", "loss_scale": 1.0, "consumed_samples": 1519872, "global_step/max_steps": "5937/12700"}
{"lm loss": 2.11360049, "grad_norm": 0.35569966, "learning_rate": 6.066e-05, "elapsed_time_per_iteration": 4.8496747, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 31s", "remaining_time": "9h 10m 37s", "loss_scale": 1.0, "consumed_samples": 1520128, "global_step/max_steps": "5938/12700"}
{"lm loss": 2.09087276, "grad_norm": 0.38616365, "learning_rate": 6.065e-05, "elapsed_time_per_iteration": 4.90936136, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 36s", "remaining_time": "9h 10m 32s", "loss_scale": 1.0, "consumed_samples": 1520384, "global_step/max_steps": "5939/12700"}
{"lm loss": 2.11349559, "grad_norm": 0.3520667, "learning_rate": 6.063e-05, "elapsed_time_per_iteration": 4.90514612, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 41s", "remaining_time": "9h 10m 27s", "loss_scale": 1.0, "consumed_samples": 1520640, "global_step/max_steps": "5940/12700"}
{"lm loss": 2.10804725, "grad_norm": 0.3632876, "learning_rate": 6.062e-05, "elapsed_time_per_iteration": 4.99955273, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 46s", "remaining_time": "9h 10m 22s", "loss_scale": 1.0, "consumed_samples": 1520896, "global_step/max_steps": "5941/12700"}
{"lm loss": 2.06990743, "grad_norm": 0.37695989, "learning_rate": 6.061e-05, "elapsed_time_per_iteration": 4.96504545, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 51s", "remaining_time": "9h 10m 17s", "loss_scale": 1.0, "consumed_samples": 1521152, "global_step/max_steps": "5942/12700"}
{"lm loss": 2.09443092, "grad_norm": 0.34207144, "learning_rate": 6.06e-05, "elapsed_time_per_iteration": 4.93037105, "memory(GiB)": 28.98, "elapsed_time": "8h 3m 56s", "remaining_time": "9h 10m 13s", "loss_scale": 1.0, "consumed_samples": 1521408, "global_step/max_steps": "5943/12700"}
{"lm loss": 2.07863402, "grad_norm": 0.35046521, "learning_rate": 6.058e-05, "elapsed_time_per_iteration": 4.85477376, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 0s", "remaining_time": "9h 10m 8s", "loss_scale": 1.0, "consumed_samples": 1521664, "global_step/max_steps": "5944/12700"}
{"lm loss": 2.15646291, "grad_norm": 0.37849095, "learning_rate": 6.057e-05, "elapsed_time_per_iteration": 4.86460042, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 5s", "remaining_time": "9h 10m 3s", "loss_scale": 1.0, "consumed_samples": 1521920, "global_step/max_steps": "5945/12700"}
{"lm loss": 2.09491944, "grad_norm": 0.34062916, "learning_rate": 6.056e-05, "elapsed_time_per_iteration": 4.83375525, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 10s", "remaining_time": "9h 9m 58s", "loss_scale": 1.0, "consumed_samples": 1522176, "global_step/max_steps": "5946/12700"}
{"lm loss": 2.10316896, "grad_norm": 0.37426242, "learning_rate": 6.055e-05, "elapsed_time_per_iteration": 4.87587976, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 15s", "remaining_time": "9h 9m 53s", "loss_scale": 1.0, "consumed_samples": 1522432, "global_step/max_steps": "5947/12700"}
{"lm loss": 2.13782406, "grad_norm": 0.3740395, "learning_rate": 6.053e-05, "elapsed_time_per_iteration": 4.88873124, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 20s", "remaining_time": "9h 9m 48s", "loss_scale": 1.0, "consumed_samples": 1522688, "global_step/max_steps": "5948/12700"}
{"lm loss": 2.11484098, "grad_norm": 0.37417066, "learning_rate": 6.052e-05, "elapsed_time_per_iteration": 4.85506511, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 25s", "remaining_time": "9h 9m 43s", "loss_scale": 1.0, "consumed_samples": 1522944, "global_step/max_steps": "5949/12700"}
{"lm loss": 2.09505486, "grad_norm": 0.35343078, "learning_rate": 6.051e-05, "elapsed_time_per_iteration": 4.93696475, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 30s", "remaining_time": "9h 9m 38s", "loss_scale": 1.0, "consumed_samples": 1523200, "global_step/max_steps": "5950/12700"}
{"lm loss": 2.1026001, "grad_norm": 0.42034566, "learning_rate": 6.05e-05, "elapsed_time_per_iteration": 4.85887885, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 35s", "remaining_time": "9h 9m 33s", "loss_scale": 1.0, "consumed_samples": 1523456, "global_step/max_steps": "5951/12700"}
{"lm loss": 2.09613276, "grad_norm": 0.43501195, "learning_rate": 6.048e-05, "elapsed_time_per_iteration": 4.77958274, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 39s", "remaining_time": "9h 9m 28s", "loss_scale": 1.0, "consumed_samples": 1523712, "global_step/max_steps": "5952/12700"}
{"lm loss": 2.11718559, "grad_norm": 0.38324183, "learning_rate": 6.047e-05, "elapsed_time_per_iteration": 4.86338115, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 44s", "remaining_time": "9h 9m 23s", "loss_scale": 1.0, "consumed_samples": 1523968, "global_step/max_steps": "5953/12700"}
{"lm loss": 2.06553555, "grad_norm": 0.42927897, "learning_rate": 6.046e-05, "elapsed_time_per_iteration": 4.91543722, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 49s", "remaining_time": "9h 9m 19s", "loss_scale": 1.0, "consumed_samples": 1524224, "global_step/max_steps": "5954/12700"}
{"lm loss": 2.10060334, "grad_norm": 0.37891841, "learning_rate": 6.045e-05, "elapsed_time_per_iteration": 4.84308696, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 54s", "remaining_time": "9h 9m 14s", "loss_scale": 1.0, "consumed_samples": 1524480, "global_step/max_steps": "5955/12700"}
{"lm loss": 2.1074326, "grad_norm": 0.39223352, "learning_rate": 6.043e-05, "elapsed_time_per_iteration": 4.89434361, "memory(GiB)": 28.98, "elapsed_time": "8h 4m 59s", "remaining_time": "9h 9m 9s", "loss_scale": 1.0, "consumed_samples": 1524736, "global_step/max_steps": "5956/12700"}
{"lm loss": 2.11026049, "grad_norm": 0.3875995, "learning_rate": 6.042e-05, "elapsed_time_per_iteration": 4.86372662, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 4s", "remaining_time": "9h 9m 4s", "loss_scale": 1.0, "consumed_samples": 1524992, "global_step/max_steps": "5957/12700"}
{"lm loss": 2.0851953, "grad_norm": 0.39052132, "learning_rate": 6.041e-05, "elapsed_time_per_iteration": 4.83016944, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 9s", "remaining_time": "9h 8m 59s", "loss_scale": 1.0, "consumed_samples": 1525248, "global_step/max_steps": "5958/12700"}
{"lm loss": 2.0830338, "grad_norm": 0.36368778, "learning_rate": 6.04e-05, "elapsed_time_per_iteration": 4.81158638, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 13s", "remaining_time": "9h 8m 54s", "loss_scale": 1.0, "consumed_samples": 1525504, "global_step/max_steps": "5959/12700"}
{"lm loss": 2.09978843, "grad_norm": 0.39229479, "learning_rate": 6.038e-05, "elapsed_time_per_iteration": 4.83349633, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 18s", "remaining_time": "9h 8m 49s", "loss_scale": 1.0, "consumed_samples": 1525760, "global_step/max_steps": "5960/12700"}
{"lm loss": 2.0938189, "grad_norm": 0.39298263, "learning_rate": 6.037e-05, "elapsed_time_per_iteration": 4.81588387, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 23s", "remaining_time": "9h 8m 44s", "loss_scale": 1.0, "consumed_samples": 1526016, "global_step/max_steps": "5961/12700"}
{"lm loss": 2.09426475, "grad_norm": 0.38450873, "learning_rate": 6.036e-05, "elapsed_time_per_iteration": 4.9027307, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 28s", "remaining_time": "9h 8m 39s", "loss_scale": 1.0, "consumed_samples": 1526272, "global_step/max_steps": "5962/12700"}
{"lm loss": 2.0797689, "grad_norm": 0.38667369, "learning_rate": 6.035e-05, "elapsed_time_per_iteration": 4.83440089, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 33s", "remaining_time": "9h 8m 34s", "loss_scale": 1.0, "consumed_samples": 1526528, "global_step/max_steps": "5963/12700"}
{"lm loss": 2.09806252, "grad_norm": 0.42643675, "learning_rate": 6.033e-05, "elapsed_time_per_iteration": 5.02979946, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 38s", "remaining_time": "9h 8m 30s", "loss_scale": 1.0, "consumed_samples": 1526784, "global_step/max_steps": "5964/12700"}
{"lm loss": 2.09494543, "grad_norm": 0.40269288, "learning_rate": 6.032e-05, "elapsed_time_per_iteration": 4.81882262, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 43s", "remaining_time": "9h 8m 25s", "loss_scale": 1.0, "consumed_samples": 1527040, "global_step/max_steps": "5965/12700"}
{"lm loss": 2.093786, "grad_norm": 0.38270909, "learning_rate": 6.031e-05, "elapsed_time_per_iteration": 4.76472855, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 47s", "remaining_time": "9h 8m 20s", "loss_scale": 1.0, "consumed_samples": 1527296, "global_step/max_steps": "5966/12700"}
{"lm loss": 2.11998129, "grad_norm": 0.38715693, "learning_rate": 6.03e-05, "elapsed_time_per_iteration": 4.8100884, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 52s", "remaining_time": "9h 8m 15s", "loss_scale": 1.0, "consumed_samples": 1527552, "global_step/max_steps": "5967/12700"}
{"lm loss": 2.10241938, "grad_norm": 0.3915517, "learning_rate": 6.029e-05, "elapsed_time_per_iteration": 4.89655328, "memory(GiB)": 28.98, "elapsed_time": "8h 5m 57s", "remaining_time": "9h 8m 10s", "loss_scale": 1.0, "consumed_samples": 1527808, "global_step/max_steps": "5968/12700"}
{"lm loss": 2.1206944, "grad_norm": 0.39986393, "learning_rate": 6.027e-05, "elapsed_time_per_iteration": 4.84917641, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 2s", "remaining_time": "9h 8m 5s", "loss_scale": 1.0, "consumed_samples": 1528064, "global_step/max_steps": "5969/12700"}
{"lm loss": 2.1315403, "grad_norm": 0.40486154, "learning_rate": 6.026e-05, "elapsed_time_per_iteration": 4.90463996, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 7s", "remaining_time": "9h 8m 0s", "loss_scale": 1.0, "consumed_samples": 1528320, "global_step/max_steps": "5970/12700"}
{"lm loss": 2.09003544, "grad_norm": 0.38160479, "learning_rate": 6.025e-05, "elapsed_time_per_iteration": 4.87428927, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 12s", "remaining_time": "9h 7m 55s", "loss_scale": 1.0, "consumed_samples": 1528576, "global_step/max_steps": "5971/12700"}
{"lm loss": 2.10564494, "grad_norm": 0.37855527, "learning_rate": 6.024e-05, "elapsed_time_per_iteration": 4.87828517, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 17s", "remaining_time": "9h 7m 50s", "loss_scale": 1.0, "consumed_samples": 1528832, "global_step/max_steps": "5972/12700"}
{"lm loss": 2.11039281, "grad_norm": 0.38376153, "learning_rate": 6.022e-05, "elapsed_time_per_iteration": 4.80948782, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 21s", "remaining_time": "9h 7m 45s", "loss_scale": 1.0, "consumed_samples": 1529088, "global_step/max_steps": "5973/12700"}
{"lm loss": 2.05768442, "grad_norm": 0.3847343, "learning_rate": 6.021e-05, "elapsed_time_per_iteration": 4.8422482, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 26s", "remaining_time": "9h 7m 40s", "loss_scale": 1.0, "consumed_samples": 1529344, "global_step/max_steps": "5974/12700"}
{"lm loss": 2.08365035, "grad_norm": 0.43808731, "learning_rate": 6.02e-05, "elapsed_time_per_iteration": 4.86372018, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 31s", "remaining_time": "9h 7m 35s", "loss_scale": 1.0, "consumed_samples": 1529600, "global_step/max_steps": "5975/12700"}
{"lm loss": 2.14757514, "grad_norm": 0.37856817, "learning_rate": 6.019e-05, "elapsed_time_per_iteration": 4.84245467, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 36s", "remaining_time": "9h 7m 30s", "loss_scale": 1.0, "consumed_samples": 1529856, "global_step/max_steps": "5976/12700"}
{"lm loss": 2.09187722, "grad_norm": 0.39477512, "learning_rate": 6.017e-05, "elapsed_time_per_iteration": 4.95036554, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 41s", "remaining_time": "9h 7m 26s", "loss_scale": 1.0, "consumed_samples": 1530112, "global_step/max_steps": "5977/12700"}
{"lm loss": 2.11912918, "grad_norm": 0.37671939, "learning_rate": 6.016e-05, "elapsed_time_per_iteration": 4.88296556, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 46s", "remaining_time": "9h 7m 21s", "loss_scale": 1.0, "consumed_samples": 1530368, "global_step/max_steps": "5978/12700"}
{"lm loss": 2.08094072, "grad_norm": 0.38301316, "learning_rate": 6.015e-05, "elapsed_time_per_iteration": 4.91458607, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 51s", "remaining_time": "9h 7m 16s", "loss_scale": 1.0, "consumed_samples": 1530624, "global_step/max_steps": "5979/12700"}
{"lm loss": 2.08442211, "grad_norm": 0.3826189, "learning_rate": 6.014e-05, "elapsed_time_per_iteration": 4.90481663, "memory(GiB)": 28.98, "elapsed_time": "8h 6m 56s", "remaining_time": "9h 7m 11s", "loss_scale": 1.0, "consumed_samples": 1530880, "global_step/max_steps": "5980/12700"}
{"lm loss": 2.11734772, "grad_norm": 0.40028182, "learning_rate": 6.012e-05, "elapsed_time_per_iteration": 4.87855268, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 0s", "remaining_time": "9h 7m 6s", "loss_scale": 1.0, "consumed_samples": 1531136, "global_step/max_steps": "5981/12700"}
{"lm loss": 2.10088921, "grad_norm": 0.43931821, "learning_rate": 6.011e-05, "elapsed_time_per_iteration": 4.8926096, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 5s", "remaining_time": "9h 7m 1s", "loss_scale": 1.0, "consumed_samples": 1531392, "global_step/max_steps": "5982/12700"}
{"lm loss": 2.08280873, "grad_norm": 0.37919137, "learning_rate": 6.01e-05, "elapsed_time_per_iteration": 4.83844161, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 10s", "remaining_time": "9h 6m 56s", "loss_scale": 1.0, "consumed_samples": 1531648, "global_step/max_steps": "5983/12700"}
{"lm loss": 2.14318299, "grad_norm": 0.46738961, "learning_rate": 6.009e-05, "elapsed_time_per_iteration": 4.94066882, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 15s", "remaining_time": "9h 6m 51s", "loss_scale": 1.0, "consumed_samples": 1531904, "global_step/max_steps": "5984/12700"}
{"lm loss": 2.11527467, "grad_norm": 0.35711282, "learning_rate": 6.007e-05, "elapsed_time_per_iteration": 4.76513577, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 20s", "remaining_time": "9h 6m 46s", "loss_scale": 1.0, "consumed_samples": 1532160, "global_step/max_steps": "5985/12700"}
{"lm loss": 2.10883832, "grad_norm": 0.41431749, "learning_rate": 6.006e-05, "elapsed_time_per_iteration": 4.82442665, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 25s", "remaining_time": "9h 6m 41s", "loss_scale": 1.0, "consumed_samples": 1532416, "global_step/max_steps": "5986/12700"}
{"lm loss": 2.09358311, "grad_norm": 0.35361314, "learning_rate": 6.005e-05, "elapsed_time_per_iteration": 4.89434767, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 30s", "remaining_time": "9h 6m 37s", "loss_scale": 1.0, "consumed_samples": 1532672, "global_step/max_steps": "5987/12700"}
{"lm loss": 2.06290507, "grad_norm": 0.45488188, "learning_rate": 6.004e-05, "elapsed_time_per_iteration": 4.93266582, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 35s", "remaining_time": "9h 6m 32s", "loss_scale": 1.0, "consumed_samples": 1532928, "global_step/max_steps": "5988/12700"}
{"lm loss": 2.12895107, "grad_norm": 0.37924775, "learning_rate": 6.002e-05, "elapsed_time_per_iteration": 4.83986712, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 39s", "remaining_time": "9h 6m 27s", "loss_scale": 1.0, "consumed_samples": 1533184, "global_step/max_steps": "5989/12700"}
{"lm loss": 2.10695004, "grad_norm": 0.38298211, "learning_rate": 6.001e-05, "elapsed_time_per_iteration": 4.8985436, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 44s", "remaining_time": "9h 6m 22s", "loss_scale": 1.0, "consumed_samples": 1533440, "global_step/max_steps": "5990/12700"}
{"lm loss": 2.12549686, "grad_norm": 0.37461078, "learning_rate": 6e-05, "elapsed_time_per_iteration": 4.83101225, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 49s", "remaining_time": "9h 6m 17s", "loss_scale": 1.0, "consumed_samples": 1533696, "global_step/max_steps": "5991/12700"}
{"lm loss": 2.09407878, "grad_norm": 0.37442067, "learning_rate": 5.999e-05, "elapsed_time_per_iteration": 4.89159966, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 54s", "remaining_time": "9h 6m 12s", "loss_scale": 1.0, "consumed_samples": 1533952, "global_step/max_steps": "5992/12700"}
{"lm loss": 2.09403515, "grad_norm": 0.36530831, "learning_rate": 5.997e-05, "elapsed_time_per_iteration": 4.83149481, "memory(GiB)": 28.98, "elapsed_time": "8h 7m 59s", "remaining_time": "9h 6m 7s", "loss_scale": 1.0, "consumed_samples": 1534208, "global_step/max_steps": "5993/12700"}
{"lm loss": 2.08557963, "grad_norm": 0.37169173, "learning_rate": 5.996e-05, "elapsed_time_per_iteration": 4.88882232, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 4s", "remaining_time": "9h 6m 2s", "loss_scale": 1.0, "consumed_samples": 1534464, "global_step/max_steps": "5994/12700"}
{"lm loss": 2.1224215, "grad_norm": 0.35259208, "learning_rate": 5.995e-05, "elapsed_time_per_iteration": 4.99144173, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 9s", "remaining_time": "9h 5m 58s", "loss_scale": 1.0, "consumed_samples": 1534720, "global_step/max_steps": "5995/12700"}
{"lm loss": 2.12295461, "grad_norm": 0.37931052, "learning_rate": 5.994e-05, "elapsed_time_per_iteration": 4.86446953, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 14s", "remaining_time": "9h 5m 53s", "loss_scale": 1.0, "consumed_samples": 1534976, "global_step/max_steps": "5996/12700"}
{"lm loss": 2.06158209, "grad_norm": 0.40256485, "learning_rate": 5.992e-05, "elapsed_time_per_iteration": 4.96532655, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 19s", "remaining_time": "9h 5m 48s", "loss_scale": 1.0, "consumed_samples": 1535232, "global_step/max_steps": "5997/12700"}
{"lm loss": 2.08575177, "grad_norm": 0.35903233, "learning_rate": 5.991e-05, "elapsed_time_per_iteration": 4.93397593, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 23s", "remaining_time": "9h 5m 43s", "loss_scale": 1.0, "consumed_samples": 1535488, "global_step/max_steps": "5998/12700"}
{"lm loss": 2.08154917, "grad_norm": 0.38011754, "learning_rate": 5.99e-05, "elapsed_time_per_iteration": 4.86855626, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 28s", "remaining_time": "9h 5m 38s", "loss_scale": 1.0, "consumed_samples": 1535744, "global_step/max_steps": "5999/12700"}
{"lm loss": 2.10522103, "grad_norm": 0.33387694, "learning_rate": 5.989e-05, "elapsed_time_per_iteration": 4.87025332, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 33s", "remaining_time": "9h 5m 33s", "loss_scale": 1.0, "consumed_samples": 1536000, "global_step/max_steps": "6000/12700"}
{"lm loss": 2.10302424, "grad_norm": 0.36848238, "learning_rate": 5.987e-05, "elapsed_time_per_iteration": 4.76076198, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 38s", "remaining_time": "9h 5m 28s", "loss_scale": 1.0, "consumed_samples": 1536256, "global_step/max_steps": "6001/12700"}
{"lm loss": 2.11480975, "grad_norm": 0.35041073, "learning_rate": 5.986e-05, "elapsed_time_per_iteration": 4.89978361, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 43s", "remaining_time": "9h 5m 23s", "loss_scale": 1.0, "consumed_samples": 1536512, "global_step/max_steps": "6002/12700"}
{"lm loss": 2.06794715, "grad_norm": 0.38686648, "learning_rate": 5.985e-05, "elapsed_time_per_iteration": 4.87674403, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 48s", "remaining_time": "9h 5m 18s", "loss_scale": 1.0, "consumed_samples": 1536768, "global_step/max_steps": "6003/12700"}
{"lm loss": 2.12717295, "grad_norm": 0.35391733, "learning_rate": 5.984e-05, "elapsed_time_per_iteration": 4.8506701, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 53s", "remaining_time": "9h 5m 13s", "loss_scale": 1.0, "consumed_samples": 1537024, "global_step/max_steps": "6004/12700"}
{"lm loss": 2.08109021, "grad_norm": 0.40267482, "learning_rate": 5.983e-05, "elapsed_time_per_iteration": 5.0026834, "memory(GiB)": 28.98, "elapsed_time": "8h 8m 58s", "remaining_time": "9h 5m 9s", "loss_scale": 1.0, "consumed_samples": 1537280, "global_step/max_steps": "6005/12700"}
{"lm loss": 2.07119322, "grad_norm": 0.36882311, "learning_rate": 5.981e-05, "elapsed_time_per_iteration": 4.81438255, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 2s", "remaining_time": "9h 5m 4s", "loss_scale": 1.0, "consumed_samples": 1537536, "global_step/max_steps": "6006/12700"}
{"lm loss": 2.11909223, "grad_norm": 0.37059113, "learning_rate": 5.98e-05, "elapsed_time_per_iteration": 4.95969152, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 7s", "remaining_time": "9h 4m 59s", "loss_scale": 1.0, "consumed_samples": 1537792, "global_step/max_steps": "6007/12700"}
{"lm loss": 2.09117341, "grad_norm": 0.38668337, "learning_rate": 5.979e-05, "elapsed_time_per_iteration": 4.84809828, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 12s", "remaining_time": "9h 4m 54s", "loss_scale": 1.0, "consumed_samples": 1538048, "global_step/max_steps": "6008/12700"}
{"lm loss": 2.06715488, "grad_norm": 0.34033936, "learning_rate": 5.978e-05, "elapsed_time_per_iteration": 4.85683441, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 17s", "remaining_time": "9h 4m 49s", "loss_scale": 1.0, "consumed_samples": 1538304, "global_step/max_steps": "6009/12700"}
{"lm loss": 2.10821319, "grad_norm": 0.3879413, "learning_rate": 5.976e-05, "elapsed_time_per_iteration": 4.92627597, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 22s", "remaining_time": "9h 4m 44s", "loss_scale": 1.0, "consumed_samples": 1538560, "global_step/max_steps": "6010/12700"}
{"lm loss": 2.11908817, "grad_norm": 0.36595908, "learning_rate": 5.975e-05, "elapsed_time_per_iteration": 4.88359976, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 27s", "remaining_time": "9h 4m 39s", "loss_scale": 1.0, "consumed_samples": 1538816, "global_step/max_steps": "6011/12700"}
{"lm loss": 2.10485196, "grad_norm": 0.32556507, "learning_rate": 5.974e-05, "elapsed_time_per_iteration": 4.87293029, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 32s", "remaining_time": "9h 4m 34s", "loss_scale": 1.0, "consumed_samples": 1539072, "global_step/max_steps": "6012/12700"}
{"lm loss": 2.11258006, "grad_norm": 0.34743217, "learning_rate": 5.973e-05, "elapsed_time_per_iteration": 4.7988534, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 37s", "remaining_time": "9h 4m 29s", "loss_scale": 1.0, "consumed_samples": 1539328, "global_step/max_steps": "6013/12700"}
{"lm loss": 2.10928631, "grad_norm": 0.35119805, "learning_rate": 5.971e-05, "elapsed_time_per_iteration": 4.90360284, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 41s", "remaining_time": "9h 4m 25s", "loss_scale": 1.0, "consumed_samples": 1539584, "global_step/max_steps": "6014/12700"}
{"lm loss": 2.08243489, "grad_norm": 0.35580808, "learning_rate": 5.97e-05, "elapsed_time_per_iteration": 4.85773897, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 46s", "remaining_time": "9h 4m 20s", "loss_scale": 1.0, "consumed_samples": 1539840, "global_step/max_steps": "6015/12700"}
{"lm loss": 2.10835576, "grad_norm": 0.34791529, "learning_rate": 5.969e-05, "elapsed_time_per_iteration": 4.95949173, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 51s", "remaining_time": "9h 4m 15s", "loss_scale": 1.0, "consumed_samples": 1540096, "global_step/max_steps": "6016/12700"}
{"lm loss": 2.10964823, "grad_norm": 0.37574571, "learning_rate": 5.968e-05, "elapsed_time_per_iteration": 4.92253041, "memory(GiB)": 28.98, "elapsed_time": "8h 9m 56s", "remaining_time": "9h 4m 10s", "loss_scale": 1.0, "consumed_samples": 1540352, "global_step/max_steps": "6017/12700"}
{"lm loss": 2.10861516, "grad_norm": 0.33651251, "learning_rate": 5.966e-05, "elapsed_time_per_iteration": 4.85168362, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 1s", "remaining_time": "9h 4m 5s", "loss_scale": 1.0, "consumed_samples": 1540608, "global_step/max_steps": "6018/12700"}
{"lm loss": 2.13013434, "grad_norm": 0.36205748, "learning_rate": 5.965e-05, "elapsed_time_per_iteration": 4.90131283, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 6s", "remaining_time": "9h 4m 0s", "loss_scale": 1.0, "consumed_samples": 1540864, "global_step/max_steps": "6019/12700"}
{"lm loss": 2.09732819, "grad_norm": 0.37142947, "learning_rate": 5.964e-05, "elapsed_time_per_iteration": 4.91174412, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 11s", "remaining_time": "9h 3m 55s", "loss_scale": 1.0, "consumed_samples": 1541120, "global_step/max_steps": "6020/12700"}
{"lm loss": 2.09974074, "grad_norm": 0.36872715, "learning_rate": 5.963e-05, "elapsed_time_per_iteration": 4.92665529, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 16s", "remaining_time": "9h 3m 51s", "loss_scale": 1.0, "consumed_samples": 1541376, "global_step/max_steps": "6021/12700"}
{"lm loss": 2.1041863, "grad_norm": 0.35777465, "learning_rate": 5.961e-05, "elapsed_time_per_iteration": 4.9747498, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 21s", "remaining_time": "9h 3m 46s", "loss_scale": 1.0, "consumed_samples": 1541632, "global_step/max_steps": "6022/12700"}
{"lm loss": 2.11198306, "grad_norm": 0.35892788, "learning_rate": 5.96e-05, "elapsed_time_per_iteration": 4.98722982, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 26s", "remaining_time": "9h 3m 41s", "loss_scale": 1.0, "consumed_samples": 1541888, "global_step/max_steps": "6023/12700"}
{"lm loss": 2.13798046, "grad_norm": 0.37218514, "learning_rate": 5.959e-05, "elapsed_time_per_iteration": 4.86517072, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 31s", "remaining_time": "9h 3m 36s", "loss_scale": 1.0, "consumed_samples": 1542144, "global_step/max_steps": "6024/12700"}
{"lm loss": 2.09463811, "grad_norm": 0.36367351, "learning_rate": 5.958e-05, "elapsed_time_per_iteration": 4.7772851, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 35s", "remaining_time": "9h 3m 31s", "loss_scale": 1.0, "consumed_samples": 1542400, "global_step/max_steps": "6025/12700"}
{"lm loss": 2.10189867, "grad_norm": 0.36269686, "learning_rate": 5.956e-05, "elapsed_time_per_iteration": 4.92247224, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 40s", "remaining_time": "9h 3m 26s", "loss_scale": 1.0, "consumed_samples": 1542656, "global_step/max_steps": "6026/12700"}
{"lm loss": 2.0852921, "grad_norm": 0.38031203, "learning_rate": 5.955e-05, "elapsed_time_per_iteration": 4.77545619, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 45s", "remaining_time": "9h 3m 21s", "loss_scale": 1.0, "consumed_samples": 1542912, "global_step/max_steps": "6027/12700"}
{"lm loss": 2.09975028, "grad_norm": 0.38567704, "learning_rate": 5.954e-05, "elapsed_time_per_iteration": 4.89629078, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 50s", "remaining_time": "9h 3m 16s", "loss_scale": 1.0, "consumed_samples": 1543168, "global_step/max_steps": "6028/12700"}
{"lm loss": 2.0836587, "grad_norm": 0.355398, "learning_rate": 5.953e-05, "elapsed_time_per_iteration": 4.77585793, "memory(GiB)": 28.98, "elapsed_time": "8h 10m 55s", "remaining_time": "9h 3m 11s", "loss_scale": 1.0, "consumed_samples": 1543424, "global_step/max_steps": "6029/12700"}
{"lm loss": 2.11621475, "grad_norm": 0.39424342, "learning_rate": 5.951e-05, "elapsed_time_per_iteration": 4.91504908, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 0s", "remaining_time": "9h 3m 6s", "loss_scale": 1.0, "consumed_samples": 1543680, "global_step/max_steps": "6030/12700"}
{"lm loss": 2.10821629, "grad_norm": 0.40147743, "learning_rate": 5.95e-05, "elapsed_time_per_iteration": 4.9128015, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 5s", "remaining_time": "9h 3m 2s", "loss_scale": 1.0, "consumed_samples": 1543936, "global_step/max_steps": "6031/12700"}
{"lm loss": 2.1222713, "grad_norm": 0.36280218, "learning_rate": 5.949e-05, "elapsed_time_per_iteration": 4.84522629, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 9s", "remaining_time": "9h 2m 57s", "loss_scale": 1.0, "consumed_samples": 1544192, "global_step/max_steps": "6032/12700"}
{"lm loss": 2.1100328, "grad_norm": 0.37883976, "learning_rate": 5.948e-05, "elapsed_time_per_iteration": 4.87802076, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 14s", "remaining_time": "9h 2m 52s", "loss_scale": 1.0, "consumed_samples": 1544448, "global_step/max_steps": "6033/12700"}
{"lm loss": 2.12387967, "grad_norm": 0.37565356, "learning_rate": 5.946e-05, "elapsed_time_per_iteration": 4.83555698, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 19s", "remaining_time": "9h 2m 47s", "loss_scale": 1.0, "consumed_samples": 1544704, "global_step/max_steps": "6034/12700"}
{"lm loss": 2.12069249, "grad_norm": 0.37172243, "learning_rate": 5.945e-05, "elapsed_time_per_iteration": 4.86705613, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 24s", "remaining_time": "9h 2m 42s", "loss_scale": 1.0, "consumed_samples": 1544960, "global_step/max_steps": "6035/12700"}
{"lm loss": 2.07127738, "grad_norm": 0.36504075, "learning_rate": 5.944e-05, "elapsed_time_per_iteration": 4.91590834, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 29s", "remaining_time": "9h 2m 37s", "loss_scale": 1.0, "consumed_samples": 1545216, "global_step/max_steps": "6036/12700"}
{"lm loss": 2.13377094, "grad_norm": 0.38713422, "learning_rate": 5.943e-05, "elapsed_time_per_iteration": 4.87953544, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 34s", "remaining_time": "9h 2m 32s", "loss_scale": 1.0, "consumed_samples": 1545472, "global_step/max_steps": "6037/12700"}
{"lm loss": 2.09653544, "grad_norm": 0.36862767, "learning_rate": 5.941e-05, "elapsed_time_per_iteration": 4.83147311, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 39s", "remaining_time": "9h 2m 27s", "loss_scale": 1.0, "consumed_samples": 1545728, "global_step/max_steps": "6038/12700"}
{"lm loss": 2.10481095, "grad_norm": 0.36762103, "learning_rate": 5.94e-05, "elapsed_time_per_iteration": 4.79220724, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 43s", "remaining_time": "9h 2m 22s", "loss_scale": 1.0, "consumed_samples": 1545984, "global_step/max_steps": "6039/12700"}
{"lm loss": 2.0923779, "grad_norm": 0.36607265, "learning_rate": 5.939e-05, "elapsed_time_per_iteration": 4.87206173, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 48s", "remaining_time": "9h 2m 17s", "loss_scale": 1.0, "consumed_samples": 1546240, "global_step/max_steps": "6040/12700"}
{"lm loss": 2.08242631, "grad_norm": 0.33813474, "learning_rate": 5.938e-05, "elapsed_time_per_iteration": 4.87469268, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 53s", "remaining_time": "9h 2m 12s", "loss_scale": 1.0, "consumed_samples": 1546496, "global_step/max_steps": "6041/12700"}
{"lm loss": 2.14065433, "grad_norm": 0.37461039, "learning_rate": 5.936e-05, "elapsed_time_per_iteration": 4.89656305, "memory(GiB)": 28.98, "elapsed_time": "8h 11m 58s", "remaining_time": "9h 2m 8s", "loss_scale": 1.0, "consumed_samples": 1546752, "global_step/max_steps": "6042/12700"}
{"lm loss": 2.09144497, "grad_norm": 0.33932894, "learning_rate": 5.935e-05, "elapsed_time_per_iteration": 4.87726498, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 3s", "remaining_time": "9h 2m 3s", "loss_scale": 1.0, "consumed_samples": 1547008, "global_step/max_steps": "6043/12700"}
{"lm loss": 2.1082623, "grad_norm": 0.37432492, "learning_rate": 5.934e-05, "elapsed_time_per_iteration": 4.88650751, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 8s", "remaining_time": "9h 1m 58s", "loss_scale": 1.0, "consumed_samples": 1547264, "global_step/max_steps": "6044/12700"}
{"lm loss": 2.10834217, "grad_norm": 0.34525394, "learning_rate": 5.933e-05, "elapsed_time_per_iteration": 4.818645, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 13s", "remaining_time": "9h 1m 53s", "loss_scale": 1.0, "consumed_samples": 1547520, "global_step/max_steps": "6045/12700"}
{"lm loss": 2.06097198, "grad_norm": 0.36727828, "learning_rate": 5.931e-05, "elapsed_time_per_iteration": 4.87340498, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 18s", "remaining_time": "9h 1m 48s", "loss_scale": 1.0, "consumed_samples": 1547776, "global_step/max_steps": "6046/12700"}
{"lm loss": 2.09145379, "grad_norm": 0.35418236, "learning_rate": 5.93e-05, "elapsed_time_per_iteration": 5.00659847, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 23s", "remaining_time": "9h 1m 43s", "loss_scale": 1.0, "consumed_samples": 1548032, "global_step/max_steps": "6047/12700"}
{"lm loss": 2.12356162, "grad_norm": 0.37104172, "learning_rate": 5.929e-05, "elapsed_time_per_iteration": 4.84302711, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 27s", "remaining_time": "9h 1m 38s", "loss_scale": 1.0, "consumed_samples": 1548288, "global_step/max_steps": "6048/12700"}
{"lm loss": 2.09638953, "grad_norm": 0.39108074, "learning_rate": 5.928e-05, "elapsed_time_per_iteration": 4.83899045, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 32s", "remaining_time": "9h 1m 33s", "loss_scale": 1.0, "consumed_samples": 1548544, "global_step/max_steps": "6049/12700"}
{"lm loss": 2.11280203, "grad_norm": 0.40793508, "learning_rate": 5.926e-05, "elapsed_time_per_iteration": 4.8266573, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 37s", "remaining_time": "9h 1m 28s", "loss_scale": 1.0, "consumed_samples": 1548800, "global_step/max_steps": "6050/12700"}
{"lm loss": 2.1304574, "grad_norm": 0.34696844, "learning_rate": 5.925e-05, "elapsed_time_per_iteration": 4.85004258, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 42s", "remaining_time": "9h 1m 23s", "loss_scale": 1.0, "consumed_samples": 1549056, "global_step/max_steps": "6051/12700"}
{"lm loss": 2.09631586, "grad_norm": 0.39780271, "learning_rate": 5.924e-05, "elapsed_time_per_iteration": 4.91244626, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 47s", "remaining_time": "9h 1m 19s", "loss_scale": 1.0, "consumed_samples": 1549312, "global_step/max_steps": "6052/12700"}
{"lm loss": 2.09651732, "grad_norm": 0.37433121, "learning_rate": 5.923e-05, "elapsed_time_per_iteration": 4.99453139, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 52s", "remaining_time": "9h 1m 14s", "loss_scale": 1.0, "consumed_samples": 1549568, "global_step/max_steps": "6053/12700"}
{"lm loss": 2.13015079, "grad_norm": 0.36036578, "learning_rate": 5.921e-05, "elapsed_time_per_iteration": 4.78992939, "memory(GiB)": 28.98, "elapsed_time": "8h 12m 57s", "remaining_time": "9h 1m 9s", "loss_scale": 1.0, "consumed_samples": 1549824, "global_step/max_steps": "6054/12700"}
{"lm loss": 2.11430621, "grad_norm": 0.35252887, "learning_rate": 5.92e-05, "elapsed_time_per_iteration": 4.88841677, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 2s", "remaining_time": "9h 1m 4s", "loss_scale": 1.0, "consumed_samples": 1550080, "global_step/max_steps": "6055/12700"}
{"lm loss": 2.09723902, "grad_norm": 0.38619381, "learning_rate": 5.919e-05, "elapsed_time_per_iteration": 4.88866806, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 6s", "remaining_time": "9h 0m 59s", "loss_scale": 1.0, "consumed_samples": 1550336, "global_step/max_steps": "6056/12700"}
{"lm loss": 2.05641651, "grad_norm": 0.41517383, "learning_rate": 5.918e-05, "elapsed_time_per_iteration": 5.00618124, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 11s", "remaining_time": "9h 0m 54s", "loss_scale": 1.0, "consumed_samples": 1550592, "global_step/max_steps": "6057/12700"}
{"lm loss": 2.08752394, "grad_norm": 0.37670755, "learning_rate": 5.917e-05, "elapsed_time_per_iteration": 4.85795164, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 16s", "remaining_time": "9h 0m 49s", "loss_scale": 1.0, "consumed_samples": 1550848, "global_step/max_steps": "6058/12700"}
{"lm loss": 2.11307621, "grad_norm": 0.4144845, "learning_rate": 5.915e-05, "elapsed_time_per_iteration": 4.91564703, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 21s", "remaining_time": "9h 0m 45s", "loss_scale": 1.0, "consumed_samples": 1551104, "global_step/max_steps": "6059/12700"}
{"lm loss": 2.11906505, "grad_norm": 0.3843537, "learning_rate": 5.914e-05, "elapsed_time_per_iteration": 4.87921715, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 26s", "remaining_time": "9h 0m 40s", "loss_scale": 1.0, "consumed_samples": 1551360, "global_step/max_steps": "6060/12700"}
{"lm loss": 2.06572151, "grad_norm": 0.38809463, "learning_rate": 5.913e-05, "elapsed_time_per_iteration": 4.87905383, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 31s", "remaining_time": "9h 0m 35s", "loss_scale": 1.0, "consumed_samples": 1551616, "global_step/max_steps": "6061/12700"}
{"lm loss": 2.09312034, "grad_norm": 0.3773464, "learning_rate": 5.912e-05, "elapsed_time_per_iteration": 4.9881072, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 36s", "remaining_time": "9h 0m 30s", "loss_scale": 1.0, "consumed_samples": 1551872, "global_step/max_steps": "6062/12700"}
{"lm loss": 2.07384229, "grad_norm": 0.39472625, "learning_rate": 5.91e-05, "elapsed_time_per_iteration": 4.95440269, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 41s", "remaining_time": "9h 0m 25s", "loss_scale": 1.0, "consumed_samples": 1552128, "global_step/max_steps": "6063/12700"}
{"lm loss": 2.0877924, "grad_norm": 0.37430972, "learning_rate": 5.909e-05, "elapsed_time_per_iteration": 4.87582827, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 46s", "remaining_time": "9h 0m 20s", "loss_scale": 1.0, "consumed_samples": 1552384, "global_step/max_steps": "6064/12700"}
{"lm loss": 2.07707071, "grad_norm": 0.37640971, "learning_rate": 5.908e-05, "elapsed_time_per_iteration": 4.86007857, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 51s", "remaining_time": "9h 0m 15s", "loss_scale": 1.0, "consumed_samples": 1552640, "global_step/max_steps": "6065/12700"}
{"lm loss": 2.10727167, "grad_norm": 0.34994614, "learning_rate": 5.907e-05, "elapsed_time_per_iteration": 4.88311958, "memory(GiB)": 28.98, "elapsed_time": "8h 13m 55s", "remaining_time": "9h 0m 11s", "loss_scale": 1.0, "consumed_samples": 1552896, "global_step/max_steps": "6066/12700"}
{"lm loss": 2.08441997, "grad_norm": 0.36937597, "learning_rate": 5.905e-05, "elapsed_time_per_iteration": 4.91643119, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 0s", "remaining_time": "9h 0m 6s", "loss_scale": 1.0, "consumed_samples": 1553152, "global_step/max_steps": "6067/12700"}
{"lm loss": 2.13330722, "grad_norm": 0.37494102, "learning_rate": 5.904e-05, "elapsed_time_per_iteration": 5.00092125, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 5s", "remaining_time": "9h 0m 1s", "loss_scale": 1.0, "consumed_samples": 1553408, "global_step/max_steps": "6068/12700"}
{"lm loss": 2.0704751, "grad_norm": 0.36339146, "learning_rate": 5.903e-05, "elapsed_time_per_iteration": 4.80794597, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 10s", "remaining_time": "8h 59m 56s", "loss_scale": 1.0, "consumed_samples": 1553664, "global_step/max_steps": "6069/12700"}
{"lm loss": 2.08757806, "grad_norm": 0.36298776, "learning_rate": 5.902e-05, "elapsed_time_per_iteration": 4.91241741, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 15s", "remaining_time": "8h 59m 51s", "loss_scale": 1.0, "consumed_samples": 1553920, "global_step/max_steps": "6070/12700"}
{"lm loss": 2.11568451, "grad_norm": 0.37587333, "learning_rate": 5.9e-05, "elapsed_time_per_iteration": 4.78782082, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 20s", "remaining_time": "8h 59m 46s", "loss_scale": 1.0, "consumed_samples": 1554176, "global_step/max_steps": "6071/12700"}
{"lm loss": 2.10356164, "grad_norm": 0.38683602, "learning_rate": 5.899e-05, "elapsed_time_per_iteration": 4.93259525, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 25s", "remaining_time": "8h 59m 41s", "loss_scale": 1.0, "consumed_samples": 1554432, "global_step/max_steps": "6072/12700"}
{"lm loss": 2.14264655, "grad_norm": 0.36026832, "learning_rate": 5.898e-05, "elapsed_time_per_iteration": 4.8228097, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 30s", "remaining_time": "8h 59m 36s", "loss_scale": 1.0, "consumed_samples": 1554688, "global_step/max_steps": "6073/12700"}
{"lm loss": 2.10466599, "grad_norm": 0.3981528, "learning_rate": 5.897e-05, "elapsed_time_per_iteration": 4.8867209, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 35s", "remaining_time": "8h 59m 31s", "loss_scale": 1.0, "consumed_samples": 1554944, "global_step/max_steps": "6074/12700"}
{"lm loss": 2.09949732, "grad_norm": 0.4045822, "learning_rate": 5.895e-05, "elapsed_time_per_iteration": 4.86412716, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 39s", "remaining_time": "8h 59m 26s", "loss_scale": 1.0, "consumed_samples": 1555200, "global_step/max_steps": "6075/12700"}
{"lm loss": 2.10327506, "grad_norm": 0.34374028, "learning_rate": 5.894e-05, "elapsed_time_per_iteration": 4.81316519, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 44s", "remaining_time": "8h 59m 22s", "loss_scale": 1.0, "consumed_samples": 1555456, "global_step/max_steps": "6076/12700"}
{"lm loss": 2.10616589, "grad_norm": 0.41618162, "learning_rate": 5.893e-05, "elapsed_time_per_iteration": 4.84835482, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 49s", "remaining_time": "8h 59m 17s", "loss_scale": 1.0, "consumed_samples": 1555712, "global_step/max_steps": "6077/12700"}
{"lm loss": 2.04796743, "grad_norm": 0.46098685, "learning_rate": 5.892e-05, "elapsed_time_per_iteration": 4.87954211, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 54s", "remaining_time": "8h 59m 12s", "loss_scale": 1.0, "consumed_samples": 1555968, "global_step/max_steps": "6078/12700"}
{"lm loss": 2.08309412, "grad_norm": 0.372383, "learning_rate": 5.89e-05, "elapsed_time_per_iteration": 4.90982175, "memory(GiB)": 28.98, "elapsed_time": "8h 14m 59s", "remaining_time": "8h 59m 7s", "loss_scale": 1.0, "consumed_samples": 1556224, "global_step/max_steps": "6079/12700"}
{"lm loss": 2.08555579, "grad_norm": 0.43440214, "learning_rate": 5.889e-05, "elapsed_time_per_iteration": 4.88137245, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 4s", "remaining_time": "8h 59m 2s", "loss_scale": 1.0, "consumed_samples": 1556480, "global_step/max_steps": "6080/12700"}
{"lm loss": 2.09286499, "grad_norm": 0.40318766, "learning_rate": 5.888e-05, "elapsed_time_per_iteration": 4.86701894, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 9s", "remaining_time": "8h 58m 57s", "loss_scale": 1.0, "consumed_samples": 1556736, "global_step/max_steps": "6081/12700"}
{"lm loss": 2.06259251, "grad_norm": 0.40679568, "learning_rate": 5.887e-05, "elapsed_time_per_iteration": 4.91154671, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 14s", "remaining_time": "8h 58m 52s", "loss_scale": 1.0, "consumed_samples": 1556992, "global_step/max_steps": "6082/12700"}
{"lm loss": 2.12026381, "grad_norm": 0.38214618, "learning_rate": 5.885e-05, "elapsed_time_per_iteration": 4.86736584, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 18s", "remaining_time": "8h 58m 47s", "loss_scale": 1.0, "consumed_samples": 1557248, "global_step/max_steps": "6083/12700"}
{"lm loss": 2.09265947, "grad_norm": 0.41937855, "learning_rate": 5.884e-05, "elapsed_time_per_iteration": 4.78008938, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 23s", "remaining_time": "8h 58m 42s", "loss_scale": 1.0, "consumed_samples": 1557504, "global_step/max_steps": "6084/12700"}
{"lm loss": 2.11172223, "grad_norm": 0.39436579, "learning_rate": 5.883e-05, "elapsed_time_per_iteration": 4.83315468, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 28s", "remaining_time": "8h 58m 37s", "loss_scale": 1.0, "consumed_samples": 1557760, "global_step/max_steps": "6085/12700"}
{"lm loss": 2.07459211, "grad_norm": 0.38827983, "learning_rate": 5.882e-05, "elapsed_time_per_iteration": 4.86421299, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 33s", "remaining_time": "8h 58m 32s", "loss_scale": 1.0, "consumed_samples": 1558016, "global_step/max_steps": "6086/12700"}
{"lm loss": 2.09545135, "grad_norm": 0.40918314, "learning_rate": 5.88e-05, "elapsed_time_per_iteration": 4.859236, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 38s", "remaining_time": "8h 58m 28s", "loss_scale": 1.0, "consumed_samples": 1558272, "global_step/max_steps": "6087/12700"}
{"lm loss": 2.05663896, "grad_norm": 0.34318244, "learning_rate": 5.879e-05, "elapsed_time_per_iteration": 4.90457439, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 43s", "remaining_time": "8h 58m 23s", "loss_scale": 1.0, "consumed_samples": 1558528, "global_step/max_steps": "6088/12700"}
{"lm loss": 2.0906868, "grad_norm": 0.35944051, "learning_rate": 5.878e-05, "elapsed_time_per_iteration": 4.90167832, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 48s", "remaining_time": "8h 58m 18s", "loss_scale": 1.0, "consumed_samples": 1558784, "global_step/max_steps": "6089/12700"}
{"lm loss": 2.13805032, "grad_norm": 0.37918836, "learning_rate": 5.877e-05, "elapsed_time_per_iteration": 4.9284544, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 52s", "remaining_time": "8h 58m 13s", "loss_scale": 1.0, "consumed_samples": 1559040, "global_step/max_steps": "6090/12700"}
{"lm loss": 2.06541204, "grad_norm": 0.40265244, "learning_rate": 5.875e-05, "elapsed_time_per_iteration": 4.93198252, "memory(GiB)": 28.98, "elapsed_time": "8h 15m 57s", "remaining_time": "8h 58m 8s", "loss_scale": 1.0, "consumed_samples": 1559296, "global_step/max_steps": "6091/12700"}
{"lm loss": 2.04214525, "grad_norm": 0.38926107, "learning_rate": 5.874e-05, "elapsed_time_per_iteration": 4.79692841, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 2s", "remaining_time": "8h 58m 3s", "loss_scale": 1.0, "consumed_samples": 1559552, "global_step/max_steps": "6092/12700"}
{"lm loss": 2.1149025, "grad_norm": 0.36261284, "learning_rate": 5.873e-05, "elapsed_time_per_iteration": 4.81376648, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 7s", "remaining_time": "8h 57m 58s", "loss_scale": 1.0, "consumed_samples": 1559808, "global_step/max_steps": "6093/12700"}
{"lm loss": 2.11884427, "grad_norm": 0.36995316, "learning_rate": 5.872e-05, "elapsed_time_per_iteration": 4.90138745, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 12s", "remaining_time": "8h 57m 53s", "loss_scale": 1.0, "consumed_samples": 1560064, "global_step/max_steps": "6094/12700"}
{"lm loss": 2.11572433, "grad_norm": 0.38932562, "learning_rate": 5.87e-05, "elapsed_time_per_iteration": 4.96499467, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 17s", "remaining_time": "8h 57m 49s", "loss_scale": 1.0, "consumed_samples": 1560320, "global_step/max_steps": "6095/12700"}
{"lm loss": 2.09382558, "grad_norm": 0.40372407, "learning_rate": 5.869e-05, "elapsed_time_per_iteration": 4.86651993, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 22s", "remaining_time": "8h 57m 44s", "loss_scale": 1.0, "consumed_samples": 1560576, "global_step/max_steps": "6096/12700"}
{"lm loss": 2.06765938, "grad_norm": 0.38945934, "learning_rate": 5.868e-05, "elapsed_time_per_iteration": 4.86623383, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 27s", "remaining_time": "8h 57m 39s", "loss_scale": 1.0, "consumed_samples": 1560832, "global_step/max_steps": "6097/12700"}
{"lm loss": 2.05511141, "grad_norm": 0.3798241, "learning_rate": 5.867e-05, "elapsed_time_per_iteration": 4.88198256, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 32s", "remaining_time": "8h 57m 34s", "loss_scale": 1.0, "consumed_samples": 1561088, "global_step/max_steps": "6098/12700"}
{"lm loss": 2.06788754, "grad_norm": 0.38375705, "learning_rate": 5.865e-05, "elapsed_time_per_iteration": 4.88151979, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 36s", "remaining_time": "8h 57m 29s", "loss_scale": 1.0, "consumed_samples": 1561344, "global_step/max_steps": "6099/12700"}
{"lm loss": 2.10813737, "grad_norm": 0.38093346, "learning_rate": 5.864e-05, "elapsed_time_per_iteration": 4.88078761, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 41s", "remaining_time": "8h 57m 24s", "loss_scale": 1.0, "consumed_samples": 1561600, "global_step/max_steps": "6100/12700"}
{"lm loss": 2.09481049, "grad_norm": 0.37281448, "learning_rate": 5.863e-05, "elapsed_time_per_iteration": 4.84851527, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 46s", "remaining_time": "8h 57m 19s", "loss_scale": 1.0, "consumed_samples": 1561856, "global_step/max_steps": "6101/12700"}
{"lm loss": 2.12841201, "grad_norm": 0.37621576, "learning_rate": 5.862e-05, "elapsed_time_per_iteration": 4.84745908, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 51s", "remaining_time": "8h 57m 14s", "loss_scale": 1.0, "consumed_samples": 1562112, "global_step/max_steps": "6102/12700"}
{"lm loss": 2.09688687, "grad_norm": 0.38648474, "learning_rate": 5.86e-05, "elapsed_time_per_iteration": 4.81455994, "memory(GiB)": 28.98, "elapsed_time": "8h 16m 56s", "remaining_time": "8h 57m 9s", "loss_scale": 1.0, "consumed_samples": 1562368, "global_step/max_steps": "6103/12700"}
{"lm loss": 2.06247568, "grad_norm": 0.3513329, "learning_rate": 5.859e-05, "elapsed_time_per_iteration": 4.82595348, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 1s", "remaining_time": "8h 57m 4s", "loss_scale": 1.0, "consumed_samples": 1562624, "global_step/max_steps": "6104/12700"}
{"lm loss": 2.09631395, "grad_norm": 0.39250091, "learning_rate": 5.858e-05, "elapsed_time_per_iteration": 4.78576446, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 5s", "remaining_time": "8h 56m 59s", "loss_scale": 1.0, "consumed_samples": 1562880, "global_step/max_steps": "6105/12700"}
{"lm loss": 2.13978577, "grad_norm": 0.38011843, "learning_rate": 5.857e-05, "elapsed_time_per_iteration": 4.84406543, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 10s", "remaining_time": "8h 56m 54s", "loss_scale": 1.0, "consumed_samples": 1563136, "global_step/max_steps": "6106/12700"}
{"lm loss": 2.08512497, "grad_norm": 0.39121741, "learning_rate": 5.855e-05, "elapsed_time_per_iteration": 4.88728118, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 15s", "remaining_time": "8h 56m 49s", "loss_scale": 1.0, "consumed_samples": 1563392, "global_step/max_steps": "6107/12700"}
{"lm loss": 2.10017323, "grad_norm": 0.36323172, "learning_rate": 5.854e-05, "elapsed_time_per_iteration": 4.90723109, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 20s", "remaining_time": "8h 56m 45s", "loss_scale": 1.0, "consumed_samples": 1563648, "global_step/max_steps": "6108/12700"}
{"lm loss": 2.09045482, "grad_norm": 0.36889952, "learning_rate": 5.853e-05, "elapsed_time_per_iteration": 4.78708673, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 25s", "remaining_time": "8h 56m 40s", "loss_scale": 1.0, "consumed_samples": 1563904, "global_step/max_steps": "6109/12700"}
{"lm loss": 2.10335422, "grad_norm": 0.38421926, "learning_rate": 5.852e-05, "elapsed_time_per_iteration": 4.92345881, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 30s", "remaining_time": "8h 56m 35s", "loss_scale": 1.0, "consumed_samples": 1564160, "global_step/max_steps": "6110/12700"}
{"lm loss": 2.12488961, "grad_norm": 0.36874083, "learning_rate": 5.85e-05, "elapsed_time_per_iteration": 4.94159746, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 35s", "remaining_time": "8h 56m 30s", "loss_scale": 1.0, "consumed_samples": 1564416, "global_step/max_steps": "6111/12700"}
{"lm loss": 2.11221814, "grad_norm": 0.36432904, "learning_rate": 5.849e-05, "elapsed_time_per_iteration": 4.76796532, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 39s", "remaining_time": "8h 56m 25s", "loss_scale": 1.0, "consumed_samples": 1564672, "global_step/max_steps": "6112/12700"}
{"lm loss": 2.11405969, "grad_norm": 0.349738, "learning_rate": 5.848e-05, "elapsed_time_per_iteration": 4.92871356, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 44s", "remaining_time": "8h 56m 20s", "loss_scale": 1.0, "consumed_samples": 1564928, "global_step/max_steps": "6113/12700"}
{"lm loss": 2.07590461, "grad_norm": 0.35490757, "learning_rate": 5.847e-05, "elapsed_time_per_iteration": 4.91759872, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 49s", "remaining_time": "8h 56m 15s", "loss_scale": 1.0, "consumed_samples": 1565184, "global_step/max_steps": "6114/12700"}
{"lm loss": 2.11475778, "grad_norm": 0.33658087, "learning_rate": 5.845e-05, "elapsed_time_per_iteration": 5.04419827, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 54s", "remaining_time": "8h 56m 11s", "loss_scale": 1.0, "consumed_samples": 1565440, "global_step/max_steps": "6115/12700"}
{"lm loss": 2.07671571, "grad_norm": 0.36578527, "learning_rate": 5.844e-05, "elapsed_time_per_iteration": 4.92302465, "memory(GiB)": 28.98, "elapsed_time": "8h 17m 59s", "remaining_time": "8h 56m 6s", "loss_scale": 1.0, "consumed_samples": 1565696, "global_step/max_steps": "6116/12700"}
{"lm loss": 2.09343433, "grad_norm": 0.32505772, "learning_rate": 5.843e-05, "elapsed_time_per_iteration": 4.91176891, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 4s", "remaining_time": "8h 56m 1s", "loss_scale": 1.0, "consumed_samples": 1565952, "global_step/max_steps": "6117/12700"}
{"lm loss": 2.10170603, "grad_norm": 0.37023872, "learning_rate": 5.842e-05, "elapsed_time_per_iteration": 4.84065819, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 9s", "remaining_time": "8h 55m 56s", "loss_scale": 1.0, "consumed_samples": 1566208, "global_step/max_steps": "6118/12700"}
{"lm loss": 2.09727907, "grad_norm": 0.33262035, "learning_rate": 5.84e-05, "elapsed_time_per_iteration": 4.85539436, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 14s", "remaining_time": "8h 55m 51s", "loss_scale": 1.0, "consumed_samples": 1566464, "global_step/max_steps": "6119/12700"}
{"lm loss": 2.08397055, "grad_norm": 0.34188819, "learning_rate": 5.839e-05, "elapsed_time_per_iteration": 4.95211196, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 19s", "remaining_time": "8h 55m 46s", "loss_scale": 1.0, "consumed_samples": 1566720, "global_step/max_steps": "6120/12700"}
{"lm loss": 2.09089327, "grad_norm": 0.36624098, "learning_rate": 5.838e-05, "elapsed_time_per_iteration": 4.81182408, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 24s", "remaining_time": "8h 55m 41s", "loss_scale": 1.0, "consumed_samples": 1566976, "global_step/max_steps": "6121/12700"}
{"lm loss": 2.10036445, "grad_norm": 0.35732326, "learning_rate": 5.837e-05, "elapsed_time_per_iteration": 4.84095335, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 28s", "remaining_time": "8h 55m 36s", "loss_scale": 1.0, "consumed_samples": 1567232, "global_step/max_steps": "6122/12700"}
{"lm loss": 2.08079576, "grad_norm": 0.35692453, "learning_rate": 5.835e-05, "elapsed_time_per_iteration": 4.86936808, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 33s", "remaining_time": "8h 55m 31s", "loss_scale": 1.0, "consumed_samples": 1567488, "global_step/max_steps": "6123/12700"}
{"lm loss": 2.08371568, "grad_norm": 0.35704082, "learning_rate": 5.834e-05, "elapsed_time_per_iteration": 4.9591434, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 38s", "remaining_time": "8h 55m 27s", "loss_scale": 1.0, "consumed_samples": 1567744, "global_step/max_steps": "6124/12700"}
{"lm loss": 2.10896111, "grad_norm": 0.35006958, "learning_rate": 5.833e-05, "elapsed_time_per_iteration": 4.88575125, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 43s", "remaining_time": "8h 55m 22s", "loss_scale": 1.0, "consumed_samples": 1568000, "global_step/max_steps": "6125/12700"}
{"lm loss": 2.13611555, "grad_norm": 0.38269255, "learning_rate": 5.832e-05, "elapsed_time_per_iteration": 4.79595876, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 48s", "remaining_time": "8h 55m 17s", "loss_scale": 1.0, "consumed_samples": 1568256, "global_step/max_steps": "6126/12700"}
{"lm loss": 2.09572625, "grad_norm": 0.38158724, "learning_rate": 5.83e-05, "elapsed_time_per_iteration": 4.82183194, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 53s", "remaining_time": "8h 55m 12s", "loss_scale": 1.0, "consumed_samples": 1568512, "global_step/max_steps": "6127/12700"}
{"lm loss": 2.09969163, "grad_norm": 0.37513828, "learning_rate": 5.829e-05, "elapsed_time_per_iteration": 4.8691299, "memory(GiB)": 28.98, "elapsed_time": "8h 18m 58s", "remaining_time": "8h 55m 7s", "loss_scale": 1.0, "consumed_samples": 1568768, "global_step/max_steps": "6128/12700"}
{"lm loss": 2.09918165, "grad_norm": 0.378286, "learning_rate": 5.828e-05, "elapsed_time_per_iteration": 4.88734388, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 3s", "remaining_time": "8h 55m 2s", "loss_scale": 1.0, "consumed_samples": 1569024, "global_step/max_steps": "6129/12700"}
{"lm loss": 2.09425521, "grad_norm": 0.39053792, "learning_rate": 5.827e-05, "elapsed_time_per_iteration": 4.95816469, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 8s", "remaining_time": "8h 54m 57s", "loss_scale": 1.0, "consumed_samples": 1569280, "global_step/max_steps": "6130/12700"}
{"lm loss": 2.11225724, "grad_norm": 0.37203568, "learning_rate": 5.825e-05, "elapsed_time_per_iteration": 4.93606639, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 12s", "remaining_time": "8h 54m 52s", "loss_scale": 1.0, "consumed_samples": 1569536, "global_step/max_steps": "6131/12700"}
{"lm loss": 2.08976817, "grad_norm": 0.37482014, "learning_rate": 5.824e-05, "elapsed_time_per_iteration": 4.79935646, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 17s", "remaining_time": "8h 54m 47s", "loss_scale": 1.0, "consumed_samples": 1569792, "global_step/max_steps": "6132/12700"}
{"lm loss": 2.07145286, "grad_norm": 0.39496213, "learning_rate": 5.823e-05, "elapsed_time_per_iteration": 4.86564875, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 22s", "remaining_time": "8h 54m 42s", "loss_scale": 1.0, "consumed_samples": 1570048, "global_step/max_steps": "6133/12700"}
{"lm loss": 2.09333682, "grad_norm": 0.33388203, "learning_rate": 5.822e-05, "elapsed_time_per_iteration": 4.86777997, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 27s", "remaining_time": "8h 54m 38s", "loss_scale": 1.0, "consumed_samples": 1570304, "global_step/max_steps": "6134/12700"}
{"lm loss": 2.10835981, "grad_norm": 0.37066084, "learning_rate": 5.82e-05, "elapsed_time_per_iteration": 4.96084881, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 32s", "remaining_time": "8h 54m 33s", "loss_scale": 1.0, "consumed_samples": 1570560, "global_step/max_steps": "6135/12700"}
{"lm loss": 2.09711337, "grad_norm": 0.37453294, "learning_rate": 5.819e-05, "elapsed_time_per_iteration": 4.95696855, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 37s", "remaining_time": "8h 54m 28s", "loss_scale": 1.0, "consumed_samples": 1570816, "global_step/max_steps": "6136/12700"}
{"lm loss": 2.0947485, "grad_norm": 0.37076014, "learning_rate": 5.818e-05, "elapsed_time_per_iteration": 4.95552397, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 42s", "remaining_time": "8h 54m 23s", "loss_scale": 1.0, "consumed_samples": 1571072, "global_step/max_steps": "6137/12700"}
{"lm loss": 2.11980343, "grad_norm": 0.38889578, "learning_rate": 5.817e-05, "elapsed_time_per_iteration": 4.87842822, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 47s", "remaining_time": "8h 54m 18s", "loss_scale": 1.0, "consumed_samples": 1571328, "global_step/max_steps": "6138/12700"}
{"lm loss": 2.10267735, "grad_norm": 0.35783726, "learning_rate": 5.815e-05, "elapsed_time_per_iteration": 4.90560579, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 52s", "remaining_time": "8h 54m 13s", "loss_scale": 1.0, "consumed_samples": 1571584, "global_step/max_steps": "6139/12700"}
{"lm loss": 2.09627438, "grad_norm": 0.43783322, "learning_rate": 5.814e-05, "elapsed_time_per_iteration": 4.80477524, "memory(GiB)": 28.98, "elapsed_time": "8h 19m 56s", "remaining_time": "8h 54m 8s", "loss_scale": 1.0, "consumed_samples": 1571840, "global_step/max_steps": "6140/12700"}
{"lm loss": 2.10204196, "grad_norm": 0.37331718, "learning_rate": 5.813e-05, "elapsed_time_per_iteration": 4.91026926, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 1s", "remaining_time": "8h 54m 3s", "loss_scale": 1.0, "consumed_samples": 1572096, "global_step/max_steps": "6141/12700"}
{"lm loss": 2.10362554, "grad_norm": 0.42402339, "learning_rate": 5.812e-05, "elapsed_time_per_iteration": 4.89037204, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 6s", "remaining_time": "8h 53m 59s", "loss_scale": 1.0, "consumed_samples": 1572352, "global_step/max_steps": "6142/12700"}
{"lm loss": 2.11217189, "grad_norm": 0.38151667, "learning_rate": 5.81e-05, "elapsed_time_per_iteration": 4.91129088, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 11s", "remaining_time": "8h 53m 54s", "loss_scale": 1.0, "consumed_samples": 1572608, "global_step/max_steps": "6143/12700"}
{"lm loss": 2.08630204, "grad_norm": 0.41803867, "learning_rate": 5.809e-05, "elapsed_time_per_iteration": 4.94620895, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 16s", "remaining_time": "8h 53m 49s", "loss_scale": 1.0, "consumed_samples": 1572864, "global_step/max_steps": "6144/12700"}
{"lm loss": 2.13080788, "grad_norm": 0.4029125, "learning_rate": 5.808e-05, "elapsed_time_per_iteration": 4.92147851, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 21s", "remaining_time": "8h 53m 44s", "loss_scale": 1.0, "consumed_samples": 1573120, "global_step/max_steps": "6145/12700"}
{"lm loss": 2.11234546, "grad_norm": 0.39154035, "learning_rate": 5.807e-05, "elapsed_time_per_iteration": 4.80587554, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 26s", "remaining_time": "8h 53m 39s", "loss_scale": 1.0, "consumed_samples": 1573376, "global_step/max_steps": "6146/12700"}
{"lm loss": 2.08542871, "grad_norm": 0.41275799, "learning_rate": 5.805e-05, "elapsed_time_per_iteration": 4.88184714, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 31s", "remaining_time": "8h 53m 34s", "loss_scale": 1.0, "consumed_samples": 1573632, "global_step/max_steps": "6147/12700"}
{"lm loss": 2.1109395, "grad_norm": 0.36782286, "learning_rate": 5.804e-05, "elapsed_time_per_iteration": 4.8717823, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 36s", "remaining_time": "8h 53m 29s", "loss_scale": 1.0, "consumed_samples": 1573888, "global_step/max_steps": "6148/12700"}
{"lm loss": 2.06055379, "grad_norm": 0.43685171, "learning_rate": 5.803e-05, "elapsed_time_per_iteration": 4.93097782, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 41s", "remaining_time": "8h 53m 24s", "loss_scale": 1.0, "consumed_samples": 1574144, "global_step/max_steps": "6149/12700"}
{"lm loss": 2.12307429, "grad_norm": 0.34644276, "learning_rate": 5.802e-05, "elapsed_time_per_iteration": 4.82420206, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 45s", "remaining_time": "8h 53m 20s", "loss_scale": 1.0, "consumed_samples": 1574400, "global_step/max_steps": "6150/12700"}
{"lm loss": 2.09584546, "grad_norm": 0.36644384, "learning_rate": 5.8e-05, "elapsed_time_per_iteration": 4.79353809, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 50s", "remaining_time": "8h 53m 15s", "loss_scale": 1.0, "consumed_samples": 1574656, "global_step/max_steps": "6151/12700"}
{"lm loss": 2.11730385, "grad_norm": 0.36771354, "learning_rate": 5.799e-05, "elapsed_time_per_iteration": 4.85136271, "memory(GiB)": 28.98, "elapsed_time": "8h 20m 55s", "remaining_time": "8h 53m 10s", "loss_scale": 1.0, "consumed_samples": 1574912, "global_step/max_steps": "6152/12700"}
{"lm loss": 2.08889818, "grad_norm": 0.36790246, "learning_rate": 5.798e-05, "elapsed_time_per_iteration": 4.79938555, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 0s", "remaining_time": "8h 53m 5s", "loss_scale": 1.0, "consumed_samples": 1575168, "global_step/max_steps": "6153/12700"}
{"lm loss": 2.08587098, "grad_norm": 0.3693223, "learning_rate": 5.797e-05, "elapsed_time_per_iteration": 4.85183287, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 5s", "remaining_time": "8h 53m 0s", "loss_scale": 1.0, "consumed_samples": 1575424, "global_step/max_steps": "6154/12700"}
{"lm loss": 2.13376713, "grad_norm": 0.43556616, "learning_rate": 5.795e-05, "elapsed_time_per_iteration": 4.90813804, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 10s", "remaining_time": "8h 52m 55s", "loss_scale": 1.0, "consumed_samples": 1575680, "global_step/max_steps": "6155/12700"}
{"lm loss": 2.15162158, "grad_norm": 0.36982912, "learning_rate": 5.794e-05, "elapsed_time_per_iteration": 4.98197722, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 15s", "remaining_time": "8h 52m 50s", "loss_scale": 1.0, "consumed_samples": 1575936, "global_step/max_steps": "6156/12700"}
{"lm loss": 2.10208583, "grad_norm": 0.40256545, "learning_rate": 5.793e-05, "elapsed_time_per_iteration": 4.94440842, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 19s", "remaining_time": "8h 52m 45s", "loss_scale": 1.0, "consumed_samples": 1576192, "global_step/max_steps": "6157/12700"}
{"lm loss": 2.10879707, "grad_norm": 0.36446574, "learning_rate": 5.792e-05, "elapsed_time_per_iteration": 4.79796052, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 24s", "remaining_time": "8h 52m 40s", "loss_scale": 1.0, "consumed_samples": 1576448, "global_step/max_steps": "6158/12700"}
{"lm loss": 2.10350561, "grad_norm": 0.38933644, "learning_rate": 5.79e-05, "elapsed_time_per_iteration": 4.86484814, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 29s", "remaining_time": "8h 52m 35s", "loss_scale": 1.0, "consumed_samples": 1576704, "global_step/max_steps": "6159/12700"}
{"lm loss": 2.07694864, "grad_norm": 0.36162016, "learning_rate": 5.789e-05, "elapsed_time_per_iteration": 4.90602589, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 34s", "remaining_time": "8h 52m 31s", "loss_scale": 1.0, "consumed_samples": 1576960, "global_step/max_steps": "6160/12700"}
{"lm loss": 2.07985067, "grad_norm": 0.44107068, "learning_rate": 5.788e-05, "elapsed_time_per_iteration": 4.90924907, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 39s", "remaining_time": "8h 52m 26s", "loss_scale": 1.0, "consumed_samples": 1577216, "global_step/max_steps": "6161/12700"}
{"lm loss": 2.07229948, "grad_norm": 0.36013076, "learning_rate": 5.787e-05, "elapsed_time_per_iteration": 4.85365367, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 44s", "remaining_time": "8h 52m 21s", "loss_scale": 1.0, "consumed_samples": 1577472, "global_step/max_steps": "6162/12700"}
{"lm loss": 2.07683063, "grad_norm": 0.38540149, "learning_rate": 5.785e-05, "elapsed_time_per_iteration": 4.90763998, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 49s", "remaining_time": "8h 52m 16s", "loss_scale": 1.0, "consumed_samples": 1577728, "global_step/max_steps": "6163/12700"}
{"lm loss": 2.08647704, "grad_norm": 0.39258015, "learning_rate": 5.784e-05, "elapsed_time_per_iteration": 4.94768763, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 54s", "remaining_time": "8h 52m 11s", "loss_scale": 1.0, "consumed_samples": 1577984, "global_step/max_steps": "6164/12700"}
{"lm loss": 2.08792782, "grad_norm": 0.37822366, "learning_rate": 5.783e-05, "elapsed_time_per_iteration": 4.89944744, "memory(GiB)": 28.98, "elapsed_time": "8h 21m 59s", "remaining_time": "8h 52m 6s", "loss_scale": 1.0, "consumed_samples": 1578240, "global_step/max_steps": "6165/12700"}
{"lm loss": 2.07855964, "grad_norm": 0.36672586, "learning_rate": 5.782e-05, "elapsed_time_per_iteration": 4.86013794, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 3s", "remaining_time": "8h 52m 1s", "loss_scale": 1.0, "consumed_samples": 1578496, "global_step/max_steps": "6166/12700"}
{"lm loss": 2.06506944, "grad_norm": 0.35609332, "learning_rate": 5.78e-05, "elapsed_time_per_iteration": 4.89028502, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 8s", "remaining_time": "8h 51m 56s", "loss_scale": 1.0, "consumed_samples": 1578752, "global_step/max_steps": "6167/12700"}
{"lm loss": 2.10895753, "grad_norm": 0.36236393, "learning_rate": 5.779e-05, "elapsed_time_per_iteration": 4.9088099, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 13s", "remaining_time": "8h 51m 52s", "loss_scale": 1.0, "consumed_samples": 1579008, "global_step/max_steps": "6168/12700"}
{"lm loss": 2.09715152, "grad_norm": 0.38883024, "learning_rate": 5.778e-05, "elapsed_time_per_iteration": 4.86524677, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 18s", "remaining_time": "8h 51m 47s", "loss_scale": 1.0, "consumed_samples": 1579264, "global_step/max_steps": "6169/12700"}
{"lm loss": 2.11955857, "grad_norm": 0.395641, "learning_rate": 5.777e-05, "elapsed_time_per_iteration": 4.83842444, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 23s", "remaining_time": "8h 51m 42s", "loss_scale": 1.0, "consumed_samples": 1579520, "global_step/max_steps": "6170/12700"}
{"lm loss": 2.10393453, "grad_norm": 0.36265504, "learning_rate": 5.775e-05, "elapsed_time_per_iteration": 4.95326781, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 28s", "remaining_time": "8h 51m 37s", "loss_scale": 1.0, "consumed_samples": 1579776, "global_step/max_steps": "6171/12700"}
{"lm loss": 2.12093472, "grad_norm": 0.39516905, "learning_rate": 5.774e-05, "elapsed_time_per_iteration": 4.92357183, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 33s", "remaining_time": "8h 51m 32s", "loss_scale": 1.0, "consumed_samples": 1580032, "global_step/max_steps": "6172/12700"}
{"lm loss": 2.10334134, "grad_norm": 0.36775109, "learning_rate": 5.773e-05, "elapsed_time_per_iteration": 4.88354182, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 38s", "remaining_time": "8h 51m 27s", "loss_scale": 1.0, "consumed_samples": 1580288, "global_step/max_steps": "6173/12700"}
{"lm loss": 2.09078693, "grad_norm": 0.38889185, "learning_rate": 5.772e-05, "elapsed_time_per_iteration": 4.76235652, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 42s", "remaining_time": "8h 51m 22s", "loss_scale": 1.0, "consumed_samples": 1580544, "global_step/max_steps": "6174/12700"}
{"lm loss": 2.06901431, "grad_norm": 0.35579121, "learning_rate": 5.77e-05, "elapsed_time_per_iteration": 4.92743039, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 47s", "remaining_time": "8h 51m 17s", "loss_scale": 1.0, "consumed_samples": 1580800, "global_step/max_steps": "6175/12700"}
{"lm loss": 2.0623076, "grad_norm": 0.3596808, "learning_rate": 5.769e-05, "elapsed_time_per_iteration": 4.8208673, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 52s", "remaining_time": "8h 51m 12s", "loss_scale": 1.0, "consumed_samples": 1581056, "global_step/max_steps": "6176/12700"}
{"lm loss": 2.09871507, "grad_norm": 0.37512216, "learning_rate": 5.768e-05, "elapsed_time_per_iteration": 4.90977836, "memory(GiB)": 28.98, "elapsed_time": "8h 22m 57s", "remaining_time": "8h 51m 7s", "loss_scale": 1.0, "consumed_samples": 1581312, "global_step/max_steps": "6177/12700"}
{"lm loss": 2.09156799, "grad_norm": 0.35847837, "learning_rate": 5.767e-05, "elapsed_time_per_iteration": 4.86575484, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 2s", "remaining_time": "8h 51m 3s", "loss_scale": 1.0, "consumed_samples": 1581568, "global_step/max_steps": "6178/12700"}
{"lm loss": 2.08656263, "grad_norm": 0.37862664, "learning_rate": 5.765e-05, "elapsed_time_per_iteration": 4.87778902, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 7s", "remaining_time": "8h 50m 58s", "loss_scale": 1.0, "consumed_samples": 1581824, "global_step/max_steps": "6179/12700"}
{"lm loss": 2.09074593, "grad_norm": 0.34919113, "learning_rate": 5.764e-05, "elapsed_time_per_iteration": 4.84553051, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 12s", "remaining_time": "8h 50m 53s", "loss_scale": 1.0, "consumed_samples": 1582080, "global_step/max_steps": "6180/12700"}
{"lm loss": 2.10173965, "grad_norm": 0.4058305, "learning_rate": 5.763e-05, "elapsed_time_per_iteration": 4.81906891, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 17s", "remaining_time": "8h 50m 48s", "loss_scale": 1.0, "consumed_samples": 1582336, "global_step/max_steps": "6181/12700"}
{"lm loss": 2.10659933, "grad_norm": 0.32780793, "learning_rate": 5.761e-05, "elapsed_time_per_iteration": 4.88962197, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 21s", "remaining_time": "8h 50m 43s", "loss_scale": 1.0, "consumed_samples": 1582592, "global_step/max_steps": "6182/12700"}
{"lm loss": 2.09416223, "grad_norm": 0.36589089, "learning_rate": 5.76e-05, "elapsed_time_per_iteration": 4.88424182, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 26s", "remaining_time": "8h 50m 38s", "loss_scale": 1.0, "consumed_samples": 1582848, "global_step/max_steps": "6183/12700"}
{"lm loss": 2.11485672, "grad_norm": 0.36494574, "learning_rate": 5.759e-05, "elapsed_time_per_iteration": 4.82301879, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 31s", "remaining_time": "8h 50m 33s", "loss_scale": 1.0, "consumed_samples": 1583104, "global_step/max_steps": "6184/12700"}
{"lm loss": 2.08785176, "grad_norm": 0.35484207, "learning_rate": 5.758e-05, "elapsed_time_per_iteration": 4.83907175, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 36s", "remaining_time": "8h 50m 28s", "loss_scale": 1.0, "consumed_samples": 1583360, "global_step/max_steps": "6185/12700"}
{"lm loss": 2.11671329, "grad_norm": 0.36352128, "learning_rate": 5.756e-05, "elapsed_time_per_iteration": 4.81654835, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 41s", "remaining_time": "8h 50m 23s", "loss_scale": 1.0, "consumed_samples": 1583616, "global_step/max_steps": "6186/12700"}
{"lm loss": 2.08019304, "grad_norm": 0.3992486, "learning_rate": 5.755e-05, "elapsed_time_per_iteration": 4.77526689, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 46s", "remaining_time": "8h 50m 18s", "loss_scale": 1.0, "consumed_samples": 1583872, "global_step/max_steps": "6187/12700"}
{"lm loss": 2.06666636, "grad_norm": 0.33246836, "learning_rate": 5.754e-05, "elapsed_time_per_iteration": 4.92090011, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 50s", "remaining_time": "8h 50m 13s", "loss_scale": 1.0, "consumed_samples": 1584128, "global_step/max_steps": "6188/12700"}
{"lm loss": 2.06758547, "grad_norm": 0.36210519, "learning_rate": 5.753e-05, "elapsed_time_per_iteration": 4.87492323, "memory(GiB)": 28.98, "elapsed_time": "8h 23m 55s", "remaining_time": "8h 50m 8s", "loss_scale": 1.0, "consumed_samples": 1584384, "global_step/max_steps": "6189/12700"}
{"lm loss": 2.13412452, "grad_norm": 0.36911577, "learning_rate": 5.751e-05, "elapsed_time_per_iteration": 4.8672421, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 0s", "remaining_time": "8h 50m 4s", "loss_scale": 1.0, "consumed_samples": 1584640, "global_step/max_steps": "6190/12700"}
{"lm loss": 2.12726665, "grad_norm": 0.38333431, "learning_rate": 5.75e-05, "elapsed_time_per_iteration": 4.82165527, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 5s", "remaining_time": "8h 49m 59s", "loss_scale": 1.0, "consumed_samples": 1584896, "global_step/max_steps": "6191/12700"}
{"lm loss": 2.10677147, "grad_norm": 0.3449496, "learning_rate": 5.749e-05, "elapsed_time_per_iteration": 4.82582808, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 10s", "remaining_time": "8h 49m 54s", "loss_scale": 1.0, "consumed_samples": 1585152, "global_step/max_steps": "6192/12700"}
{"lm loss": 2.07231712, "grad_norm": 0.37715715, "learning_rate": 5.748e-05, "elapsed_time_per_iteration": 4.83059049, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 15s", "remaining_time": "8h 49m 49s", "loss_scale": 1.0, "consumed_samples": 1585408, "global_step/max_steps": "6193/12700"}
{"lm loss": 2.09470367, "grad_norm": 0.36648107, "learning_rate": 5.746e-05, "elapsed_time_per_iteration": 4.82464337, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 20s", "remaining_time": "8h 49m 44s", "loss_scale": 1.0, "consumed_samples": 1585664, "global_step/max_steps": "6194/12700"}
{"lm loss": 2.12842703, "grad_norm": 0.37453449, "learning_rate": 5.745e-05, "elapsed_time_per_iteration": 4.86013961, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 24s", "remaining_time": "8h 49m 39s", "loss_scale": 1.0, "consumed_samples": 1585920, "global_step/max_steps": "6195/12700"}
{"lm loss": 2.06515193, "grad_norm": 0.36429986, "learning_rate": 5.744e-05, "elapsed_time_per_iteration": 4.95527864, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 29s", "remaining_time": "8h 49m 34s", "loss_scale": 1.0, "consumed_samples": 1586176, "global_step/max_steps": "6196/12700"}
{"lm loss": 2.11338758, "grad_norm": 0.36264491, "learning_rate": 5.743e-05, "elapsed_time_per_iteration": 4.8380661, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 34s", "remaining_time": "8h 49m 29s", "loss_scale": 1.0, "consumed_samples": 1586432, "global_step/max_steps": "6197/12700"}
{"lm loss": 2.11196971, "grad_norm": 0.37725282, "learning_rate": 5.741e-05, "elapsed_time_per_iteration": 4.89637756, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 39s", "remaining_time": "8h 49m 24s", "loss_scale": 1.0, "consumed_samples": 1586688, "global_step/max_steps": "6198/12700"}
{"lm loss": 2.03947568, "grad_norm": 0.36384466, "learning_rate": 5.74e-05, "elapsed_time_per_iteration": 4.90716386, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 44s", "remaining_time": "8h 49m 19s", "loss_scale": 1.0, "consumed_samples": 1586944, "global_step/max_steps": "6199/12700"}
{"lm loss": 2.09186649, "grad_norm": 0.37275374, "learning_rate": 5.739e-05, "elapsed_time_per_iteration": 4.98812103, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 49s", "remaining_time": "8h 49m 15s", "loss_scale": 1.0, "consumed_samples": 1587200, "global_step/max_steps": "6200/12700"}
{"lm loss": 2.09735274, "grad_norm": 0.3591938, "learning_rate": 5.738e-05, "elapsed_time_per_iteration": 4.89547968, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 54s", "remaining_time": "8h 49m 10s", "loss_scale": 1.0, "consumed_samples": 1587456, "global_step/max_steps": "6201/12700"}
{"lm loss": 2.06416631, "grad_norm": 0.34402952, "learning_rate": 5.736e-05, "elapsed_time_per_iteration": 4.89840269, "memory(GiB)": 28.98, "elapsed_time": "8h 24m 59s", "remaining_time": "8h 49m 5s", "loss_scale": 1.0, "consumed_samples": 1587712, "global_step/max_steps": "6202/12700"}
{"lm loss": 2.11682034, "grad_norm": 0.37172353, "learning_rate": 5.735e-05, "elapsed_time_per_iteration": 4.86330867, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 4s", "remaining_time": "8h 49m 0s", "loss_scale": 1.0, "consumed_samples": 1587968, "global_step/max_steps": "6203/12700"}
{"lm loss": 2.09349775, "grad_norm": 0.37887636, "learning_rate": 5.734e-05, "elapsed_time_per_iteration": 4.87661457, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 8s", "remaining_time": "8h 48m 55s", "loss_scale": 1.0, "consumed_samples": 1588224, "global_step/max_steps": "6204/12700"}
{"lm loss": 2.07078671, "grad_norm": 0.35668299, "learning_rate": 5.733e-05, "elapsed_time_per_iteration": 4.89869952, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 13s", "remaining_time": "8h 48m 50s", "loss_scale": 1.0, "consumed_samples": 1588480, "global_step/max_steps": "6205/12700"}
{"lm loss": 2.0713737, "grad_norm": 0.37282154, "learning_rate": 5.731e-05, "elapsed_time_per_iteration": 4.94199443, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 18s", "remaining_time": "8h 48m 45s", "loss_scale": 1.0, "consumed_samples": 1588736, "global_step/max_steps": "6206/12700"}
{"lm loss": 2.10261345, "grad_norm": 0.41050264, "learning_rate": 5.73e-05, "elapsed_time_per_iteration": 4.86581755, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 23s", "remaining_time": "8h 48m 40s", "loss_scale": 1.0, "consumed_samples": 1588992, "global_step/max_steps": "6207/12700"}
{"lm loss": 2.11164594, "grad_norm": 0.38627392, "learning_rate": 5.729e-05, "elapsed_time_per_iteration": 4.82885575, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 28s", "remaining_time": "8h 48m 35s", "loss_scale": 1.0, "consumed_samples": 1589248, "global_step/max_steps": "6208/12700"}
{"lm loss": 2.06626034, "grad_norm": 0.34089881, "learning_rate": 5.728e-05, "elapsed_time_per_iteration": 4.91666913, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 33s", "remaining_time": "8h 48m 31s", "loss_scale": 1.0, "consumed_samples": 1589504, "global_step/max_steps": "6209/12700"}
{"lm loss": 2.07928395, "grad_norm": 0.35871854, "learning_rate": 5.726e-05, "elapsed_time_per_iteration": 4.8445642, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 38s", "remaining_time": "8h 48m 26s", "loss_scale": 1.0, "consumed_samples": 1589760, "global_step/max_steps": "6210/12700"}
{"lm loss": 2.08132029, "grad_norm": 0.37180516, "learning_rate": 5.725e-05, "elapsed_time_per_iteration": 4.82848907, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 43s", "remaining_time": "8h 48m 21s", "loss_scale": 1.0, "consumed_samples": 1590016, "global_step/max_steps": "6211/12700"}
{"lm loss": 2.10336351, "grad_norm": 0.39020213, "learning_rate": 5.724e-05, "elapsed_time_per_iteration": 4.90608478, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 48s", "remaining_time": "8h 48m 16s", "loss_scale": 1.0, "consumed_samples": 1590272, "global_step/max_steps": "6212/12700"}
{"lm loss": 2.08857608, "grad_norm": 0.35620365, "learning_rate": 5.723e-05, "elapsed_time_per_iteration": 4.86920142, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 52s", "remaining_time": "8h 48m 11s", "loss_scale": 1.0, "consumed_samples": 1590528, "global_step/max_steps": "6213/12700"}
{"lm loss": 2.08264136, "grad_norm": 0.39505127, "learning_rate": 5.721e-05, "elapsed_time_per_iteration": 4.86554384, "memory(GiB)": 28.98, "elapsed_time": "8h 25m 57s", "remaining_time": "8h 48m 6s", "loss_scale": 1.0, "consumed_samples": 1590784, "global_step/max_steps": "6214/12700"}
{"lm loss": 2.08656859, "grad_norm": 0.38263935, "learning_rate": 5.72e-05, "elapsed_time_per_iteration": 4.89825702, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 2s", "remaining_time": "8h 48m 1s", "loss_scale": 1.0, "consumed_samples": 1591040, "global_step/max_steps": "6215/12700"}
{"lm loss": 2.07879424, "grad_norm": 0.34237862, "learning_rate": 5.719e-05, "elapsed_time_per_iteration": 4.9685576, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 7s", "remaining_time": "8h 47m 56s", "loss_scale": 1.0, "consumed_samples": 1591296, "global_step/max_steps": "6216/12700"}
{"lm loss": 2.08321738, "grad_norm": 0.36145851, "learning_rate": 5.718e-05, "elapsed_time_per_iteration": 4.92121816, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 12s", "remaining_time": "8h 47m 52s", "loss_scale": 1.0, "consumed_samples": 1591552, "global_step/max_steps": "6217/12700"}
{"lm loss": 2.07755589, "grad_norm": 0.3646704, "learning_rate": 5.716e-05, "elapsed_time_per_iteration": 4.83263922, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 17s", "remaining_time": "8h 47m 47s", "loss_scale": 1.0, "consumed_samples": 1591808, "global_step/max_steps": "6218/12700"}
{"lm loss": 2.08990479, "grad_norm": 0.36272562, "learning_rate": 5.715e-05, "elapsed_time_per_iteration": 4.95104718, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 22s", "remaining_time": "8h 47m 42s", "loss_scale": 1.0, "consumed_samples": 1592064, "global_step/max_steps": "6219/12700"}
{"lm loss": 2.11698723, "grad_norm": 0.36783266, "learning_rate": 5.714e-05, "elapsed_time_per_iteration": 4.85335135, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 27s", "remaining_time": "8h 47m 37s", "loss_scale": 1.0, "consumed_samples": 1592320, "global_step/max_steps": "6220/12700"}
{"lm loss": 2.11188149, "grad_norm": 0.36330882, "learning_rate": 5.713e-05, "elapsed_time_per_iteration": 4.81518388, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 31s", "remaining_time": "8h 47m 32s", "loss_scale": 1.0, "consumed_samples": 1592576, "global_step/max_steps": "6221/12700"}
{"lm loss": 2.09401917, "grad_norm": 0.37107894, "learning_rate": 5.711e-05, "elapsed_time_per_iteration": 4.85166907, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 36s", "remaining_time": "8h 47m 27s", "loss_scale": 1.0, "consumed_samples": 1592832, "global_step/max_steps": "6222/12700"}
{"lm loss": 2.09560633, "grad_norm": 0.39296201, "learning_rate": 5.71e-05, "elapsed_time_per_iteration": 4.82588005, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 41s", "remaining_time": "8h 47m 22s", "loss_scale": 1.0, "consumed_samples": 1593088, "global_step/max_steps": "6223/12700"}
{"lm loss": 2.09812927, "grad_norm": 0.35351914, "learning_rate": 5.709e-05, "elapsed_time_per_iteration": 4.93040419, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 46s", "remaining_time": "8h 47m 17s", "loss_scale": 1.0, "consumed_samples": 1593344, "global_step/max_steps": "6224/12700"}
{"lm loss": 2.0878942, "grad_norm": 0.36256614, "learning_rate": 5.708e-05, "elapsed_time_per_iteration": 4.95683074, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 51s", "remaining_time": "8h 47m 12s", "loss_scale": 1.0, "consumed_samples": 1593600, "global_step/max_steps": "6225/12700"}
{"lm loss": 2.10917902, "grad_norm": 0.35047773, "learning_rate": 5.706e-05, "elapsed_time_per_iteration": 4.93334293, "memory(GiB)": 28.98, "elapsed_time": "8h 26m 56s", "remaining_time": "8h 47m 8s", "loss_scale": 1.0, "consumed_samples": 1593856, "global_step/max_steps": "6226/12700"}
{"lm loss": 2.08008265, "grad_norm": 0.3512392, "learning_rate": 5.705e-05, "elapsed_time_per_iteration": 4.95959759, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 1s", "remaining_time": "8h 47m 3s", "loss_scale": 1.0, "consumed_samples": 1594112, "global_step/max_steps": "6227/12700"}
{"lm loss": 2.0742681, "grad_norm": 0.35974693, "learning_rate": 5.704e-05, "elapsed_time_per_iteration": 4.86776519, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 6s", "remaining_time": "8h 46m 58s", "loss_scale": 1.0, "consumed_samples": 1594368, "global_step/max_steps": "6228/12700"}
{"lm loss": 2.08055592, "grad_norm": 0.3810907, "learning_rate": 5.703e-05, "elapsed_time_per_iteration": 4.83635759, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 11s", "remaining_time": "8h 46m 53s", "loss_scale": 1.0, "consumed_samples": 1594624, "global_step/max_steps": "6229/12700"}
{"lm loss": 2.09595418, "grad_norm": 0.3348937, "learning_rate": 5.701e-05, "elapsed_time_per_iteration": 4.99905109, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 16s", "remaining_time": "8h 46m 48s", "loss_scale": 1.0, "consumed_samples": 1594880, "global_step/max_steps": "6230/12700"}
{"lm loss": 2.08868051, "grad_norm": 0.35495561, "learning_rate": 5.7e-05, "elapsed_time_per_iteration": 4.89832997, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 21s", "remaining_time": "8h 46m 43s", "loss_scale": 1.0, "consumed_samples": 1595136, "global_step/max_steps": "6231/12700"}
{"lm loss": 2.11753964, "grad_norm": 0.35990706, "learning_rate": 5.699e-05, "elapsed_time_per_iteration": 4.80237389, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 25s", "remaining_time": "8h 46m 38s", "loss_scale": 1.0, "consumed_samples": 1595392, "global_step/max_steps": "6232/12700"}
{"lm loss": 2.11315608, "grad_norm": 0.36580545, "learning_rate": 5.698e-05, "elapsed_time_per_iteration": 4.9798429, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 30s", "remaining_time": "8h 46m 34s", "loss_scale": 1.0, "consumed_samples": 1595648, "global_step/max_steps": "6233/12700"}
{"lm loss": 2.08521152, "grad_norm": 0.34790555, "learning_rate": 5.696e-05, "elapsed_time_per_iteration": 4.8560276, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 35s", "remaining_time": "8h 46m 29s", "loss_scale": 1.0, "consumed_samples": 1595904, "global_step/max_steps": "6234/12700"}
{"lm loss": 2.05291224, "grad_norm": 0.37655547, "learning_rate": 5.695e-05, "elapsed_time_per_iteration": 4.95831203, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 40s", "remaining_time": "8h 46m 24s", "loss_scale": 1.0, "consumed_samples": 1596160, "global_step/max_steps": "6235/12700"}
{"lm loss": 2.10386252, "grad_norm": 0.35601792, "learning_rate": 5.694e-05, "elapsed_time_per_iteration": 4.88497686, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 45s", "remaining_time": "8h 46m 19s", "loss_scale": 1.0, "consumed_samples": 1596416, "global_step/max_steps": "6236/12700"}
{"lm loss": 2.07771182, "grad_norm": 0.37120399, "learning_rate": 5.693e-05, "elapsed_time_per_iteration": 4.79598165, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 50s", "remaining_time": "8h 46m 14s", "loss_scale": 1.0, "consumed_samples": 1596672, "global_step/max_steps": "6237/12700"}
{"lm loss": 2.10973787, "grad_norm": 0.38065389, "learning_rate": 5.691e-05, "elapsed_time_per_iteration": 4.80040908, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 55s", "remaining_time": "8h 46m 9s", "loss_scale": 1.0, "consumed_samples": 1596928, "global_step/max_steps": "6238/12700"}
{"lm loss": 2.09072208, "grad_norm": 0.37539735, "learning_rate": 5.69e-05, "elapsed_time_per_iteration": 4.84794092, "memory(GiB)": 28.98, "elapsed_time": "8h 27m 59s", "remaining_time": "8h 46m 4s", "loss_scale": 1.0, "consumed_samples": 1597184, "global_step/max_steps": "6239/12700"}
{"lm loss": 2.05276799, "grad_norm": 0.40449977, "learning_rate": 5.689e-05, "elapsed_time_per_iteration": 4.96095514, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 4s", "remaining_time": "8h 45m 59s", "loss_scale": 1.0, "consumed_samples": 1597440, "global_step/max_steps": "6240/12700"}
{"lm loss": 2.0866487, "grad_norm": 0.39895669, "learning_rate": 5.688e-05, "elapsed_time_per_iteration": 4.85344863, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 9s", "remaining_time": "8h 45m 54s", "loss_scale": 1.0, "consumed_samples": 1597696, "global_step/max_steps": "6241/12700"}
{"lm loss": 2.09982157, "grad_norm": 0.35998455, "learning_rate": 5.686e-05, "elapsed_time_per_iteration": 4.91043472, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 14s", "remaining_time": "8h 45m 49s", "loss_scale": 1.0, "consumed_samples": 1597952, "global_step/max_steps": "6242/12700"}
{"lm loss": 2.08765149, "grad_norm": 0.36806482, "learning_rate": 5.685e-05, "elapsed_time_per_iteration": 5.0471406, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 19s", "remaining_time": "8h 45m 45s", "loss_scale": 1.0, "consumed_samples": 1598208, "global_step/max_steps": "6243/12700"}
{"lm loss": 2.08004403, "grad_norm": 0.42488709, "learning_rate": 5.684e-05, "elapsed_time_per_iteration": 4.93297434, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 24s", "remaining_time": "8h 45m 40s", "loss_scale": 1.0, "consumed_samples": 1598464, "global_step/max_steps": "6244/12700"}
{"lm loss": 2.09791827, "grad_norm": 0.35470483, "learning_rate": 5.682e-05, "elapsed_time_per_iteration": 4.96920204, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 29s", "remaining_time": "8h 45m 35s", "loss_scale": 1.0, "consumed_samples": 1598720, "global_step/max_steps": "6245/12700"}
{"lm loss": 2.07800555, "grad_norm": 0.37311834, "learning_rate": 5.681e-05, "elapsed_time_per_iteration": 4.8909893, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 34s", "remaining_time": "8h 45m 30s", "loss_scale": 1.0, "consumed_samples": 1598976, "global_step/max_steps": "6246/12700"}
{"lm loss": 2.0791676, "grad_norm": 0.3706291, "learning_rate": 5.68e-05, "elapsed_time_per_iteration": 4.85034609, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 39s", "remaining_time": "8h 45m 25s", "loss_scale": 1.0, "consumed_samples": 1599232, "global_step/max_steps": "6247/12700"}
{"lm loss": 2.07410812, "grad_norm": 0.3577069, "learning_rate": 5.679e-05, "elapsed_time_per_iteration": 4.77458215, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 44s", "remaining_time": "8h 45m 20s", "loss_scale": 1.0, "consumed_samples": 1599488, "global_step/max_steps": "6248/12700"}
{"lm loss": 2.08032417, "grad_norm": 0.38129005, "learning_rate": 5.677e-05, "elapsed_time_per_iteration": 4.84692073, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 49s", "remaining_time": "8h 45m 15s", "loss_scale": 1.0, "consumed_samples": 1599744, "global_step/max_steps": "6249/12700"}
{"lm loss": 2.10312843, "grad_norm": 0.34784314, "learning_rate": 5.676e-05, "elapsed_time_per_iteration": 4.90733576, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 53s", "remaining_time": "8h 45m 11s", "loss_scale": 1.0, "consumed_samples": 1600000, "global_step/max_steps": "6250/12700"}
{"lm loss": 2.07798553, "grad_norm": 0.37532219, "learning_rate": 5.675e-05, "elapsed_time_per_iteration": 4.89820719, "memory(GiB)": 28.98, "elapsed_time": "8h 28m 58s", "remaining_time": "8h 45m 6s", "loss_scale": 1.0, "consumed_samples": 1600256, "global_step/max_steps": "6251/12700"}
{"lm loss": 2.06361985, "grad_norm": 0.33845362, "learning_rate": 5.674e-05, "elapsed_time_per_iteration": 4.86846185, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 3s", "remaining_time": "8h 45m 1s", "loss_scale": 1.0, "consumed_samples": 1600512, "global_step/max_steps": "6252/12700"}
{"lm loss": 2.10759974, "grad_norm": 0.40135297, "learning_rate": 5.672e-05, "elapsed_time_per_iteration": 4.80250502, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 8s", "remaining_time": "8h 44m 56s", "loss_scale": 1.0, "consumed_samples": 1600768, "global_step/max_steps": "6253/12700"}
{"lm loss": 2.0866704, "grad_norm": 0.37394187, "learning_rate": 5.671e-05, "elapsed_time_per_iteration": 5.02143168, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 13s", "remaining_time": "8h 44m 51s", "loss_scale": 1.0, "consumed_samples": 1601024, "global_step/max_steps": "6254/12700"}
{"lm loss": 2.07130551, "grad_norm": 0.36221147, "learning_rate": 5.67e-05, "elapsed_time_per_iteration": 4.8361299, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 18s", "remaining_time": "8h 44m 46s", "loss_scale": 1.0, "consumed_samples": 1601280, "global_step/max_steps": "6255/12700"}
{"lm loss": 2.09041071, "grad_norm": 0.38176915, "learning_rate": 5.669e-05, "elapsed_time_per_iteration": 4.90313244, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 23s", "remaining_time": "8h 44m 41s", "loss_scale": 1.0, "consumed_samples": 1601536, "global_step/max_steps": "6256/12700"}
{"lm loss": 2.11083007, "grad_norm": 0.35280609, "learning_rate": 5.667e-05, "elapsed_time_per_iteration": 4.91442633, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 28s", "remaining_time": "8h 44m 36s", "loss_scale": 1.0, "consumed_samples": 1601792, "global_step/max_steps": "6257/12700"}
{"lm loss": 2.11702275, "grad_norm": 0.34247932, "learning_rate": 5.666e-05, "elapsed_time_per_iteration": 4.89816761, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 33s", "remaining_time": "8h 44m 31s", "loss_scale": 1.0, "consumed_samples": 1602048, "global_step/max_steps": "6258/12700"}
{"lm loss": 2.09368253, "grad_norm": 0.35654479, "learning_rate": 5.665e-05, "elapsed_time_per_iteration": 4.84410834, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 37s", "remaining_time": "8h 44m 27s", "loss_scale": 1.0, "consumed_samples": 1602304, "global_step/max_steps": "6259/12700"}
{"lm loss": 2.078861, "grad_norm": 0.3728807, "learning_rate": 5.664e-05, "elapsed_time_per_iteration": 4.81746244, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 42s", "remaining_time": "8h 44m 22s", "loss_scale": 1.0, "consumed_samples": 1602560, "global_step/max_steps": "6260/12700"}
{"lm loss": 2.05076146, "grad_norm": 0.3584981, "learning_rate": 5.662e-05, "elapsed_time_per_iteration": 4.79899597, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 47s", "remaining_time": "8h 44m 17s", "loss_scale": 1.0, "consumed_samples": 1602816, "global_step/max_steps": "6261/12700"}
{"lm loss": 2.12835741, "grad_norm": 0.35896781, "learning_rate": 5.661e-05, "elapsed_time_per_iteration": 4.88847852, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 52s", "remaining_time": "8h 44m 12s", "loss_scale": 1.0, "consumed_samples": 1603072, "global_step/max_steps": "6262/12700"}
{"lm loss": 2.08326435, "grad_norm": 0.38371283, "learning_rate": 5.66e-05, "elapsed_time_per_iteration": 4.88673043, "memory(GiB)": 28.98, "elapsed_time": "8h 29m 57s", "remaining_time": "8h 44m 7s", "loss_scale": 1.0, "consumed_samples": 1603328, "global_step/max_steps": "6263/12700"}
{"lm loss": 2.07903075, "grad_norm": 0.37761959, "learning_rate": 5.659e-05, "elapsed_time_per_iteration": 4.87785435, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 2s", "remaining_time": "8h 44m 2s", "loss_scale": 1.0, "consumed_samples": 1603584, "global_step/max_steps": "6264/12700"}
{"lm loss": 2.0935595, "grad_norm": 0.37323266, "learning_rate": 5.657e-05, "elapsed_time_per_iteration": 4.88846993, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 7s", "remaining_time": "8h 43m 57s", "loss_scale": 1.0, "consumed_samples": 1603840, "global_step/max_steps": "6265/12700"}
{"lm loss": 2.12632537, "grad_norm": 0.38707951, "learning_rate": 5.656e-05, "elapsed_time_per_iteration": 4.97596979, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 12s", "remaining_time": "8h 43m 52s", "loss_scale": 1.0, "consumed_samples": 1604096, "global_step/max_steps": "6266/12700"}
{"lm loss": 2.09451294, "grad_norm": 0.3490597, "learning_rate": 5.655e-05, "elapsed_time_per_iteration": 4.77006054, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 16s", "remaining_time": "8h 43m 47s", "loss_scale": 1.0, "consumed_samples": 1604352, "global_step/max_steps": "6267/12700"}
{"lm loss": 2.1121161, "grad_norm": 0.38342613, "learning_rate": 5.654e-05, "elapsed_time_per_iteration": 4.87312126, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 21s", "remaining_time": "8h 43m 42s", "loss_scale": 1.0, "consumed_samples": 1604608, "global_step/max_steps": "6268/12700"}
{"lm loss": 2.04909468, "grad_norm": 0.35556734, "learning_rate": 5.652e-05, "elapsed_time_per_iteration": 4.84537125, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 26s", "remaining_time": "8h 43m 37s", "loss_scale": 1.0, "consumed_samples": 1604864, "global_step/max_steps": "6269/12700"}
{"lm loss": 2.10337257, "grad_norm": 0.37053221, "learning_rate": 5.651e-05, "elapsed_time_per_iteration": 4.89458156, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 31s", "remaining_time": "8h 43m 33s", "loss_scale": 1.0, "consumed_samples": 1605120, "global_step/max_steps": "6270/12700"}
{"lm loss": 2.09073234, "grad_norm": 0.36695036, "learning_rate": 5.65e-05, "elapsed_time_per_iteration": 4.86973786, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 36s", "remaining_time": "8h 43m 28s", "loss_scale": 1.0, "consumed_samples": 1605376, "global_step/max_steps": "6271/12700"}
{"lm loss": 2.11819339, "grad_norm": 0.3565957, "learning_rate": 5.649e-05, "elapsed_time_per_iteration": 4.79639864, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 41s", "remaining_time": "8h 43m 23s", "loss_scale": 1.0, "consumed_samples": 1605632, "global_step/max_steps": "6272/12700"}
{"lm loss": 2.0977118, "grad_norm": 0.39618695, "learning_rate": 5.647e-05, "elapsed_time_per_iteration": 4.88214445, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 45s", "remaining_time": "8h 43m 18s", "loss_scale": 1.0, "consumed_samples": 1605888, "global_step/max_steps": "6273/12700"}
{"lm loss": 2.08131361, "grad_norm": 0.33089277, "learning_rate": 5.646e-05, "elapsed_time_per_iteration": 4.81556463, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 50s", "remaining_time": "8h 43m 13s", "loss_scale": 1.0, "consumed_samples": 1606144, "global_step/max_steps": "6274/12700"}
{"lm loss": 2.07174826, "grad_norm": 0.37396884, "learning_rate": 5.645e-05, "elapsed_time_per_iteration": 5.0196054, "memory(GiB)": 28.98, "elapsed_time": "8h 30m 55s", "remaining_time": "8h 43m 8s", "loss_scale": 1.0, "consumed_samples": 1606400, "global_step/max_steps": "6275/12700"}
{"lm loss": 2.07610488, "grad_norm": 0.36567369, "learning_rate": 5.644e-05, "elapsed_time_per_iteration": 4.77874446, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 0s", "remaining_time": "8h 43m 3s", "loss_scale": 1.0, "consumed_samples": 1606656, "global_step/max_steps": "6276/12700"}
{"lm loss": 2.10182214, "grad_norm": 0.36367527, "learning_rate": 5.642e-05, "elapsed_time_per_iteration": 4.94344354, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 5s", "remaining_time": "8h 42m 58s", "loss_scale": 1.0, "consumed_samples": 1606912, "global_step/max_steps": "6277/12700"}
{"lm loss": 2.09992337, "grad_norm": 0.39053747, "learning_rate": 5.641e-05, "elapsed_time_per_iteration": 4.7433145, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 10s", "remaining_time": "8h 42m 53s", "loss_scale": 1.0, "consumed_samples": 1607168, "global_step/max_steps": "6278/12700"}
{"lm loss": 2.09845114, "grad_norm": 0.38522971, "learning_rate": 5.64e-05, "elapsed_time_per_iteration": 4.88328838, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 15s", "remaining_time": "8h 42m 48s", "loss_scale": 1.0, "consumed_samples": 1607424, "global_step/max_steps": "6279/12700"}
{"lm loss": 2.09722018, "grad_norm": 0.37595227, "learning_rate": 5.639e-05, "elapsed_time_per_iteration": 4.86296439, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 20s", "remaining_time": "8h 42m 43s", "loss_scale": 1.0, "consumed_samples": 1607680, "global_step/max_steps": "6280/12700"}
{"lm loss": 2.06521344, "grad_norm": 0.38102078, "learning_rate": 5.637e-05, "elapsed_time_per_iteration": 6.19103789, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 26s", "remaining_time": "8h 42m 40s", "loss_scale": 1.0, "consumed_samples": 1607936, "global_step/max_steps": "6281/12700"}
{"lm loss": 2.11406922, "grad_norm": 0.36354011, "learning_rate": 5.636e-05, "elapsed_time_per_iteration": 4.83404493, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 31s", "remaining_time": "8h 42m 35s", "loss_scale": 1.0, "consumed_samples": 1608192, "global_step/max_steps": "6282/12700"}
{"lm loss": 2.07550359, "grad_norm": 0.39057109, "learning_rate": 5.635e-05, "elapsed_time_per_iteration": 4.86298275, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 35s", "remaining_time": "8h 42m 30s", "loss_scale": 1.0, "consumed_samples": 1608448, "global_step/max_steps": "6283/12700"}
{"lm loss": 2.08605242, "grad_norm": 0.34776205, "learning_rate": 5.634e-05, "elapsed_time_per_iteration": 4.81805587, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 40s", "remaining_time": "8h 42m 25s", "loss_scale": 1.0, "consumed_samples": 1608704, "global_step/max_steps": "6284/12700"}
{"lm loss": 2.10820317, "grad_norm": 0.47909319, "learning_rate": 5.632e-05, "elapsed_time_per_iteration": 4.89328122, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 45s", "remaining_time": "8h 42m 20s", "loss_scale": 1.0, "consumed_samples": 1608960, "global_step/max_steps": "6285/12700"}
{"lm loss": 2.11083603, "grad_norm": 0.39527228, "learning_rate": 5.631e-05, "elapsed_time_per_iteration": 4.94728208, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 50s", "remaining_time": "8h 42m 15s", "loss_scale": 1.0, "consumed_samples": 1609216, "global_step/max_steps": "6286/12700"}
{"lm loss": 2.07644415, "grad_norm": 0.43113226, "learning_rate": 5.63e-05, "elapsed_time_per_iteration": 4.86130929, "memory(GiB)": 28.98, "elapsed_time": "8h 31m 55s", "remaining_time": "8h 42m 11s", "loss_scale": 1.0, "consumed_samples": 1609472, "global_step/max_steps": "6287/12700"}
{"lm loss": 2.07797337, "grad_norm": 0.41196144, "learning_rate": 5.628e-05, "elapsed_time_per_iteration": 4.89433932, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 0s", "remaining_time": "8h 42m 6s", "loss_scale": 1.0, "consumed_samples": 1609728, "global_step/max_steps": "6288/12700"}
{"lm loss": 2.04769039, "grad_norm": 0.37164843, "learning_rate": 5.627e-05, "elapsed_time_per_iteration": 4.89486265, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 5s", "remaining_time": "8h 42m 1s", "loss_scale": 1.0, "consumed_samples": 1609984, "global_step/max_steps": "6289/12700"}
{"lm loss": 2.07666397, "grad_norm": 0.39828289, "learning_rate": 5.626e-05, "elapsed_time_per_iteration": 4.9604435, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 10s", "remaining_time": "8h 41m 56s", "loss_scale": 1.0, "consumed_samples": 1610240, "global_step/max_steps": "6290/12700"}
{"lm loss": 2.10842419, "grad_norm": 0.4054606, "learning_rate": 5.625e-05, "elapsed_time_per_iteration": 4.88060784, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 15s", "remaining_time": "8h 41m 51s", "loss_scale": 1.0, "consumed_samples": 1610496, "global_step/max_steps": "6291/12700"}
{"lm loss": 2.11527872, "grad_norm": 0.42738625, "learning_rate": 5.623e-05, "elapsed_time_per_iteration": 4.830621, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 19s", "remaining_time": "8h 41m 46s", "loss_scale": 1.0, "consumed_samples": 1610752, "global_step/max_steps": "6292/12700"}
{"lm loss": 2.08906412, "grad_norm": 0.36394402, "learning_rate": 5.622e-05, "elapsed_time_per_iteration": 4.95469761, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 24s", "remaining_time": "8h 41m 41s", "loss_scale": 1.0, "consumed_samples": 1611008, "global_step/max_steps": "6293/12700"}
{"lm loss": 2.09073639, "grad_norm": 0.39415449, "learning_rate": 5.621e-05, "elapsed_time_per_iteration": 4.85358715, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 29s", "remaining_time": "8h 41m 36s", "loss_scale": 1.0, "consumed_samples": 1611264, "global_step/max_steps": "6294/12700"}
{"lm loss": 2.1010344, "grad_norm": 0.35935402, "learning_rate": 5.62e-05, "elapsed_time_per_iteration": 4.8659873, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 34s", "remaining_time": "8h 41m 31s", "loss_scale": 1.0, "consumed_samples": 1611520, "global_step/max_steps": "6295/12700"}
{"lm loss": 2.11461067, "grad_norm": 0.39653137, "learning_rate": 5.618e-05, "elapsed_time_per_iteration": 4.85832024, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 39s", "remaining_time": "8h 41m 27s", "loss_scale": 1.0, "consumed_samples": 1611776, "global_step/max_steps": "6296/12700"}
{"lm loss": 2.10045409, "grad_norm": 0.37216356, "learning_rate": 5.617e-05, "elapsed_time_per_iteration": 4.94620872, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 44s", "remaining_time": "8h 41m 22s", "loss_scale": 1.0, "consumed_samples": 1612032, "global_step/max_steps": "6297/12700"}
{"lm loss": 2.09556913, "grad_norm": 0.37329903, "learning_rate": 5.616e-05, "elapsed_time_per_iteration": 4.96871018, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 49s", "remaining_time": "8h 41m 17s", "loss_scale": 1.0, "consumed_samples": 1612288, "global_step/max_steps": "6298/12700"}
{"lm loss": 2.07744098, "grad_norm": 0.37792429, "learning_rate": 5.615e-05, "elapsed_time_per_iteration": 4.92920899, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 54s", "remaining_time": "8h 41m 12s", "loss_scale": 1.0, "consumed_samples": 1612544, "global_step/max_steps": "6299/12700"}
{"lm loss": 2.0609417, "grad_norm": 0.37285376, "learning_rate": 5.613e-05, "elapsed_time_per_iteration": 4.84600592, "memory(GiB)": 28.98, "elapsed_time": "8h 32m 59s", "remaining_time": "8h 41m 7s", "loss_scale": 1.0, "consumed_samples": 1612800, "global_step/max_steps": "6300/12700"}
{"lm loss": 2.12063146, "grad_norm": 0.40880814, "learning_rate": 5.612e-05, "elapsed_time_per_iteration": 4.85506248, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 3s", "remaining_time": "8h 41m 2s", "loss_scale": 1.0, "consumed_samples": 1613056, "global_step/max_steps": "6301/12700"}
{"lm loss": 2.08338523, "grad_norm": 0.34669948, "learning_rate": 5.611e-05, "elapsed_time_per_iteration": 4.94620562, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 8s", "remaining_time": "8h 40m 57s", "loss_scale": 1.0, "consumed_samples": 1613312, "global_step/max_steps": "6302/12700"}
{"lm loss": 2.12122202, "grad_norm": 0.44189835, "learning_rate": 5.61e-05, "elapsed_time_per_iteration": 4.76321602, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 13s", "remaining_time": "8h 40m 52s", "loss_scale": 1.0, "consumed_samples": 1613568, "global_step/max_steps": "6303/12700"}
{"lm loss": 2.06901407, "grad_norm": 0.35062265, "learning_rate": 5.608e-05, "elapsed_time_per_iteration": 4.82577109, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 18s", "remaining_time": "8h 40m 47s", "loss_scale": 1.0, "consumed_samples": 1613824, "global_step/max_steps": "6304/12700"}
{"lm loss": 2.10693955, "grad_norm": 0.42083943, "learning_rate": 5.607e-05, "elapsed_time_per_iteration": 4.92508006, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 23s", "remaining_time": "8h 40m 43s", "loss_scale": 1.0, "consumed_samples": 1614080, "global_step/max_steps": "6305/12700"}
{"lm loss": 2.12517595, "grad_norm": 0.36735395, "learning_rate": 5.606e-05, "elapsed_time_per_iteration": 4.97957182, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 28s", "remaining_time": "8h 40m 38s", "loss_scale": 1.0, "consumed_samples": 1614336, "global_step/max_steps": "6306/12700"}
{"lm loss": 2.06508899, "grad_norm": 0.3920792, "learning_rate": 5.605e-05, "elapsed_time_per_iteration": 4.84722304, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 33s", "remaining_time": "8h 40m 33s", "loss_scale": 1.0, "consumed_samples": 1614592, "global_step/max_steps": "6307/12700"}
{"lm loss": 2.10524273, "grad_norm": 0.35856611, "learning_rate": 5.603e-05, "elapsed_time_per_iteration": 4.82262778, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 38s", "remaining_time": "8h 40m 28s", "loss_scale": 1.0, "consumed_samples": 1614848, "global_step/max_steps": "6308/12700"}
{"lm loss": 2.09928131, "grad_norm": 0.37306651, "learning_rate": 5.602e-05, "elapsed_time_per_iteration": 4.79602337, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 42s", "remaining_time": "8h 40m 23s", "loss_scale": 1.0, "consumed_samples": 1615104, "global_step/max_steps": "6309/12700"}
{"lm loss": 2.10804701, "grad_norm": 0.39709932, "learning_rate": 5.601e-05, "elapsed_time_per_iteration": 4.87675714, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 47s", "remaining_time": "8h 40m 18s", "loss_scale": 1.0, "consumed_samples": 1615360, "global_step/max_steps": "6310/12700"}
{"lm loss": 2.06196523, "grad_norm": 0.34919816, "learning_rate": 5.6e-05, "elapsed_time_per_iteration": 4.88514948, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 52s", "remaining_time": "8h 40m 13s", "loss_scale": 1.0, "consumed_samples": 1615616, "global_step/max_steps": "6311/12700"}
{"lm loss": 2.07940984, "grad_norm": 0.37714484, "learning_rate": 5.598e-05, "elapsed_time_per_iteration": 4.88780475, "memory(GiB)": 28.98, "elapsed_time": "8h 33m 57s", "remaining_time": "8h 40m 8s", "loss_scale": 1.0, "consumed_samples": 1615872, "global_step/max_steps": "6312/12700"}
{"lm loss": 2.08366203, "grad_norm": 0.36099866, "learning_rate": 5.597e-05, "elapsed_time_per_iteration": 4.77248955, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 2s", "remaining_time": "8h 40m 3s", "loss_scale": 1.0, "consumed_samples": 1616128, "global_step/max_steps": "6313/12700"}
{"lm loss": 2.09690189, "grad_norm": 0.38804963, "learning_rate": 5.596e-05, "elapsed_time_per_iteration": 4.91084266, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 7s", "remaining_time": "8h 39m 58s", "loss_scale": 1.0, "consumed_samples": 1616384, "global_step/max_steps": "6314/12700"}
{"lm loss": 2.08356953, "grad_norm": 0.37600586, "learning_rate": 5.595e-05, "elapsed_time_per_iteration": 4.78382683, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 11s", "remaining_time": "8h 39m 53s", "loss_scale": 1.0, "consumed_samples": 1616640, "global_step/max_steps": "6315/12700"}
{"lm loss": 2.10152316, "grad_norm": 0.36189389, "learning_rate": 5.593e-05, "elapsed_time_per_iteration": 4.91663122, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 16s", "remaining_time": "8h 39m 49s", "loss_scale": 1.0, "consumed_samples": 1616896, "global_step/max_steps": "6316/12700"}
{"lm loss": 2.10039043, "grad_norm": 0.37505451, "learning_rate": 5.592e-05, "elapsed_time_per_iteration": 4.95369387, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 21s", "remaining_time": "8h 39m 44s", "loss_scale": 1.0, "consumed_samples": 1617152, "global_step/max_steps": "6317/12700"}
{"lm loss": 2.0917511, "grad_norm": 0.35344908, "learning_rate": 5.591e-05, "elapsed_time_per_iteration": 4.89415407, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 26s", "remaining_time": "8h 39m 39s", "loss_scale": 1.0, "consumed_samples": 1617408, "global_step/max_steps": "6318/12700"}
{"lm loss": 2.05912852, "grad_norm": 0.38240892, "learning_rate": 5.59e-05, "elapsed_time_per_iteration": 4.90627193, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 31s", "remaining_time": "8h 39m 34s", "loss_scale": 1.0, "consumed_samples": 1617664, "global_step/max_steps": "6319/12700"}
{"lm loss": 2.11083555, "grad_norm": 0.36927301, "learning_rate": 5.588e-05, "elapsed_time_per_iteration": 4.91726637, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 36s", "remaining_time": "8h 39m 29s", "loss_scale": 1.0, "consumed_samples": 1617920, "global_step/max_steps": "6320/12700"}
{"lm loss": 2.11714745, "grad_norm": 0.39400396, "learning_rate": 5.587e-05, "elapsed_time_per_iteration": 4.82948518, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 41s", "remaining_time": "8h 39m 24s", "loss_scale": 1.0, "consumed_samples": 1618176, "global_step/max_steps": "6321/12700"}
{"lm loss": 2.11880279, "grad_norm": 0.38191545, "learning_rate": 5.586e-05, "elapsed_time_per_iteration": 4.88724256, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 46s", "remaining_time": "8h 39m 19s", "loss_scale": 1.0, "consumed_samples": 1618432, "global_step/max_steps": "6322/12700"}
{"lm loss": 2.09724689, "grad_norm": 0.38394549, "learning_rate": 5.584e-05, "elapsed_time_per_iteration": 4.94395232, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 51s", "remaining_time": "8h 39m 15s", "loss_scale": 1.0, "consumed_samples": 1618688, "global_step/max_steps": "6323/12700"}
{"lm loss": 2.04337597, "grad_norm": 0.36159214, "learning_rate": 5.583e-05, "elapsed_time_per_iteration": 4.85529518, "memory(GiB)": 28.98, "elapsed_time": "8h 34m 56s", "remaining_time": "8h 39m 10s", "loss_scale": 1.0, "consumed_samples": 1618944, "global_step/max_steps": "6324/12700"}
{"lm loss": 2.11289573, "grad_norm": 0.37214208, "learning_rate": 5.582e-05, "elapsed_time_per_iteration": 4.95266581, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 1s", "remaining_time": "8h 39m 5s", "loss_scale": 1.0, "consumed_samples": 1619200, "global_step/max_steps": "6325/12700"}
{"lm loss": 2.11523199, "grad_norm": 0.36846638, "learning_rate": 5.581e-05, "elapsed_time_per_iteration": 4.7905457, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 5s", "remaining_time": "8h 39m 0s", "loss_scale": 1.0, "consumed_samples": 1619456, "global_step/max_steps": "6326/12700"}
{"lm loss": 2.06879902, "grad_norm": 0.35551837, "learning_rate": 5.579e-05, "elapsed_time_per_iteration": 4.83473635, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 10s", "remaining_time": "8h 38m 55s", "loss_scale": 1.0, "consumed_samples": 1619712, "global_step/max_steps": "6327/12700"}
{"lm loss": 2.0578301, "grad_norm": 0.35378441, "learning_rate": 5.578e-05, "elapsed_time_per_iteration": 4.90986562, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 15s", "remaining_time": "8h 38m 50s", "loss_scale": 1.0, "consumed_samples": 1619968, "global_step/max_steps": "6328/12700"}
{"lm loss": 2.06297159, "grad_norm": 0.36087653, "learning_rate": 5.577e-05, "elapsed_time_per_iteration": 5.01869655, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 20s", "remaining_time": "8h 38m 45s", "loss_scale": 1.0, "consumed_samples": 1620224, "global_step/max_steps": "6329/12700"}
{"lm loss": 2.06875563, "grad_norm": 0.34465477, "learning_rate": 5.576e-05, "elapsed_time_per_iteration": 4.87665105, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 25s", "remaining_time": "8h 38m 40s", "loss_scale": 1.0, "consumed_samples": 1620480, "global_step/max_steps": "6330/12700"}
{"lm loss": 2.08929443, "grad_norm": 0.34222597, "learning_rate": 5.574e-05, "elapsed_time_per_iteration": 4.81533766, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 30s", "remaining_time": "8h 38m 35s", "loss_scale": 1.0, "consumed_samples": 1620736, "global_step/max_steps": "6331/12700"}
{"lm loss": 2.07495952, "grad_norm": 0.35998183, "learning_rate": 5.573e-05, "elapsed_time_per_iteration": 4.82783818, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 35s", "remaining_time": "8h 38m 30s", "loss_scale": 1.0, "consumed_samples": 1620992, "global_step/max_steps": "6332/12700"}
{"lm loss": 2.11169481, "grad_norm": 0.34038657, "learning_rate": 5.572e-05, "elapsed_time_per_iteration": 4.87601495, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 39s", "remaining_time": "8h 38m 26s", "loss_scale": 1.0, "consumed_samples": 1621248, "global_step/max_steps": "6333/12700"}
{"lm loss": 2.11472964, "grad_norm": 0.34657276, "learning_rate": 5.571e-05, "elapsed_time_per_iteration": 4.80907869, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 44s", "remaining_time": "8h 38m 21s", "loss_scale": 1.0, "consumed_samples": 1621504, "global_step/max_steps": "6334/12700"}
{"lm loss": 2.11352086, "grad_norm": 0.36271423, "learning_rate": 5.569e-05, "elapsed_time_per_iteration": 4.81755662, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 49s", "remaining_time": "8h 38m 16s", "loss_scale": 1.0, "consumed_samples": 1621760, "global_step/max_steps": "6335/12700"}
{"lm loss": 2.10662103, "grad_norm": 0.36705157, "learning_rate": 5.568e-05, "elapsed_time_per_iteration": 4.80714202, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 54s", "remaining_time": "8h 38m 11s", "loss_scale": 1.0, "consumed_samples": 1622016, "global_step/max_steps": "6336/12700"}
{"lm loss": 2.07396722, "grad_norm": 0.36674681, "learning_rate": 5.567e-05, "elapsed_time_per_iteration": 4.91682768, "memory(GiB)": 28.98, "elapsed_time": "8h 35m 59s", "remaining_time": "8h 38m 6s", "loss_scale": 1.0, "consumed_samples": 1622272, "global_step/max_steps": "6337/12700"}
{"lm loss": 2.11182284, "grad_norm": 0.37188023, "learning_rate": 5.566e-05, "elapsed_time_per_iteration": 4.79099679, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 4s", "remaining_time": "8h 38m 1s", "loss_scale": 1.0, "consumed_samples": 1622528, "global_step/max_steps": "6338/12700"}
{"lm loss": 2.08708835, "grad_norm": 0.3616758, "learning_rate": 5.564e-05, "elapsed_time_per_iteration": 4.93650913, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 9s", "remaining_time": "8h 37m 56s", "loss_scale": 1.0, "consumed_samples": 1622784, "global_step/max_steps": "6339/12700"}
{"lm loss": 2.08613539, "grad_norm": 0.36402071, "learning_rate": 5.563e-05, "elapsed_time_per_iteration": 4.97703671, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 14s", "remaining_time": "8h 37m 51s", "loss_scale": 1.0, "consumed_samples": 1623040, "global_step/max_steps": "6340/12700"}
{"lm loss": 2.1049614, "grad_norm": 0.39351064, "learning_rate": 5.562e-05, "elapsed_time_per_iteration": 4.96976352, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 19s", "remaining_time": "8h 37m 46s", "loss_scale": 1.0, "consumed_samples": 1623296, "global_step/max_steps": "6341/12700"}
{"lm loss": 2.09355569, "grad_norm": 0.3516449, "learning_rate": 5.561e-05, "elapsed_time_per_iteration": 4.80639243, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 23s", "remaining_time": "8h 37m 41s", "loss_scale": 1.0, "consumed_samples": 1623552, "global_step/max_steps": "6342/12700"}
{"lm loss": 2.0975225, "grad_norm": 0.3591876, "learning_rate": 5.559e-05, "elapsed_time_per_iteration": 4.94047165, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 28s", "remaining_time": "8h 37m 37s", "loss_scale": 1.0, "consumed_samples": 1623808, "global_step/max_steps": "6343/12700"}
{"lm loss": 2.12107992, "grad_norm": 0.3431803, "learning_rate": 5.558e-05, "elapsed_time_per_iteration": 4.92239738, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 33s", "remaining_time": "8h 37m 32s", "loss_scale": 1.0, "consumed_samples": 1624064, "global_step/max_steps": "6344/12700"}
{"lm loss": 2.11474586, "grad_norm": 0.36178732, "learning_rate": 5.557e-05, "elapsed_time_per_iteration": 4.97519827, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 38s", "remaining_time": "8h 37m 27s", "loss_scale": 1.0, "consumed_samples": 1624320, "global_step/max_steps": "6345/12700"}
{"lm loss": 2.08299422, "grad_norm": 0.33799028, "learning_rate": 5.556e-05, "elapsed_time_per_iteration": 4.92479968, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 43s", "remaining_time": "8h 37m 22s", "loss_scale": 1.0, "consumed_samples": 1624576, "global_step/max_steps": "6346/12700"}
{"lm loss": 2.0883069, "grad_norm": 0.37269202, "learning_rate": 5.554e-05, "elapsed_time_per_iteration": 4.96085525, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 48s", "remaining_time": "8h 37m 17s", "loss_scale": 1.0, "consumed_samples": 1624832, "global_step/max_steps": "6347/12700"}
{"lm loss": 2.07424593, "grad_norm": 0.36128739, "learning_rate": 5.553e-05, "elapsed_time_per_iteration": 4.89532471, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 53s", "remaining_time": "8h 37m 12s", "loss_scale": 1.0, "consumed_samples": 1625088, "global_step/max_steps": "6348/12700"}
{"lm loss": 2.09918571, "grad_norm": 0.38017336, "learning_rate": 5.552e-05, "elapsed_time_per_iteration": 4.96413016, "memory(GiB)": 28.98, "elapsed_time": "8h 36m 58s", "remaining_time": "8h 37m 8s", "loss_scale": 1.0, "consumed_samples": 1625344, "global_step/max_steps": "6349/12700"}
{"lm loss": 2.06053138, "grad_norm": 0.33474863, "learning_rate": 5.551e-05, "elapsed_time_per_iteration": 4.88388801, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 3s", "remaining_time": "8h 37m 3s", "loss_scale": 1.0, "consumed_samples": 1625600, "global_step/max_steps": "6350/12700"}
{"lm loss": 2.08763289, "grad_norm": 0.36843744, "learning_rate": 5.549e-05, "elapsed_time_per_iteration": 4.89168668, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 8s", "remaining_time": "8h 36m 58s", "loss_scale": 1.0, "consumed_samples": 1625856, "global_step/max_steps": "6351/12700"}
{"lm loss": 2.13036799, "grad_norm": 0.38362852, "learning_rate": 5.548e-05, "elapsed_time_per_iteration": 4.80138588, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 12s", "remaining_time": "8h 36m 53s", "loss_scale": 1.0, "consumed_samples": 1626112, "global_step/max_steps": "6352/12700"}
{"lm loss": 2.08465147, "grad_norm": 0.37540027, "learning_rate": 5.547e-05, "elapsed_time_per_iteration": 4.83842397, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 17s", "remaining_time": "8h 36m 48s", "loss_scale": 1.0, "consumed_samples": 1626368, "global_step/max_steps": "6353/12700"}
{"lm loss": 2.10590434, "grad_norm": 0.35575444, "learning_rate": 5.545e-05, "elapsed_time_per_iteration": 4.925699, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 22s", "remaining_time": "8h 36m 43s", "loss_scale": 1.0, "consumed_samples": 1626624, "global_step/max_steps": "6354/12700"}
{"lm loss": 2.08211923, "grad_norm": 0.38041478, "learning_rate": 5.544e-05, "elapsed_time_per_iteration": 4.95637298, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 27s", "remaining_time": "8h 36m 38s", "loss_scale": 1.0, "consumed_samples": 1626880, "global_step/max_steps": "6355/12700"}
{"lm loss": 2.07968616, "grad_norm": 0.36981115, "learning_rate": 5.543e-05, "elapsed_time_per_iteration": 4.87545657, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 32s", "remaining_time": "8h 36m 33s", "loss_scale": 1.0, "consumed_samples": 1627136, "global_step/max_steps": "6356/12700"}
{"lm loss": 2.0622263, "grad_norm": 0.39229175, "learning_rate": 5.542e-05, "elapsed_time_per_iteration": 4.81586552, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 37s", "remaining_time": "8h 36m 28s", "loss_scale": 1.0, "consumed_samples": 1627392, "global_step/max_steps": "6357/12700"}
{"lm loss": 2.11122727, "grad_norm": 0.33225101, "learning_rate": 5.54e-05, "elapsed_time_per_iteration": 4.80176353, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 42s", "remaining_time": "8h 36m 24s", "loss_scale": 1.0, "consumed_samples": 1627648, "global_step/max_steps": "6358/12700"}
{"lm loss": 2.10478878, "grad_norm": 0.35074404, "learning_rate": 5.539e-05, "elapsed_time_per_iteration": 4.92736959, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 47s", "remaining_time": "8h 36m 19s", "loss_scale": 1.0, "consumed_samples": 1627904, "global_step/max_steps": "6359/12700"}
{"lm loss": 2.07079124, "grad_norm": 0.35255155, "learning_rate": 5.538e-05, "elapsed_time_per_iteration": 4.84488368, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 51s", "remaining_time": "8h 36m 14s", "loss_scale": 1.0, "consumed_samples": 1628160, "global_step/max_steps": "6360/12700"}
{"lm loss": 2.07420063, "grad_norm": 0.34718144, "learning_rate": 5.537e-05, "elapsed_time_per_iteration": 4.80222726, "memory(GiB)": 28.98, "elapsed_time": "8h 37m 56s", "remaining_time": "8h 36m 9s", "loss_scale": 1.0, "consumed_samples": 1628416, "global_step/max_steps": "6361/12700"}
{"lm loss": 2.0885365, "grad_norm": 0.3520256, "learning_rate": 5.535e-05, "elapsed_time_per_iteration": 4.9075191, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 1s", "remaining_time": "8h 36m 4s", "loss_scale": 1.0, "consumed_samples": 1628672, "global_step/max_steps": "6362/12700"}
{"lm loss": 2.10675716, "grad_norm": 0.35522813, "learning_rate": 5.534e-05, "elapsed_time_per_iteration": 4.84607077, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 6s", "remaining_time": "8h 35m 59s", "loss_scale": 1.0, "consumed_samples": 1628928, "global_step/max_steps": "6363/12700"}
{"lm loss": 2.07849526, "grad_norm": 0.37092426, "learning_rate": 5.533e-05, "elapsed_time_per_iteration": 4.85883188, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 11s", "remaining_time": "8h 35m 54s", "loss_scale": 1.0, "consumed_samples": 1629184, "global_step/max_steps": "6364/12700"}
{"lm loss": 2.06874323, "grad_norm": 0.35000405, "learning_rate": 5.532e-05, "elapsed_time_per_iteration": 4.90353441, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 16s", "remaining_time": "8h 35m 49s", "loss_scale": 1.0, "consumed_samples": 1629440, "global_step/max_steps": "6365/12700"}
{"lm loss": 2.07148862, "grad_norm": 0.34696352, "learning_rate": 5.53e-05, "elapsed_time_per_iteration": 4.88905191, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 21s", "remaining_time": "8h 35m 44s", "loss_scale": 1.0, "consumed_samples": 1629696, "global_step/max_steps": "6366/12700"}
{"lm loss": 2.08099461, "grad_norm": 0.34691432, "learning_rate": 5.529e-05, "elapsed_time_per_iteration": 4.86270189, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 26s", "remaining_time": "8h 35m 39s", "loss_scale": 1.0, "consumed_samples": 1629952, "global_step/max_steps": "6367/12700"}
{"lm loss": 2.10113907, "grad_norm": 0.3706691, "learning_rate": 5.528e-05, "elapsed_time_per_iteration": 4.82344699, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 30s", "remaining_time": "8h 35m 34s", "loss_scale": 1.0, "consumed_samples": 1630208, "global_step/max_steps": "6368/12700"}
{"lm loss": 2.09647655, "grad_norm": 0.35150826, "learning_rate": 5.527e-05, "elapsed_time_per_iteration": 4.89249682, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 35s", "remaining_time": "8h 35m 30s", "loss_scale": 1.0, "consumed_samples": 1630464, "global_step/max_steps": "6369/12700"}
{"lm loss": 2.11335349, "grad_norm": 0.37606084, "learning_rate": 5.525e-05, "elapsed_time_per_iteration": 4.80109, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 40s", "remaining_time": "8h 35m 25s", "loss_scale": 1.0, "consumed_samples": 1630720, "global_step/max_steps": "6370/12700"}
{"lm loss": 2.10009408, "grad_norm": 0.34666163, "learning_rate": 5.524e-05, "elapsed_time_per_iteration": 4.95222855, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 45s", "remaining_time": "8h 35m 20s", "loss_scale": 1.0, "consumed_samples": 1630976, "global_step/max_steps": "6371/12700"}
{"lm loss": 2.08892632, "grad_norm": 0.34751916, "learning_rate": 5.523e-05, "elapsed_time_per_iteration": 4.84483576, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 50s", "remaining_time": "8h 35m 15s", "loss_scale": 1.0, "consumed_samples": 1631232, "global_step/max_steps": "6372/12700"}
{"lm loss": 2.12516737, "grad_norm": 0.35976359, "learning_rate": 5.522e-05, "elapsed_time_per_iteration": 4.84447765, "memory(GiB)": 28.98, "elapsed_time": "8h 38m 55s", "remaining_time": "8h 35m 10s", "loss_scale": 1.0, "consumed_samples": 1631488, "global_step/max_steps": "6373/12700"}
{"lm loss": 2.08860397, "grad_norm": 0.35891905, "learning_rate": 5.52e-05, "elapsed_time_per_iteration": 4.93029976, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 0s", "remaining_time": "8h 35m 5s", "loss_scale": 1.0, "consumed_samples": 1631744, "global_step/max_steps": "6374/12700"}
{"lm loss": 2.08629203, "grad_norm": 0.35988799, "learning_rate": 5.519e-05, "elapsed_time_per_iteration": 4.76268363, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 4s", "remaining_time": "8h 35m 0s", "loss_scale": 1.0, "consumed_samples": 1632000, "global_step/max_steps": "6375/12700"}
{"lm loss": 2.11510205, "grad_norm": 0.36739758, "learning_rate": 5.518e-05, "elapsed_time_per_iteration": 4.99457479, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 9s", "remaining_time": "8h 34m 55s", "loss_scale": 1.0, "consumed_samples": 1632256, "global_step/max_steps": "6376/12700"}
{"lm loss": 2.12040854, "grad_norm": 0.34580269, "learning_rate": 5.517e-05, "elapsed_time_per_iteration": 4.90798354, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 14s", "remaining_time": "8h 34m 50s", "loss_scale": 1.0, "consumed_samples": 1632512, "global_step/max_steps": "6377/12700"}
{"lm loss": 2.08743668, "grad_norm": 0.38045225, "learning_rate": 5.515e-05, "elapsed_time_per_iteration": 4.97464848, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 19s", "remaining_time": "8h 34m 46s", "loss_scale": 1.0, "consumed_samples": 1632768, "global_step/max_steps": "6378/12700"}
{"lm loss": 2.10963154, "grad_norm": 0.34079894, "learning_rate": 5.514e-05, "elapsed_time_per_iteration": 4.81228209, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 24s", "remaining_time": "8h 34m 41s", "loss_scale": 1.0, "consumed_samples": 1633024, "global_step/max_steps": "6379/12700"}
{"lm loss": 2.11127305, "grad_norm": 0.36397293, "learning_rate": 5.513e-05, "elapsed_time_per_iteration": 4.8354826, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 29s", "remaining_time": "8h 34m 36s", "loss_scale": 1.0, "consumed_samples": 1633280, "global_step/max_steps": "6380/12700"}
{"lm loss": 2.0828321, "grad_norm": 0.33892453, "learning_rate": 5.511e-05, "elapsed_time_per_iteration": 4.83304286, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 34s", "remaining_time": "8h 34m 31s", "loss_scale": 1.0, "consumed_samples": 1633536, "global_step/max_steps": "6381/12700"}
{"lm loss": 2.11428428, "grad_norm": 0.36546898, "learning_rate": 5.51e-05, "elapsed_time_per_iteration": 4.98028994, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 39s", "remaining_time": "8h 34m 26s", "loss_scale": 1.0, "consumed_samples": 1633792, "global_step/max_steps": "6382/12700"}
{"lm loss": 2.0841639, "grad_norm": 0.35382089, "learning_rate": 5.509e-05, "elapsed_time_per_iteration": 5.58117652, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 44s", "remaining_time": "8h 34m 22s", "loss_scale": 1.0, "consumed_samples": 1634048, "global_step/max_steps": "6383/12700"}
{"lm loss": 2.06149983, "grad_norm": 0.36328498, "learning_rate": 5.508e-05, "elapsed_time_per_iteration": 4.90533757, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 49s", "remaining_time": "8h 34m 17s", "loss_scale": 1.0, "consumed_samples": 1634304, "global_step/max_steps": "6384/12700"}
{"lm loss": 2.07803798, "grad_norm": 0.36278331, "learning_rate": 5.506e-05, "elapsed_time_per_iteration": 4.85480475, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 54s", "remaining_time": "8h 34m 12s", "loss_scale": 1.0, "consumed_samples": 1634560, "global_step/max_steps": "6385/12700"}
{"lm loss": 2.10718608, "grad_norm": 0.34696493, "learning_rate": 5.505e-05, "elapsed_time_per_iteration": 4.94970274, "memory(GiB)": 28.98, "elapsed_time": "8h 39m 59s", "remaining_time": "8h 34m 7s", "loss_scale": 1.0, "consumed_samples": 1634816, "global_step/max_steps": "6386/12700"}
{"lm loss": 2.09825063, "grad_norm": 0.368745, "learning_rate": 5.504e-05, "elapsed_time_per_iteration": 4.96808481, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 4s", "remaining_time": "8h 34m 2s", "loss_scale": 1.0, "consumed_samples": 1635072, "global_step/max_steps": "6387/12700"}
{"lm loss": 2.08778596, "grad_norm": 0.34818342, "learning_rate": 5.503e-05, "elapsed_time_per_iteration": 4.82348156, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 9s", "remaining_time": "8h 33m 58s", "loss_scale": 1.0, "consumed_samples": 1635328, "global_step/max_steps": "6388/12700"}
{"lm loss": 2.07503462, "grad_norm": 0.36827281, "learning_rate": 5.501e-05, "elapsed_time_per_iteration": 4.92397189, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 14s", "remaining_time": "8h 33m 53s", "loss_scale": 1.0, "consumed_samples": 1635584, "global_step/max_steps": "6389/12700"}
{"lm loss": 2.10596967, "grad_norm": 0.3683421, "learning_rate": 5.5e-05, "elapsed_time_per_iteration": 4.91592407, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 19s", "remaining_time": "8h 33m 48s", "loss_scale": 1.0, "consumed_samples": 1635840, "global_step/max_steps": "6390/12700"}
{"lm loss": 2.12356567, "grad_norm": 0.35688537, "learning_rate": 5.499e-05, "elapsed_time_per_iteration": 4.88406992, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 24s", "remaining_time": "8h 33m 43s", "loss_scale": 1.0, "consumed_samples": 1636096, "global_step/max_steps": "6391/12700"}
{"lm loss": 2.08485126, "grad_norm": 0.36011273, "learning_rate": 5.498e-05, "elapsed_time_per_iteration": 4.92652583, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 28s", "remaining_time": "8h 33m 38s", "loss_scale": 1.0, "consumed_samples": 1636352, "global_step/max_steps": "6392/12700"}
{"lm loss": 2.0743916, "grad_norm": 0.35219714, "learning_rate": 5.496e-05, "elapsed_time_per_iteration": 4.84211564, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 33s", "remaining_time": "8h 33m 33s", "loss_scale": 1.0, "consumed_samples": 1636608, "global_step/max_steps": "6393/12700"}
{"lm loss": 2.13447142, "grad_norm": 0.39983425, "learning_rate": 5.495e-05, "elapsed_time_per_iteration": 4.79950619, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 38s", "remaining_time": "8h 33m 28s", "loss_scale": 1.0, "consumed_samples": 1636864, "global_step/max_steps": "6394/12700"}
{"lm loss": 2.06830096, "grad_norm": 0.35968453, "learning_rate": 5.494e-05, "elapsed_time_per_iteration": 4.97811103, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 43s", "remaining_time": "8h 33m 23s", "loss_scale": 1.0, "consumed_samples": 1637120, "global_step/max_steps": "6395/12700"}
{"lm loss": 2.10336161, "grad_norm": 0.38926899, "learning_rate": 5.493e-05, "elapsed_time_per_iteration": 4.80502772, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 48s", "remaining_time": "8h 33m 18s", "loss_scale": 1.0, "consumed_samples": 1637376, "global_step/max_steps": "6396/12700"}
{"lm loss": 2.05874872, "grad_norm": 0.35615584, "learning_rate": 5.491e-05, "elapsed_time_per_iteration": 4.90619135, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 53s", "remaining_time": "8h 33m 14s", "loss_scale": 1.0, "consumed_samples": 1637632, "global_step/max_steps": "6397/12700"}
{"lm loss": 2.09161639, "grad_norm": 0.3916494, "learning_rate": 5.49e-05, "elapsed_time_per_iteration": 4.88678193, "memory(GiB)": 28.98, "elapsed_time": "8h 40m 58s", "remaining_time": "8h 33m 9s", "loss_scale": 1.0, "consumed_samples": 1637888, "global_step/max_steps": "6398/12700"}
{"lm loss": 2.09362864, "grad_norm": 0.36549485, "learning_rate": 5.489e-05, "elapsed_time_per_iteration": 5.05963111, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 3s", "remaining_time": "8h 33m 4s", "loss_scale": 1.0, "consumed_samples": 1638144, "global_step/max_steps": "6399/12700"}
{"lm loss": 2.10727262, "grad_norm": 0.39794424, "learning_rate": 5.488e-05, "elapsed_time_per_iteration": 4.89302945, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 8s", "remaining_time": "8h 32m 59s", "loss_scale": 1.0, "consumed_samples": 1638400, "global_step/max_steps": "6400/12700"}
{"lm loss": 2.10033011, "grad_norm": 0.37498316, "learning_rate": 5.486e-05, "elapsed_time_per_iteration": 4.96743035, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 13s", "remaining_time": "8h 32m 54s", "loss_scale": 1.0, "consumed_samples": 1638656, "global_step/max_steps": "6401/12700"}
{"lm loss": 2.10400295, "grad_norm": 0.34755528, "learning_rate": 5.485e-05, "elapsed_time_per_iteration": 4.90906858, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 18s", "remaining_time": "8h 32m 49s", "loss_scale": 1.0, "consumed_samples": 1638912, "global_step/max_steps": "6402/12700"}
{"lm loss": 2.09376478, "grad_norm": 0.4341028, "learning_rate": 5.484e-05, "elapsed_time_per_iteration": 4.90833998, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 22s", "remaining_time": "8h 32m 45s", "loss_scale": 1.0, "consumed_samples": 1639168, "global_step/max_steps": "6403/12700"}
{"lm loss": 2.08658719, "grad_norm": 0.3745586, "learning_rate": 5.483e-05, "elapsed_time_per_iteration": 4.90903187, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 27s", "remaining_time": "8h 32m 40s", "loss_scale": 1.0, "consumed_samples": 1639424, "global_step/max_steps": "6404/12700"}
{"lm loss": 2.07967854, "grad_norm": 0.3806293, "learning_rate": 5.481e-05, "elapsed_time_per_iteration": 4.88044214, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 32s", "remaining_time": "8h 32m 35s", "loss_scale": 1.0, "consumed_samples": 1639680, "global_step/max_steps": "6405/12700"}
{"lm loss": 2.07619929, "grad_norm": 0.37527165, "learning_rate": 5.48e-05, "elapsed_time_per_iteration": 4.87758446, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 37s", "remaining_time": "8h 32m 30s", "loss_scale": 1.0, "consumed_samples": 1639936, "global_step/max_steps": "6406/12700"}
{"lm loss": 2.08882785, "grad_norm": 0.39674029, "learning_rate": 5.479e-05, "elapsed_time_per_iteration": 4.8618331, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 42s", "remaining_time": "8h 32m 25s", "loss_scale": 1.0, "consumed_samples": 1640192, "global_step/max_steps": "6407/12700"}
{"lm loss": 2.10532904, "grad_norm": 0.38738367, "learning_rate": 5.477e-05, "elapsed_time_per_iteration": 4.90813875, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 47s", "remaining_time": "8h 32m 20s", "loss_scale": 1.0, "consumed_samples": 1640448, "global_step/max_steps": "6408/12700"}
{"lm loss": 2.07834029, "grad_norm": 0.3659716, "learning_rate": 5.476e-05, "elapsed_time_per_iteration": 4.7982831, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 52s", "remaining_time": "8h 32m 15s", "loss_scale": 1.0, "consumed_samples": 1640704, "global_step/max_steps": "6409/12700"}
{"lm loss": 2.10348678, "grad_norm": 0.38074371, "learning_rate": 5.475e-05, "elapsed_time_per_iteration": 5.01505089, "memory(GiB)": 28.98, "elapsed_time": "8h 41m 57s", "remaining_time": "8h 32m 10s", "loss_scale": 1.0, "consumed_samples": 1640960, "global_step/max_steps": "6410/12700"}
{"lm loss": 2.14098978, "grad_norm": 0.35411245, "learning_rate": 5.474e-05, "elapsed_time_per_iteration": 4.89751887, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 2s", "remaining_time": "8h 32m 6s", "loss_scale": 1.0, "consumed_samples": 1641216, "global_step/max_steps": "6411/12700"}
{"lm loss": 2.09589291, "grad_norm": 0.35235882, "learning_rate": 5.472e-05, "elapsed_time_per_iteration": 4.88552403, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 6s", "remaining_time": "8h 32m 1s", "loss_scale": 1.0, "consumed_samples": 1641472, "global_step/max_steps": "6412/12700"}
{"lm loss": 2.08306646, "grad_norm": 0.36205736, "learning_rate": 5.471e-05, "elapsed_time_per_iteration": 4.89943957, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 11s", "remaining_time": "8h 31m 56s", "loss_scale": 1.0, "consumed_samples": 1641728, "global_step/max_steps": "6413/12700"}
{"lm loss": 2.12925601, "grad_norm": 0.35384449, "learning_rate": 5.47e-05, "elapsed_time_per_iteration": 4.82493758, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 16s", "remaining_time": "8h 31m 51s", "loss_scale": 1.0, "consumed_samples": 1641984, "global_step/max_steps": "6414/12700"}
{"lm loss": 2.13842678, "grad_norm": 0.38084969, "learning_rate": 5.469e-05, "elapsed_time_per_iteration": 4.77640271, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 21s", "remaining_time": "8h 31m 46s", "loss_scale": 1.0, "consumed_samples": 1642240, "global_step/max_steps": "6415/12700"}
{"lm loss": 2.09521413, "grad_norm": 0.36725232, "learning_rate": 5.467e-05, "elapsed_time_per_iteration": 4.80220079, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 26s", "remaining_time": "8h 31m 41s", "loss_scale": 1.0, "consumed_samples": 1642496, "global_step/max_steps": "6416/12700"}
{"lm loss": 2.11113429, "grad_norm": 0.34971687, "learning_rate": 5.466e-05, "elapsed_time_per_iteration": 4.86296582, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 31s", "remaining_time": "8h 31m 36s", "loss_scale": 1.0, "consumed_samples": 1642752, "global_step/max_steps": "6417/12700"}
{"lm loss": 2.07095981, "grad_norm": 0.36994651, "learning_rate": 5.465e-05, "elapsed_time_per_iteration": 5.15520144, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 36s", "remaining_time": "8h 31m 31s", "loss_scale": 1.0, "consumed_samples": 1643008, "global_step/max_steps": "6418/12700"}
{"lm loss": 2.11222553, "grad_norm": 0.39491177, "learning_rate": 5.464e-05, "elapsed_time_per_iteration": 4.84549236, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 41s", "remaining_time": "8h 31m 26s", "loss_scale": 1.0, "consumed_samples": 1643264, "global_step/max_steps": "6419/12700"}
{"lm loss": 2.10388875, "grad_norm": 0.35292047, "learning_rate": 5.462e-05, "elapsed_time_per_iteration": 4.90368462, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 46s", "remaining_time": "8h 31m 22s", "loss_scale": 1.0, "consumed_samples": 1643520, "global_step/max_steps": "6420/12700"}
{"lm loss": 2.07727194, "grad_norm": 0.37634167, "learning_rate": 5.461e-05, "elapsed_time_per_iteration": 4.87562084, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 50s", "remaining_time": "8h 31m 17s", "loss_scale": 1.0, "consumed_samples": 1643776, "global_step/max_steps": "6421/12700"}
{"lm loss": 2.10456705, "grad_norm": 0.37673065, "learning_rate": 5.46e-05, "elapsed_time_per_iteration": 4.95708275, "memory(GiB)": 28.98, "elapsed_time": "8h 42m 55s", "remaining_time": "8h 31m 12s", "loss_scale": 1.0, "consumed_samples": 1644032, "global_step/max_steps": "6422/12700"}
{"lm loss": 2.1137135, "grad_norm": 0.41056508, "learning_rate": 5.459e-05, "elapsed_time_per_iteration": 4.89074469, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 0s", "remaining_time": "8h 31m 7s", "loss_scale": 1.0, "consumed_samples": 1644288, "global_step/max_steps": "6423/12700"}
{"lm loss": 2.1288805, "grad_norm": 0.35715267, "learning_rate": 5.457e-05, "elapsed_time_per_iteration": 4.79560161, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 5s", "remaining_time": "8h 31m 2s", "loss_scale": 1.0, "consumed_samples": 1644544, "global_step/max_steps": "6424/12700"}
{"lm loss": 2.09656143, "grad_norm": 0.3711963, "learning_rate": 5.456e-05, "elapsed_time_per_iteration": 4.94242668, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 10s", "remaining_time": "8h 30m 57s", "loss_scale": 1.0, "consumed_samples": 1644800, "global_step/max_steps": "6425/12700"}
{"lm loss": 2.08175135, "grad_norm": 0.38756752, "learning_rate": 5.455e-05, "elapsed_time_per_iteration": 4.87534428, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 15s", "remaining_time": "8h 30m 52s", "loss_scale": 1.0, "consumed_samples": 1645056, "global_step/max_steps": "6426/12700"}
{"lm loss": 2.09913325, "grad_norm": 0.37840545, "learning_rate": 5.454e-05, "elapsed_time_per_iteration": 4.93762851, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 20s", "remaining_time": "8h 30m 47s", "loss_scale": 1.0, "consumed_samples": 1645312, "global_step/max_steps": "6427/12700"}
{"lm loss": 2.09064507, "grad_norm": 0.40257531, "learning_rate": 5.452e-05, "elapsed_time_per_iteration": 4.91482186, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 25s", "remaining_time": "8h 30m 43s", "loss_scale": 1.0, "consumed_samples": 1645568, "global_step/max_steps": "6428/12700"}
{"lm loss": 2.15526819, "grad_norm": 0.35407892, "learning_rate": 5.451e-05, "elapsed_time_per_iteration": 4.80601811, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 30s", "remaining_time": "8h 30m 38s", "loss_scale": 1.0, "consumed_samples": 1645824, "global_step/max_steps": "6429/12700"}
{"lm loss": 2.04814625, "grad_norm": 0.37906101, "learning_rate": 5.45e-05, "elapsed_time_per_iteration": 4.82999182, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 34s", "remaining_time": "8h 30m 33s", "loss_scale": 1.0, "consumed_samples": 1646080, "global_step/max_steps": "6430/12700"}
{"lm loss": 2.08727384, "grad_norm": 0.36281896, "learning_rate": 5.448e-05, "elapsed_time_per_iteration": 4.88457799, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 39s", "remaining_time": "8h 30m 28s", "loss_scale": 1.0, "consumed_samples": 1646336, "global_step/max_steps": "6431/12700"}
{"lm loss": 2.07070661, "grad_norm": 0.35811016, "learning_rate": 5.447e-05, "elapsed_time_per_iteration": 4.84526134, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 44s", "remaining_time": "8h 30m 23s", "loss_scale": 1.0, "consumed_samples": 1646592, "global_step/max_steps": "6432/12700"}
{"lm loss": 2.06959105, "grad_norm": 0.35854632, "learning_rate": 5.446e-05, "elapsed_time_per_iteration": 4.88532639, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 49s", "remaining_time": "8h 30m 18s", "loss_scale": 1.0, "consumed_samples": 1646848, "global_step/max_steps": "6433/12700"}
{"lm loss": 2.08555532, "grad_norm": 0.38799074, "learning_rate": 5.445e-05, "elapsed_time_per_iteration": 4.92915154, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 54s", "remaining_time": "8h 30m 13s", "loss_scale": 1.0, "consumed_samples": 1647104, "global_step/max_steps": "6434/12700"}
{"lm loss": 2.07842827, "grad_norm": 0.38052225, "learning_rate": 5.443e-05, "elapsed_time_per_iteration": 4.89371967, "memory(GiB)": 28.98, "elapsed_time": "8h 43m 59s", "remaining_time": "8h 30m 8s", "loss_scale": 1.0, "consumed_samples": 1647360, "global_step/max_steps": "6435/12700"}
{"lm loss": 2.10513473, "grad_norm": 0.35398689, "learning_rate": 5.442e-05, "elapsed_time_per_iteration": 4.92193389, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 4s", "remaining_time": "8h 30m 3s", "loss_scale": 1.0, "consumed_samples": 1647616, "global_step/max_steps": "6436/12700"}
{"lm loss": 2.09212065, "grad_norm": 0.36737117, "learning_rate": 5.441e-05, "elapsed_time_per_iteration": 4.92319942, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 9s", "remaining_time": "8h 29m 59s", "loss_scale": 1.0, "consumed_samples": 1647872, "global_step/max_steps": "6437/12700"}
{"lm loss": 2.0984211, "grad_norm": 0.36699632, "learning_rate": 5.44e-05, "elapsed_time_per_iteration": 5.07283306, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 14s", "remaining_time": "8h 29m 54s", "loss_scale": 1.0, "consumed_samples": 1648128, "global_step/max_steps": "6438/12700"}
{"lm loss": 2.09133172, "grad_norm": 0.35837224, "learning_rate": 5.438e-05, "elapsed_time_per_iteration": 4.89084005, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 19s", "remaining_time": "8h 29m 49s", "loss_scale": 1.0, "consumed_samples": 1648384, "global_step/max_steps": "6439/12700"}
{"lm loss": 2.08551788, "grad_norm": 0.35270557, "learning_rate": 5.437e-05, "elapsed_time_per_iteration": 4.93372989, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 24s", "remaining_time": "8h 29m 44s", "loss_scale": 1.0, "consumed_samples": 1648640, "global_step/max_steps": "6440/12700"}
{"lm loss": 2.07740355, "grad_norm": 0.34700623, "learning_rate": 5.436e-05, "elapsed_time_per_iteration": 4.97802925, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 29s", "remaining_time": "8h 29m 39s", "loss_scale": 1.0, "consumed_samples": 1648896, "global_step/max_steps": "6441/12700"}
{"lm loss": 2.1104939, "grad_norm": 0.36410898, "learning_rate": 5.435e-05, "elapsed_time_per_iteration": 4.86278749, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 33s", "remaining_time": "8h 29m 34s", "loss_scale": 1.0, "consumed_samples": 1649152, "global_step/max_steps": "6442/12700"}
{"lm loss": 2.10167861, "grad_norm": 0.35984343, "learning_rate": 5.433e-05, "elapsed_time_per_iteration": 4.92392111, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 38s", "remaining_time": "8h 29m 30s", "loss_scale": 1.0, "consumed_samples": 1649408, "global_step/max_steps": "6443/12700"}
{"lm loss": 2.08334231, "grad_norm": 0.36171159, "learning_rate": 5.432e-05, "elapsed_time_per_iteration": 4.86468649, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 43s", "remaining_time": "8h 29m 25s", "loss_scale": 1.0, "consumed_samples": 1649664, "global_step/max_steps": "6444/12700"}
{"lm loss": 2.11883378, "grad_norm": 0.3361153, "learning_rate": 5.431e-05, "elapsed_time_per_iteration": 4.86743402, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 48s", "remaining_time": "8h 29m 20s", "loss_scale": 1.0, "consumed_samples": 1649920, "global_step/max_steps": "6445/12700"}
{"lm loss": 2.08702397, "grad_norm": 0.34934449, "learning_rate": 5.43e-05, "elapsed_time_per_iteration": 4.86929846, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 53s", "remaining_time": "8h 29m 15s", "loss_scale": 1.0, "consumed_samples": 1650176, "global_step/max_steps": "6446/12700"}
{"lm loss": 2.08626795, "grad_norm": 0.33733997, "learning_rate": 5.428e-05, "elapsed_time_per_iteration": 4.79178619, "memory(GiB)": 28.98, "elapsed_time": "8h 44m 58s", "remaining_time": "8h 29m 10s", "loss_scale": 1.0, "consumed_samples": 1650432, "global_step/max_steps": "6447/12700"}
{"lm loss": 2.06353402, "grad_norm": 0.35177138, "learning_rate": 5.427e-05, "elapsed_time_per_iteration": 4.88251925, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 3s", "remaining_time": "8h 29m 5s", "loss_scale": 1.0, "consumed_samples": 1650688, "global_step/max_steps": "6448/12700"}
{"lm loss": 2.09554005, "grad_norm": 0.34549317, "learning_rate": 5.426e-05, "elapsed_time_per_iteration": 5.16538715, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 8s", "remaining_time": "8h 29m 0s", "loss_scale": 1.0, "consumed_samples": 1650944, "global_step/max_steps": "6449/12700"}
{"lm loss": 2.10237765, "grad_norm": 0.34097427, "learning_rate": 5.425e-05, "elapsed_time_per_iteration": 4.86905479, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 13s", "remaining_time": "8h 28m 55s", "loss_scale": 1.0, "consumed_samples": 1651200, "global_step/max_steps": "6450/12700"}
{"lm loss": 2.08995533, "grad_norm": 0.35305205, "learning_rate": 5.423e-05, "elapsed_time_per_iteration": 4.89322734, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 17s", "remaining_time": "8h 28m 51s", "loss_scale": 1.0, "consumed_samples": 1651456, "global_step/max_steps": "6451/12700"}
{"lm loss": 2.05674362, "grad_norm": 0.36092451, "learning_rate": 5.422e-05, "elapsed_time_per_iteration": 4.82757998, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 22s", "remaining_time": "8h 28m 46s", "loss_scale": 1.0, "consumed_samples": 1651712, "global_step/max_steps": "6452/12700"}
{"lm loss": 2.10330939, "grad_norm": 0.34836599, "learning_rate": 5.421e-05, "elapsed_time_per_iteration": 4.86814499, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 27s", "remaining_time": "8h 28m 41s", "loss_scale": 1.0, "consumed_samples": 1651968, "global_step/max_steps": "6453/12700"}
{"lm loss": 2.0964551, "grad_norm": 0.37095964, "learning_rate": 5.419e-05, "elapsed_time_per_iteration": 4.8019588, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 32s", "remaining_time": "8h 28m 36s", "loss_scale": 1.0, "consumed_samples": 1652224, "global_step/max_steps": "6454/12700"}
{"lm loss": 2.08145332, "grad_norm": 0.38721177, "learning_rate": 5.418e-05, "elapsed_time_per_iteration": 4.8508749, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 37s", "remaining_time": "8h 28m 31s", "loss_scale": 1.0, "consumed_samples": 1652480, "global_step/max_steps": "6455/12700"}
{"lm loss": 2.06318402, "grad_norm": 0.33947164, "learning_rate": 5.417e-05, "elapsed_time_per_iteration": 4.90260816, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 42s", "remaining_time": "8h 28m 26s", "loss_scale": 1.0, "consumed_samples": 1652736, "global_step/max_steps": "6456/12700"}
{"lm loss": 2.11415958, "grad_norm": 0.3751449, "learning_rate": 5.416e-05, "elapsed_time_per_iteration": 5.00885439, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 47s", "remaining_time": "8h 28m 21s", "loss_scale": 1.0, "consumed_samples": 1652992, "global_step/max_steps": "6457/12700"}
{"lm loss": 2.12398052, "grad_norm": 0.3477717, "learning_rate": 5.414e-05, "elapsed_time_per_iteration": 4.85235381, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 52s", "remaining_time": "8h 28m 16s", "loss_scale": 1.0, "consumed_samples": 1653248, "global_step/max_steps": "6458/12700"}
{"lm loss": 2.12184286, "grad_norm": 0.37455711, "learning_rate": 5.413e-05, "elapsed_time_per_iteration": 4.92551041, "memory(GiB)": 28.98, "elapsed_time": "8h 45m 57s", "remaining_time": "8h 28m 11s", "loss_scale": 1.0, "consumed_samples": 1653504, "global_step/max_steps": "6459/12700"}
{"lm loss": 2.13890457, "grad_norm": 0.34321433, "learning_rate": 5.412e-05, "elapsed_time_per_iteration": 4.88995552, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 1s", "remaining_time": "8h 28m 7s", "loss_scale": 1.0, "consumed_samples": 1653760, "global_step/max_steps": "6460/12700"}
{"lm loss": 2.11836243, "grad_norm": 0.35597813, "learning_rate": 5.411e-05, "elapsed_time_per_iteration": 4.82073331, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 6s", "remaining_time": "8h 28m 2s", "loss_scale": 1.0, "consumed_samples": 1654016, "global_step/max_steps": "6461/12700"}
{"lm loss": 2.07097316, "grad_norm": 0.37556085, "learning_rate": 5.409e-05, "elapsed_time_per_iteration": 4.86147833, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 11s", "remaining_time": "8h 27m 57s", "loss_scale": 1.0, "consumed_samples": 1654272, "global_step/max_steps": "6462/12700"}
{"lm loss": 2.09555197, "grad_norm": 0.38164654, "learning_rate": 5.408e-05, "elapsed_time_per_iteration": 4.85949326, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 16s", "remaining_time": "8h 27m 52s", "loss_scale": 1.0, "consumed_samples": 1654528, "global_step/max_steps": "6463/12700"}
{"lm loss": 2.08243179, "grad_norm": 0.34626165, "learning_rate": 5.407e-05, "elapsed_time_per_iteration": 4.896312, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 21s", "remaining_time": "8h 27m 47s", "loss_scale": 1.0, "consumed_samples": 1654784, "global_step/max_steps": "6464/12700"}
{"lm loss": 2.06378675, "grad_norm": 0.38662541, "learning_rate": 5.406e-05, "elapsed_time_per_iteration": 4.9901998, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 26s", "remaining_time": "8h 27m 42s", "loss_scale": 1.0, "consumed_samples": 1655040, "global_step/max_steps": "6465/12700"}
{"lm loss": 2.09309292, "grad_norm": 0.36301941, "learning_rate": 5.404e-05, "elapsed_time_per_iteration": 4.78940892, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 31s", "remaining_time": "8h 27m 37s", "loss_scale": 1.0, "consumed_samples": 1655296, "global_step/max_steps": "6466/12700"}
{"lm loss": 2.10512543, "grad_norm": 0.36847019, "learning_rate": 5.403e-05, "elapsed_time_per_iteration": 4.86886549, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 36s", "remaining_time": "8h 27m 32s", "loss_scale": 1.0, "consumed_samples": 1655552, "global_step/max_steps": "6467/12700"}
{"lm loss": 2.10198474, "grad_norm": 0.36371809, "learning_rate": 5.402e-05, "elapsed_time_per_iteration": 4.96781254, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 40s", "remaining_time": "8h 27m 27s", "loss_scale": 1.0, "consumed_samples": 1655808, "global_step/max_steps": "6468/12700"}
{"lm loss": 2.12523913, "grad_norm": 0.36403048, "learning_rate": 5.401e-05, "elapsed_time_per_iteration": 4.88707018, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 45s", "remaining_time": "8h 27m 23s", "loss_scale": 1.0, "consumed_samples": 1656064, "global_step/max_steps": "6469/12700"}
{"lm loss": 2.10373116, "grad_norm": 0.37955469, "learning_rate": 5.399e-05, "elapsed_time_per_iteration": 4.83871627, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 50s", "remaining_time": "8h 27m 18s", "loss_scale": 1.0, "consumed_samples": 1656320, "global_step/max_steps": "6470/12700"}
{"lm loss": 2.10504079, "grad_norm": 0.38134193, "learning_rate": 5.398e-05, "elapsed_time_per_iteration": 4.85318971, "memory(GiB)": 28.98, "elapsed_time": "8h 46m 55s", "remaining_time": "8h 27m 13s", "loss_scale": 1.0, "consumed_samples": 1656576, "global_step/max_steps": "6471/12700"}
{"lm loss": 2.11437798, "grad_norm": 0.35660726, "learning_rate": 5.397e-05, "elapsed_time_per_iteration": 4.84168196, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 0s", "remaining_time": "8h 27m 8s", "loss_scale": 1.0, "consumed_samples": 1656832, "global_step/max_steps": "6472/12700"}
{"lm loss": 2.09643817, "grad_norm": 0.36393401, "learning_rate": 5.396e-05, "elapsed_time_per_iteration": 4.98637247, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 5s", "remaining_time": "8h 27m 3s", "loss_scale": 1.0, "consumed_samples": 1657088, "global_step/max_steps": "6473/12700"}
{"lm loss": 2.10885763, "grad_norm": 0.40056428, "learning_rate": 5.394e-05, "elapsed_time_per_iteration": 4.8342793, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 10s", "remaining_time": "8h 26m 58s", "loss_scale": 1.0, "consumed_samples": 1657344, "global_step/max_steps": "6474/12700"}
{"lm loss": 2.07128954, "grad_norm": 0.38934407, "learning_rate": 5.393e-05, "elapsed_time_per_iteration": 4.8540349, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 15s", "remaining_time": "8h 26m 53s", "loss_scale": 1.0, "consumed_samples": 1657600, "global_step/max_steps": "6475/12700"}
{"lm loss": 2.09889936, "grad_norm": 0.34886208, "learning_rate": 5.392e-05, "elapsed_time_per_iteration": 4.84574509, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 19s", "remaining_time": "8h 26m 48s", "loss_scale": 1.0, "consumed_samples": 1657856, "global_step/max_steps": "6476/12700"}
{"lm loss": 2.11010361, "grad_norm": 0.3382391, "learning_rate": 5.39e-05, "elapsed_time_per_iteration": 4.85975695, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 24s", "remaining_time": "8h 26m 43s", "loss_scale": 1.0, "consumed_samples": 1658112, "global_step/max_steps": "6477/12700"}
{"lm loss": 2.08895445, "grad_norm": 0.36079058, "learning_rate": 5.389e-05, "elapsed_time_per_iteration": 4.86196804, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 29s", "remaining_time": "8h 26m 38s", "loss_scale": 1.0, "consumed_samples": 1658368, "global_step/max_steps": "6478/12700"}
{"lm loss": 2.08949947, "grad_norm": 0.36160648, "learning_rate": 5.388e-05, "elapsed_time_per_iteration": 4.87543941, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 34s", "remaining_time": "8h 26m 34s", "loss_scale": 1.0, "consumed_samples": 1658624, "global_step/max_steps": "6479/12700"}
{"lm loss": 2.11666226, "grad_norm": 0.35641491, "learning_rate": 5.387e-05, "elapsed_time_per_iteration": 4.9105413, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 39s", "remaining_time": "8h 26m 29s", "loss_scale": 1.0, "consumed_samples": 1658880, "global_step/max_steps": "6480/12700"}
{"lm loss": 2.10849476, "grad_norm": 0.34264731, "learning_rate": 5.385e-05, "elapsed_time_per_iteration": 4.90800548, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 44s", "remaining_time": "8h 26m 24s", "loss_scale": 1.0, "consumed_samples": 1659136, "global_step/max_steps": "6481/12700"}
{"lm loss": 2.09900379, "grad_norm": 0.33837208, "learning_rate": 5.384e-05, "elapsed_time_per_iteration": 4.80629206, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 49s", "remaining_time": "8h 26m 19s", "loss_scale": 1.0, "consumed_samples": 1659392, "global_step/max_steps": "6482/12700"}
{"lm loss": 2.08558774, "grad_norm": 0.3812502, "learning_rate": 5.383e-05, "elapsed_time_per_iteration": 4.81554079, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 53s", "remaining_time": "8h 26m 14s", "loss_scale": 1.0, "consumed_samples": 1659648, "global_step/max_steps": "6483/12700"}
{"lm loss": 2.0993185, "grad_norm": 0.34914732, "learning_rate": 5.382e-05, "elapsed_time_per_iteration": 4.90839005, "memory(GiB)": 28.98, "elapsed_time": "8h 47m 58s", "remaining_time": "8h 26m 9s", "loss_scale": 1.0, "consumed_samples": 1659904, "global_step/max_steps": "6484/12700"}
{"lm loss": 2.07077074, "grad_norm": 0.35119557, "learning_rate": 5.38e-05, "elapsed_time_per_iteration": 4.84724689, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 3s", "remaining_time": "8h 26m 4s", "loss_scale": 1.0, "consumed_samples": 1660160, "global_step/max_steps": "6485/12700"}
{"lm loss": 2.12382483, "grad_norm": 0.34432793, "learning_rate": 5.379e-05, "elapsed_time_per_iteration": 4.80024815, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 8s", "remaining_time": "8h 25m 59s", "loss_scale": 1.0, "consumed_samples": 1660416, "global_step/max_steps": "6486/12700"}
{"lm loss": 2.07780266, "grad_norm": 0.35602751, "learning_rate": 5.378e-05, "elapsed_time_per_iteration": 4.8613627, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 13s", "remaining_time": "8h 25m 54s", "loss_scale": 1.0, "consumed_samples": 1660672, "global_step/max_steps": "6487/12700"}
{"lm loss": 2.10024977, "grad_norm": 0.32519498, "learning_rate": 5.377e-05, "elapsed_time_per_iteration": 4.87431121, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 18s", "remaining_time": "8h 25m 49s", "loss_scale": 1.0, "consumed_samples": 1660928, "global_step/max_steps": "6488/12700"}
{"lm loss": 2.10937858, "grad_norm": 0.35960543, "learning_rate": 5.375e-05, "elapsed_time_per_iteration": 4.97899985, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 23s", "remaining_time": "8h 25m 45s", "loss_scale": 1.0, "consumed_samples": 1661184, "global_step/max_steps": "6489/12700"}
{"lm loss": 2.04195642, "grad_norm": 0.34090519, "learning_rate": 5.374e-05, "elapsed_time_per_iteration": 4.92542219, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 28s", "remaining_time": "8h 25m 40s", "loss_scale": 1.0, "consumed_samples": 1661440, "global_step/max_steps": "6490/12700"}
{"lm loss": 2.10415769, "grad_norm": 0.36343002, "learning_rate": 5.373e-05, "elapsed_time_per_iteration": 4.81896806, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 32s", "remaining_time": "8h 25m 35s", "loss_scale": 1.0, "consumed_samples": 1661696, "global_step/max_steps": "6491/12700"}
{"lm loss": 2.11277175, "grad_norm": 0.36920094, "learning_rate": 5.372e-05, "elapsed_time_per_iteration": 4.87215257, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 37s", "remaining_time": "8h 25m 30s", "loss_scale": 1.0, "consumed_samples": 1661952, "global_step/max_steps": "6492/12700"}
{"lm loss": 2.06013608, "grad_norm": 0.356644, "learning_rate": 5.37e-05, "elapsed_time_per_iteration": 4.84522271, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 42s", "remaining_time": "8h 25m 25s", "loss_scale": 1.0, "consumed_samples": 1662208, "global_step/max_steps": "6493/12700"}
{"lm loss": 2.07643414, "grad_norm": 0.35351524, "learning_rate": 5.369e-05, "elapsed_time_per_iteration": 5.00573468, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 47s", "remaining_time": "8h 25m 20s", "loss_scale": 1.0, "consumed_samples": 1662464, "global_step/max_steps": "6494/12700"}
{"lm loss": 2.09588194, "grad_norm": 0.3657102, "learning_rate": 5.368e-05, "elapsed_time_per_iteration": 4.97972012, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 52s", "remaining_time": "8h 25m 15s", "loss_scale": 1.0, "consumed_samples": 1662720, "global_step/max_steps": "6495/12700"}
{"lm loss": 2.05440855, "grad_norm": 0.36789969, "learning_rate": 5.367e-05, "elapsed_time_per_iteration": 5.1095686, "memory(GiB)": 28.98, "elapsed_time": "8h 48m 57s", "remaining_time": "8h 25m 11s", "loss_scale": 1.0, "consumed_samples": 1662976, "global_step/max_steps": "6496/12700"}
{"lm loss": 2.11972189, "grad_norm": 0.34692448, "learning_rate": 5.365e-05, "elapsed_time_per_iteration": 5.02019286, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 2s", "remaining_time": "8h 25m 6s", "loss_scale": 1.0, "consumed_samples": 1663232, "global_step/max_steps": "6497/12700"}
{"lm loss": 2.08287311, "grad_norm": 0.35401326, "learning_rate": 5.364e-05, "elapsed_time_per_iteration": 4.81156564, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 7s", "remaining_time": "8h 25m 1s", "loss_scale": 1.0, "consumed_samples": 1663488, "global_step/max_steps": "6498/12700"}
{"lm loss": 2.10199976, "grad_norm": 0.34393406, "learning_rate": 5.363e-05, "elapsed_time_per_iteration": 4.91130567, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 12s", "remaining_time": "8h 24m 56s", "loss_scale": 1.0, "consumed_samples": 1663744, "global_step/max_steps": "6499/12700"}
{"lm loss": 2.07974625, "grad_norm": 0.38489342, "learning_rate": 5.361e-05, "elapsed_time_per_iteration": 4.93259668, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 17s", "remaining_time": "8h 24m 51s", "loss_scale": 1.0, "consumed_samples": 1664000, "global_step/max_steps": "6500/12700"}
{"lm loss": 2.08057928, "grad_norm": 0.35889009, "learning_rate": 5.36e-05, "elapsed_time_per_iteration": 5.56854677, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 23s", "remaining_time": "8h 24m 47s", "loss_scale": 1.0, "consumed_samples": 1664256, "global_step/max_steps": "6501/12700"}
{"lm loss": 2.12981749, "grad_norm": 0.37739566, "learning_rate": 5.359e-05, "elapsed_time_per_iteration": 5.06533241, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 28s", "remaining_time": "8h 24m 42s", "loss_scale": 1.0, "consumed_samples": 1664512, "global_step/max_steps": "6502/12700"}
{"lm loss": 2.10001206, "grad_norm": 0.37075546, "learning_rate": 5.358e-05, "elapsed_time_per_iteration": 5.11582637, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 33s", "remaining_time": "8h 24m 38s", "loss_scale": 1.0, "consumed_samples": 1664768, "global_step/max_steps": "6503/12700"}
{"lm loss": 2.09257126, "grad_norm": 0.35415566, "learning_rate": 5.356e-05, "elapsed_time_per_iteration": 4.86726451, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 38s", "remaining_time": "8h 24m 33s", "loss_scale": 1.0, "consumed_samples": 1665024, "global_step/max_steps": "6504/12700"}
{"lm loss": 2.0976088, "grad_norm": 0.35822031, "learning_rate": 5.355e-05, "elapsed_time_per_iteration": 4.90391994, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 42s", "remaining_time": "8h 24m 28s", "loss_scale": 1.0, "consumed_samples": 1665280, "global_step/max_steps": "6505/12700"}
{"lm loss": 2.10027337, "grad_norm": 0.36380506, "learning_rate": 5.354e-05, "elapsed_time_per_iteration": 4.81205678, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 47s", "remaining_time": "8h 24m 23s", "loss_scale": 1.0, "consumed_samples": 1665536, "global_step/max_steps": "6506/12700"}
{"lm loss": 2.16285706, "grad_norm": 0.39465225, "learning_rate": 5.353e-05, "elapsed_time_per_iteration": 4.90938091, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 52s", "remaining_time": "8h 24m 18s", "loss_scale": 1.0, "consumed_samples": 1665792, "global_step/max_steps": "6507/12700"}
{"lm loss": 2.06985569, "grad_norm": 0.37573677, "learning_rate": 5.351e-05, "elapsed_time_per_iteration": 4.93737721, "memory(GiB)": 28.98, "elapsed_time": "8h 49m 57s", "remaining_time": "8h 24m 13s", "loss_scale": 1.0, "consumed_samples": 1666048, "global_step/max_steps": "6508/12700"}
{"lm loss": 2.0805738, "grad_norm": 0.39439386, "learning_rate": 5.35e-05, "elapsed_time_per_iteration": 5.00967479, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 2s", "remaining_time": "8h 24m 8s", "loss_scale": 1.0, "consumed_samples": 1666304, "global_step/max_steps": "6509/12700"}
{"lm loss": 2.10584426, "grad_norm": 0.36653596, "learning_rate": 5.349e-05, "elapsed_time_per_iteration": 4.97181177, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 7s", "remaining_time": "8h 24m 4s", "loss_scale": 1.0, "consumed_samples": 1666560, "global_step/max_steps": "6510/12700"}
{"lm loss": 2.08570123, "grad_norm": 0.40447241, "learning_rate": 5.348e-05, "elapsed_time_per_iteration": 4.89100862, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 12s", "remaining_time": "8h 23m 59s", "loss_scale": 1.0, "consumed_samples": 1666816, "global_step/max_steps": "6511/12700"}
{"lm loss": 2.07971001, "grad_norm": 0.35073748, "learning_rate": 5.346e-05, "elapsed_time_per_iteration": 4.9093194, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 17s", "remaining_time": "8h 23m 54s", "loss_scale": 1.0, "consumed_samples": 1667072, "global_step/max_steps": "6512/12700"}
{"lm loss": 2.08622074, "grad_norm": 0.4015432, "learning_rate": 5.345e-05, "elapsed_time_per_iteration": 4.88453221, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 22s", "remaining_time": "8h 23m 49s", "loss_scale": 1.0, "consumed_samples": 1667328, "global_step/max_steps": "6513/12700"}
{"lm loss": 2.10330653, "grad_norm": 0.33876884, "learning_rate": 5.344e-05, "elapsed_time_per_iteration": 4.82223177, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 27s", "remaining_time": "8h 23m 44s", "loss_scale": 1.0, "consumed_samples": 1667584, "global_step/max_steps": "6514/12700"}
{"lm loss": 2.04986072, "grad_norm": 0.38037255, "learning_rate": 5.343e-05, "elapsed_time_per_iteration": 4.88074875, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 32s", "remaining_time": "8h 23m 39s", "loss_scale": 1.0, "consumed_samples": 1667840, "global_step/max_steps": "6515/12700"}
{"lm loss": 2.11702156, "grad_norm": 0.36287931, "learning_rate": 5.341e-05, "elapsed_time_per_iteration": 4.92925382, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 36s", "remaining_time": "8h 23m 34s", "loss_scale": 1.0, "consumed_samples": 1668096, "global_step/max_steps": "6516/12700"}
{"lm loss": 2.11249137, "grad_norm": 0.32852569, "learning_rate": 5.34e-05, "elapsed_time_per_iteration": 4.93057895, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 41s", "remaining_time": "8h 23m 29s", "loss_scale": 1.0, "consumed_samples": 1668352, "global_step/max_steps": "6517/12700"}
{"lm loss": 2.10220098, "grad_norm": 0.38045162, "learning_rate": 5.339e-05, "elapsed_time_per_iteration": 4.99759126, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 46s", "remaining_time": "8h 23m 25s", "loss_scale": 1.0, "consumed_samples": 1668608, "global_step/max_steps": "6518/12700"}
{"lm loss": 2.11276054, "grad_norm": 0.37343475, "learning_rate": 5.337e-05, "elapsed_time_per_iteration": 4.92658329, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 51s", "remaining_time": "8h 23m 20s", "loss_scale": 1.0, "consumed_samples": 1668864, "global_step/max_steps": "6519/12700"}
{"lm loss": 2.1185689, "grad_norm": 0.36602241, "learning_rate": 5.336e-05, "elapsed_time_per_iteration": 4.87487817, "memory(GiB)": 28.98, "elapsed_time": "8h 50m 56s", "remaining_time": "8h 23m 15s", "loss_scale": 1.0, "consumed_samples": 1669120, "global_step/max_steps": "6520/12700"}
{"lm loss": 2.09116387, "grad_norm": 0.36640316, "learning_rate": 5.335e-05, "elapsed_time_per_iteration": 4.87249923, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 1s", "remaining_time": "8h 23m 10s", "loss_scale": 1.0, "consumed_samples": 1669376, "global_step/max_steps": "6521/12700"}
{"lm loss": 2.06070447, "grad_norm": 0.36401755, "learning_rate": 5.334e-05, "elapsed_time_per_iteration": 4.84319329, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 6s", "remaining_time": "8h 23m 5s", "loss_scale": 1.0, "consumed_samples": 1669632, "global_step/max_steps": "6522/12700"}
{"lm loss": 2.02774477, "grad_norm": 0.383995, "learning_rate": 5.332e-05, "elapsed_time_per_iteration": 4.86177206, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 11s", "remaining_time": "8h 23m 0s", "loss_scale": 1.0, "consumed_samples": 1669888, "global_step/max_steps": "6523/12700"}
{"lm loss": 2.08805299, "grad_norm": 0.35177785, "learning_rate": 5.331e-05, "elapsed_time_per_iteration": 4.81249666, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 16s", "remaining_time": "8h 22m 55s", "loss_scale": 1.0, "consumed_samples": 1670144, "global_step/max_steps": "6524/12700"}
{"lm loss": 2.08262062, "grad_norm": 0.34176213, "learning_rate": 5.33e-05, "elapsed_time_per_iteration": 4.83422399, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 20s", "remaining_time": "8h 22m 50s", "loss_scale": 1.0, "consumed_samples": 1670400, "global_step/max_steps": "6525/12700"}
{"lm loss": 2.1157999, "grad_norm": 0.37106997, "learning_rate": 5.329e-05, "elapsed_time_per_iteration": 5.14269185, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 26s", "remaining_time": "8h 22m 46s", "loss_scale": 1.0, "consumed_samples": 1670656, "global_step/max_steps": "6526/12700"}
{"lm loss": 2.08554482, "grad_norm": 0.37694418, "learning_rate": 5.327e-05, "elapsed_time_per_iteration": 4.9489696, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 30s", "remaining_time": "8h 22m 41s", "loss_scale": 1.0, "consumed_samples": 1670912, "global_step/max_steps": "6527/12700"}
{"lm loss": 2.1004262, "grad_norm": 0.36613965, "learning_rate": 5.326e-05, "elapsed_time_per_iteration": 4.80232191, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 35s", "remaining_time": "8h 22m 36s", "loss_scale": 1.0, "consumed_samples": 1671168, "global_step/max_steps": "6528/12700"}
{"lm loss": 2.06984401, "grad_norm": 0.34352362, "learning_rate": 5.325e-05, "elapsed_time_per_iteration": 4.81207561, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 40s", "remaining_time": "8h 22m 31s", "loss_scale": 1.0, "consumed_samples": 1671424, "global_step/max_steps": "6529/12700"}
{"lm loss": 2.10794902, "grad_norm": 0.36915851, "learning_rate": 5.324e-05, "elapsed_time_per_iteration": 4.9292624, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 45s", "remaining_time": "8h 22m 26s", "loss_scale": 1.0, "consumed_samples": 1671680, "global_step/max_steps": "6530/12700"}
{"lm loss": 2.07543135, "grad_norm": 0.35427168, "learning_rate": 5.322e-05, "elapsed_time_per_iteration": 4.94506311, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 50s", "remaining_time": "8h 22m 21s", "loss_scale": 1.0, "consumed_samples": 1671936, "global_step/max_steps": "6531/12700"}
{"lm loss": 2.06489515, "grad_norm": 0.37653744, "learning_rate": 5.321e-05, "elapsed_time_per_iteration": 4.94008851, "memory(GiB)": 28.98, "elapsed_time": "8h 51m 55s", "remaining_time": "8h 22m 16s", "loss_scale": 1.0, "consumed_samples": 1672192, "global_step/max_steps": "6532/12700"}
{"lm loss": 2.11443758, "grad_norm": 0.34369436, "learning_rate": 5.32e-05, "elapsed_time_per_iteration": 4.79333353, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 0s", "remaining_time": "8h 22m 11s", "loss_scale": 1.0, "consumed_samples": 1672448, "global_step/max_steps": "6533/12700"}
{"lm loss": 2.0903399, "grad_norm": 0.35298544, "learning_rate": 5.319e-05, "elapsed_time_per_iteration": 4.81597543, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 5s", "remaining_time": "8h 22m 6s", "loss_scale": 1.0, "consumed_samples": 1672704, "global_step/max_steps": "6534/12700"}
{"lm loss": 2.10132122, "grad_norm": 0.34143931, "learning_rate": 5.317e-05, "elapsed_time_per_iteration": 4.86372089, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 9s", "remaining_time": "8h 22m 2s", "loss_scale": 1.0, "consumed_samples": 1672960, "global_step/max_steps": "6535/12700"}
{"lm loss": 2.08615518, "grad_norm": 0.35872918, "learning_rate": 5.316e-05, "elapsed_time_per_iteration": 4.8547368, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 14s", "remaining_time": "8h 21m 57s", "loss_scale": 1.0, "consumed_samples": 1673216, "global_step/max_steps": "6536/12700"}
{"lm loss": 2.10428786, "grad_norm": 0.37704581, "learning_rate": 5.315e-05, "elapsed_time_per_iteration": 4.84484291, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 19s", "remaining_time": "8h 21m 52s", "loss_scale": 1.0, "consumed_samples": 1673472, "global_step/max_steps": "6537/12700"}
{"lm loss": 2.11394453, "grad_norm": 0.36338738, "learning_rate": 5.314e-05, "elapsed_time_per_iteration": 4.84627032, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 24s", "remaining_time": "8h 21m 47s", "loss_scale": 1.0, "consumed_samples": 1673728, "global_step/max_steps": "6538/12700"}
{"lm loss": 2.12746668, "grad_norm": 0.37322509, "learning_rate": 5.312e-05, "elapsed_time_per_iteration": 4.91173315, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 29s", "remaining_time": "8h 21m 42s", "loss_scale": 1.0, "consumed_samples": 1673984, "global_step/max_steps": "6539/12700"}
{"lm loss": 2.13665628, "grad_norm": 0.36110938, "learning_rate": 5.311e-05, "elapsed_time_per_iteration": 4.96646023, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 34s", "remaining_time": "8h 21m 37s", "loss_scale": 1.0, "consumed_samples": 1674240, "global_step/max_steps": "6540/12700"}
{"lm loss": 2.10093403, "grad_norm": 0.37428379, "learning_rate": 5.31e-05, "elapsed_time_per_iteration": 4.77533484, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 39s", "remaining_time": "8h 21m 32s", "loss_scale": 1.0, "consumed_samples": 1674496, "global_step/max_steps": "6541/12700"}
{"lm loss": 2.07243991, "grad_norm": 0.34636495, "learning_rate": 5.308e-05, "elapsed_time_per_iteration": 4.83313203, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 43s", "remaining_time": "8h 21m 27s", "loss_scale": 1.0, "consumed_samples": 1674752, "global_step/max_steps": "6542/12700"}
{"lm loss": 2.13542247, "grad_norm": 0.35704407, "learning_rate": 5.307e-05, "elapsed_time_per_iteration": 4.92900276, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 48s", "remaining_time": "8h 21m 22s", "loss_scale": 1.0, "consumed_samples": 1675008, "global_step/max_steps": "6543/12700"}
{"lm loss": 2.07889605, "grad_norm": 0.36717185, "learning_rate": 5.306e-05, "elapsed_time_per_iteration": 4.89228582, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 53s", "remaining_time": "8h 21m 17s", "loss_scale": 1.0, "consumed_samples": 1675264, "global_step/max_steps": "6544/12700"}
{"lm loss": 2.11792612, "grad_norm": 0.37634802, "learning_rate": 5.305e-05, "elapsed_time_per_iteration": 4.86994267, "memory(GiB)": 28.98, "elapsed_time": "8h 52m 58s", "remaining_time": "8h 21m 13s", "loss_scale": 1.0, "consumed_samples": 1675520, "global_step/max_steps": "6545/12700"}
{"lm loss": 2.07924652, "grad_norm": 0.34115452, "learning_rate": 5.303e-05, "elapsed_time_per_iteration": 4.82699823, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 3s", "remaining_time": "8h 21m 8s", "loss_scale": 1.0, "consumed_samples": 1675776, "global_step/max_steps": "6546/12700"}
{"lm loss": 2.09692359, "grad_norm": 0.35410577, "learning_rate": 5.302e-05, "elapsed_time_per_iteration": 4.79230642, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 8s", "remaining_time": "8h 21m 3s", "loss_scale": 1.0, "consumed_samples": 1676032, "global_step/max_steps": "6547/12700"}
{"lm loss": 2.10603333, "grad_norm": 0.34635502, "learning_rate": 5.301e-05, "elapsed_time_per_iteration": 4.90281582, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 13s", "remaining_time": "8h 20m 58s", "loss_scale": 1.0, "consumed_samples": 1676288, "global_step/max_steps": "6548/12700"}
{"lm loss": 2.0501318, "grad_norm": 0.3516514, "learning_rate": 5.3e-05, "elapsed_time_per_iteration": 4.86623859, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 17s", "remaining_time": "8h 20m 53s", "loss_scale": 1.0, "consumed_samples": 1676544, "global_step/max_steps": "6549/12700"}
{"lm loss": 2.08600926, "grad_norm": 0.340197, "learning_rate": 5.298e-05, "elapsed_time_per_iteration": 5.10639668, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 23s", "remaining_time": "8h 20m 48s", "loss_scale": 1.0, "consumed_samples": 1676800, "global_step/max_steps": "6550/12700"}
{"lm loss": 2.08445334, "grad_norm": 0.37717736, "learning_rate": 5.297e-05, "elapsed_time_per_iteration": 4.83886218, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 27s", "remaining_time": "8h 20m 43s", "loss_scale": 1.0, "consumed_samples": 1677056, "global_step/max_steps": "6551/12700"}
{"lm loss": 2.08066821, "grad_norm": 0.37213963, "learning_rate": 5.296e-05, "elapsed_time_per_iteration": 4.83837032, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 32s", "remaining_time": "8h 20m 38s", "loss_scale": 1.0, "consumed_samples": 1677312, "global_step/max_steps": "6552/12700"}
{"lm loss": 2.0839107, "grad_norm": 0.39358339, "learning_rate": 5.295e-05, "elapsed_time_per_iteration": 4.81018949, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 37s", "remaining_time": "8h 20m 33s", "loss_scale": 1.0, "consumed_samples": 1677568, "global_step/max_steps": "6553/12700"}
{"lm loss": 2.1069839, "grad_norm": 0.37350541, "learning_rate": 5.293e-05, "elapsed_time_per_iteration": 4.9408319, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 42s", "remaining_time": "8h 20m 29s", "loss_scale": 1.0, "consumed_samples": 1677824, "global_step/max_steps": "6554/12700"}
{"lm loss": 2.09405422, "grad_norm": 0.38543937, "learning_rate": 5.292e-05, "elapsed_time_per_iteration": 4.86937046, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 47s", "remaining_time": "8h 20m 24s", "loss_scale": 1.0, "consumed_samples": 1678080, "global_step/max_steps": "6555/12700"}
{"lm loss": 2.11777234, "grad_norm": 0.35995513, "learning_rate": 5.291e-05, "elapsed_time_per_iteration": 4.93353772, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 52s", "remaining_time": "8h 20m 19s", "loss_scale": 1.0, "consumed_samples": 1678336, "global_step/max_steps": "6556/12700"}
{"lm loss": 2.09288573, "grad_norm": 0.39466888, "learning_rate": 5.29e-05, "elapsed_time_per_iteration": 4.96765304, "memory(GiB)": 28.98, "elapsed_time": "8h 53m 57s", "remaining_time": "8h 20m 14s", "loss_scale": 1.0, "consumed_samples": 1678592, "global_step/max_steps": "6557/12700"}
{"lm loss": 2.07860589, "grad_norm": 0.37362772, "learning_rate": 5.288e-05, "elapsed_time_per_iteration": 4.99177694, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 2s", "remaining_time": "8h 20m 9s", "loss_scale": 1.0, "consumed_samples": 1678848, "global_step/max_steps": "6558/12700"}
{"lm loss": 2.07467508, "grad_norm": 0.36341441, "learning_rate": 5.287e-05, "elapsed_time_per_iteration": 4.93293548, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 7s", "remaining_time": "8h 20m 4s", "loss_scale": 1.0, "consumed_samples": 1679104, "global_step/max_steps": "6559/12700"}
{"lm loss": 2.07018518, "grad_norm": 0.34905127, "learning_rate": 5.286e-05, "elapsed_time_per_iteration": 4.84791446, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 12s", "remaining_time": "8h 19m 59s", "loss_scale": 1.0, "consumed_samples": 1679360, "global_step/max_steps": "6560/12700"}
{"lm loss": 2.11067677, "grad_norm": 0.37885535, "learning_rate": 5.284e-05, "elapsed_time_per_iteration": 4.89236236, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 16s", "remaining_time": "8h 19m 55s", "loss_scale": 1.0, "consumed_samples": 1679616, "global_step/max_steps": "6561/12700"}
{"lm loss": 2.0726099, "grad_norm": 0.37269527, "learning_rate": 5.283e-05, "elapsed_time_per_iteration": 4.89058423, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 21s", "remaining_time": "8h 19m 50s", "loss_scale": 1.0, "consumed_samples": 1679872, "global_step/max_steps": "6562/12700"}
{"lm loss": 2.11724377, "grad_norm": 0.35080677, "learning_rate": 5.282e-05, "elapsed_time_per_iteration": 4.93712783, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 26s", "remaining_time": "8h 19m 45s", "loss_scale": 1.0, "consumed_samples": 1680128, "global_step/max_steps": "6563/12700"}
{"lm loss": 2.06838202, "grad_norm": 0.36019072, "learning_rate": 5.281e-05, "elapsed_time_per_iteration": 4.85413194, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 31s", "remaining_time": "8h 19m 40s", "loss_scale": 1.0, "consumed_samples": 1680384, "global_step/max_steps": "6564/12700"}
{"lm loss": 2.09332824, "grad_norm": 0.37759843, "learning_rate": 5.279e-05, "elapsed_time_per_iteration": 4.95428371, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 36s", "remaining_time": "8h 19m 35s", "loss_scale": 1.0, "consumed_samples": 1680640, "global_step/max_steps": "6565/12700"}
{"lm loss": 2.09646392, "grad_norm": 0.39307767, "learning_rate": 5.278e-05, "elapsed_time_per_iteration": 5.03640866, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 41s", "remaining_time": "8h 19m 30s", "loss_scale": 1.0, "consumed_samples": 1680896, "global_step/max_steps": "6566/12700"}
{"lm loss": 2.10971069, "grad_norm": 0.40540829, "learning_rate": 5.277e-05, "elapsed_time_per_iteration": 5.04040861, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 46s", "remaining_time": "8h 19m 26s", "loss_scale": 1.0, "consumed_samples": 1681152, "global_step/max_steps": "6567/12700"}
{"lm loss": 2.12138224, "grad_norm": 0.39869854, "learning_rate": 5.276e-05, "elapsed_time_per_iteration": 4.85219216, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 51s", "remaining_time": "8h 19m 21s", "loss_scale": 1.0, "consumed_samples": 1681408, "global_step/max_steps": "6568/12700"}
{"lm loss": 2.09185028, "grad_norm": 0.39023751, "learning_rate": 5.274e-05, "elapsed_time_per_iteration": 4.9236052, "memory(GiB)": 28.98, "elapsed_time": "8h 54m 56s", "remaining_time": "8h 19m 16s", "loss_scale": 1.0, "consumed_samples": 1681664, "global_step/max_steps": "6569/12700"}
{"lm loss": 2.1077292, "grad_norm": 0.37957591, "learning_rate": 5.273e-05, "elapsed_time_per_iteration": 4.83354402, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 1s", "remaining_time": "8h 19m 11s", "loss_scale": 1.0, "consumed_samples": 1681920, "global_step/max_steps": "6570/12700"}
{"lm loss": 2.06264496, "grad_norm": 0.39799732, "learning_rate": 5.272e-05, "elapsed_time_per_iteration": 4.96271873, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 6s", "remaining_time": "8h 19m 6s", "loss_scale": 1.0, "consumed_samples": 1682176, "global_step/max_steps": "6571/12700"}
{"lm loss": 2.07457685, "grad_norm": 0.43028998, "learning_rate": 5.271e-05, "elapsed_time_per_iteration": 4.94143224, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 11s", "remaining_time": "8h 19m 1s", "loss_scale": 1.0, "consumed_samples": 1682432, "global_step/max_steps": "6572/12700"}
{"lm loss": 2.08441758, "grad_norm": 0.37465116, "learning_rate": 5.269e-05, "elapsed_time_per_iteration": 5.05895519, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 16s", "remaining_time": "8h 18m 57s", "loss_scale": 1.0, "consumed_samples": 1682688, "global_step/max_steps": "6573/12700"}
{"lm loss": 2.07448244, "grad_norm": 0.40483826, "learning_rate": 5.268e-05, "elapsed_time_per_iteration": 4.90363097, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 21s", "remaining_time": "8h 18m 52s", "loss_scale": 1.0, "consumed_samples": 1682944, "global_step/max_steps": "6574/12700"}
{"lm loss": 2.07778096, "grad_norm": 0.35084742, "learning_rate": 5.267e-05, "elapsed_time_per_iteration": 4.78266835, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 25s", "remaining_time": "8h 18m 47s", "loss_scale": 1.0, "consumed_samples": 1683200, "global_step/max_steps": "6575/12700"}
{"lm loss": 2.1407373, "grad_norm": 0.40196076, "learning_rate": 5.266e-05, "elapsed_time_per_iteration": 4.84884501, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 30s", "remaining_time": "8h 18m 42s", "loss_scale": 1.0, "consumed_samples": 1683456, "global_step/max_steps": "6576/12700"}
{"lm loss": 2.08311439, "grad_norm": 0.34073058, "learning_rate": 5.264e-05, "elapsed_time_per_iteration": 5.02564406, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 35s", "remaining_time": "8h 18m 37s", "loss_scale": 1.0, "consumed_samples": 1683712, "global_step/max_steps": "6577/12700"}
{"lm loss": 2.10332775, "grad_norm": 0.3943623, "learning_rate": 5.263e-05, "elapsed_time_per_iteration": 4.88147902, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 40s", "remaining_time": "8h 18m 32s", "loss_scale": 1.0, "consumed_samples": 1683968, "global_step/max_steps": "6578/12700"}
{"lm loss": 2.05729246, "grad_norm": 0.35724005, "learning_rate": 5.262e-05, "elapsed_time_per_iteration": 4.80751252, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 45s", "remaining_time": "8h 18m 27s", "loss_scale": 1.0, "consumed_samples": 1684224, "global_step/max_steps": "6579/12700"}
{"lm loss": 2.09163809, "grad_norm": 0.3732543, "learning_rate": 5.26e-05, "elapsed_time_per_iteration": 4.90301085, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 50s", "remaining_time": "8h 18m 22s", "loss_scale": 1.0, "consumed_samples": 1684480, "global_step/max_steps": "6580/12700"}
{"lm loss": 2.14247179, "grad_norm": 0.36776412, "learning_rate": 5.259e-05, "elapsed_time_per_iteration": 4.9402318, "memory(GiB)": 28.98, "elapsed_time": "8h 55m 55s", "remaining_time": "8h 18m 17s", "loss_scale": 1.0, "consumed_samples": 1684736, "global_step/max_steps": "6581/12700"}
{"lm loss": 2.08506393, "grad_norm": 0.38374671, "learning_rate": 5.258e-05, "elapsed_time_per_iteration": 4.85686445, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 0s", "remaining_time": "8h 18m 13s", "loss_scale": 1.0, "consumed_samples": 1684992, "global_step/max_steps": "6582/12700"}
{"lm loss": 2.09042954, "grad_norm": 0.37154657, "learning_rate": 5.257e-05, "elapsed_time_per_iteration": 4.79393387, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 4s", "remaining_time": "8h 18m 8s", "loss_scale": 1.0, "consumed_samples": 1685248, "global_step/max_steps": "6583/12700"}
{"lm loss": 2.06828928, "grad_norm": 0.36058813, "learning_rate": 5.255e-05, "elapsed_time_per_iteration": 4.79897141, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 9s", "remaining_time": "8h 18m 3s", "loss_scale": 1.0, "consumed_samples": 1685504, "global_step/max_steps": "6584/12700"}
{"lm loss": 2.10310888, "grad_norm": 0.35278344, "learning_rate": 5.254e-05, "elapsed_time_per_iteration": 4.82501435, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 14s", "remaining_time": "8h 17m 58s", "loss_scale": 1.0, "consumed_samples": 1685760, "global_step/max_steps": "6585/12700"}
{"lm loss": 2.11706614, "grad_norm": 0.37962902, "learning_rate": 5.253e-05, "elapsed_time_per_iteration": 4.79748464, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 19s", "remaining_time": "8h 17m 53s", "loss_scale": 1.0, "consumed_samples": 1686016, "global_step/max_steps": "6586/12700"}
{"lm loss": 2.08929014, "grad_norm": 0.36222196, "learning_rate": 5.252e-05, "elapsed_time_per_iteration": 4.86597157, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 24s", "remaining_time": "8h 17m 48s", "loss_scale": 1.0, "consumed_samples": 1686272, "global_step/max_steps": "6587/12700"}
{"lm loss": 2.12812495, "grad_norm": 0.35926765, "learning_rate": 5.25e-05, "elapsed_time_per_iteration": 4.88944149, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 29s", "remaining_time": "8h 17m 43s", "loss_scale": 1.0, "consumed_samples": 1686528, "global_step/max_steps": "6588/12700"}
{"lm loss": 2.09281611, "grad_norm": 0.34400371, "learning_rate": 5.249e-05, "elapsed_time_per_iteration": 4.86307597, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 34s", "remaining_time": "8h 17m 38s", "loss_scale": 1.0, "consumed_samples": 1686784, "global_step/max_steps": "6589/12700"}
{"lm loss": 2.05639315, "grad_norm": 0.37616822, "learning_rate": 5.248e-05, "elapsed_time_per_iteration": 4.99930024, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 39s", "remaining_time": "8h 17m 33s", "loss_scale": 1.0, "consumed_samples": 1687040, "global_step/max_steps": "6590/12700"}
{"lm loss": 2.08054996, "grad_norm": 0.33020234, "learning_rate": 5.247e-05, "elapsed_time_per_iteration": 4.93589568, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 43s", "remaining_time": "8h 17m 28s", "loss_scale": 1.0, "consumed_samples": 1687296, "global_step/max_steps": "6591/12700"}
{"lm loss": 2.08117652, "grad_norm": 0.38966042, "learning_rate": 5.245e-05, "elapsed_time_per_iteration": 4.80957437, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 48s", "remaining_time": "8h 17m 23s", "loss_scale": 1.0, "consumed_samples": 1687552, "global_step/max_steps": "6592/12700"}
{"lm loss": 2.09583306, "grad_norm": 0.37194043, "learning_rate": 5.244e-05, "elapsed_time_per_iteration": 4.84504199, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 53s", "remaining_time": "8h 17m 19s", "loss_scale": 1.0, "consumed_samples": 1687808, "global_step/max_steps": "6593/12700"}
{"lm loss": 2.08008814, "grad_norm": 0.35722461, "learning_rate": 5.243e-05, "elapsed_time_per_iteration": 4.82016563, "memory(GiB)": 28.98, "elapsed_time": "8h 56m 58s", "remaining_time": "8h 17m 14s", "loss_scale": 1.0, "consumed_samples": 1688064, "global_step/max_steps": "6594/12700"}
{"lm loss": 2.08815312, "grad_norm": 0.38172069, "learning_rate": 5.242e-05, "elapsed_time_per_iteration": 4.83560395, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 3s", "remaining_time": "8h 17m 9s", "loss_scale": 1.0, "consumed_samples": 1688320, "global_step/max_steps": "6595/12700"}
{"lm loss": 2.08559632, "grad_norm": 0.35356215, "learning_rate": 5.24e-05, "elapsed_time_per_iteration": 4.85176492, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 8s", "remaining_time": "8h 17m 4s", "loss_scale": 1.0, "consumed_samples": 1688576, "global_step/max_steps": "6596/12700"}
{"lm loss": 2.08785176, "grad_norm": 0.38632157, "learning_rate": 5.239e-05, "elapsed_time_per_iteration": 4.87298036, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 13s", "remaining_time": "8h 16m 59s", "loss_scale": 1.0, "consumed_samples": 1688832, "global_step/max_steps": "6597/12700"}
{"lm loss": 2.09125638, "grad_norm": 0.36643156, "learning_rate": 5.238e-05, "elapsed_time_per_iteration": 4.87517738, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 17s", "remaining_time": "8h 16m 54s", "loss_scale": 1.0, "consumed_samples": 1689088, "global_step/max_steps": "6598/12700"}
{"lm loss": 2.08304763, "grad_norm": 0.36660269, "learning_rate": 5.237e-05, "elapsed_time_per_iteration": 4.93448353, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 22s", "remaining_time": "8h 16m 49s", "loss_scale": 1.0, "consumed_samples": 1689344, "global_step/max_steps": "6599/12700"}
{"lm loss": 2.09285712, "grad_norm": 0.38683355, "learning_rate": 5.235e-05, "elapsed_time_per_iteration": 4.9464457, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 27s", "remaining_time": "8h 16m 44s", "loss_scale": 1.0, "consumed_samples": 1689600, "global_step/max_steps": "6600/12700"}
{"lm loss": 2.10933375, "grad_norm": 0.397926, "learning_rate": 5.234e-05, "elapsed_time_per_iteration": 4.85461807, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 32s", "remaining_time": "8h 16m 39s", "loss_scale": 1.0, "consumed_samples": 1689856, "global_step/max_steps": "6601/12700"}
{"lm loss": 2.07001829, "grad_norm": 0.3671906, "learning_rate": 5.233e-05, "elapsed_time_per_iteration": 4.92375231, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 37s", "remaining_time": "8h 16m 34s", "loss_scale": 1.0, "consumed_samples": 1690112, "global_step/max_steps": "6602/12700"}
{"lm loss": 2.08070874, "grad_norm": 0.36078885, "learning_rate": 5.231e-05, "elapsed_time_per_iteration": 4.83798885, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 42s", "remaining_time": "8h 16m 30s", "loss_scale": 1.0, "consumed_samples": 1690368, "global_step/max_steps": "6603/12700"}
{"lm loss": 2.09853435, "grad_norm": 0.3808929, "learning_rate": 5.23e-05, "elapsed_time_per_iteration": 4.81422877, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 47s", "remaining_time": "8h 16m 25s", "loss_scale": 1.0, "consumed_samples": 1690624, "global_step/max_steps": "6604/12700"}
{"lm loss": 2.08848906, "grad_norm": 0.36405408, "learning_rate": 5.229e-05, "elapsed_time_per_iteration": 4.86051202, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 52s", "remaining_time": "8h 16m 20s", "loss_scale": 1.0, "consumed_samples": 1690880, "global_step/max_steps": "6605/12700"}
{"lm loss": 2.0971806, "grad_norm": 0.37389472, "learning_rate": 5.228e-05, "elapsed_time_per_iteration": 5.05946517, "memory(GiB)": 28.98, "elapsed_time": "8h 57m 57s", "remaining_time": "8h 16m 15s", "loss_scale": 1.0, "consumed_samples": 1691136, "global_step/max_steps": "6606/12700"}
{"lm loss": 2.10183454, "grad_norm": 0.36432415, "learning_rate": 5.226e-05, "elapsed_time_per_iteration": 4.88475418, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 2s", "remaining_time": "8h 16m 10s", "loss_scale": 1.0, "consumed_samples": 1691392, "global_step/max_steps": "6607/12700"}
{"lm loss": 2.10080051, "grad_norm": 0.36786193, "learning_rate": 5.225e-05, "elapsed_time_per_iteration": 4.81786656, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 6s", "remaining_time": "8h 16m 5s", "loss_scale": 1.0, "consumed_samples": 1691648, "global_step/max_steps": "6608/12700"}
{"lm loss": 2.10309839, "grad_norm": 0.38879764, "learning_rate": 5.224e-05, "elapsed_time_per_iteration": 4.92688632, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 11s", "remaining_time": "8h 16m 0s", "loss_scale": 1.0, "consumed_samples": 1691904, "global_step/max_steps": "6609/12700"}
{"lm loss": 2.06462741, "grad_norm": 0.33734858, "learning_rate": 5.223e-05, "elapsed_time_per_iteration": 5.1351614, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 16s", "remaining_time": "8h 15m 56s", "loss_scale": 1.0, "consumed_samples": 1692160, "global_step/max_steps": "6610/12700"}
{"lm loss": 2.05998063, "grad_norm": 0.37167895, "learning_rate": 5.221e-05, "elapsed_time_per_iteration": 4.99479628, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 21s", "remaining_time": "8h 15m 51s", "loss_scale": 1.0, "consumed_samples": 1692416, "global_step/max_steps": "6611/12700"}
{"lm loss": 2.10192513, "grad_norm": 0.35649127, "learning_rate": 5.22e-05, "elapsed_time_per_iteration": 4.83080125, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 26s", "remaining_time": "8h 15m 46s", "loss_scale": 1.0, "consumed_samples": 1692672, "global_step/max_steps": "6612/12700"}
{"lm loss": 2.07704186, "grad_norm": 0.38590381, "learning_rate": 5.219e-05, "elapsed_time_per_iteration": 4.89902425, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 31s", "remaining_time": "8h 15m 41s", "loss_scale": 1.0, "consumed_samples": 1692928, "global_step/max_steps": "6613/12700"}
{"lm loss": 2.0705483, "grad_norm": 0.36343539, "learning_rate": 5.218e-05, "elapsed_time_per_iteration": 4.89010096, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 36s", "remaining_time": "8h 15m 36s", "loss_scale": 1.0, "consumed_samples": 1693184, "global_step/max_steps": "6614/12700"}
{"lm loss": 2.11018252, "grad_norm": 0.35647431, "learning_rate": 5.216e-05, "elapsed_time_per_iteration": 4.77999616, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 41s", "remaining_time": "8h 15m 31s", "loss_scale": 1.0, "consumed_samples": 1693440, "global_step/max_steps": "6615/12700"}
{"lm loss": 2.11574721, "grad_norm": 0.38448164, "learning_rate": 5.215e-05, "elapsed_time_per_iteration": 4.90506434, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 46s", "remaining_time": "8h 15m 26s", "loss_scale": 1.0, "consumed_samples": 1693696, "global_step/max_steps": "6616/12700"}
{"lm loss": 2.09111118, "grad_norm": 0.36239672, "learning_rate": 5.214e-05, "elapsed_time_per_iteration": 4.87174439, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 51s", "remaining_time": "8h 15m 21s", "loss_scale": 1.0, "consumed_samples": 1693952, "global_step/max_steps": "6617/12700"}
{"lm loss": 2.087116, "grad_norm": 0.36151817, "learning_rate": 5.213e-05, "elapsed_time_per_iteration": 4.94724679, "memory(GiB)": 28.98, "elapsed_time": "8h 58m 55s", "remaining_time": "8h 15m 17s", "loss_scale": 1.0, "consumed_samples": 1694208, "global_step/max_steps": "6618/12700"}
{"lm loss": 2.09173965, "grad_norm": 0.37144655, "learning_rate": 5.211e-05, "elapsed_time_per_iteration": 4.93503046, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 0s", "remaining_time": "8h 15m 12s", "loss_scale": 1.0, "consumed_samples": 1694464, "global_step/max_steps": "6619/12700"}
{"lm loss": 2.0897274, "grad_norm": 0.37071073, "learning_rate": 5.21e-05, "elapsed_time_per_iteration": 4.96350598, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 5s", "remaining_time": "8h 15m 7s", "loss_scale": 1.0, "consumed_samples": 1694720, "global_step/max_steps": "6620/12700"}
{"lm loss": 2.10774994, "grad_norm": 0.36682278, "learning_rate": 5.209e-05, "elapsed_time_per_iteration": 4.9122963, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 10s", "remaining_time": "8h 15m 2s", "loss_scale": 1.0, "consumed_samples": 1694976, "global_step/max_steps": "6621/12700"}
{"lm loss": 2.11685729, "grad_norm": 0.35039172, "learning_rate": 5.207e-05, "elapsed_time_per_iteration": 4.8704977, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 15s", "remaining_time": "8h 14m 57s", "loss_scale": 1.0, "consumed_samples": 1695232, "global_step/max_steps": "6622/12700"}
{"lm loss": 2.09011507, "grad_norm": 0.36661872, "learning_rate": 5.206e-05, "elapsed_time_per_iteration": 4.90136051, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 20s", "remaining_time": "8h 14m 52s", "loss_scale": 1.0, "consumed_samples": 1695488, "global_step/max_steps": "6623/12700"}
{"lm loss": 2.09314847, "grad_norm": 0.36203364, "learning_rate": 5.205e-05, "elapsed_time_per_iteration": 4.92405128, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 25s", "remaining_time": "8h 14m 47s", "loss_scale": 1.0, "consumed_samples": 1695744, "global_step/max_steps": "6624/12700"}
{"lm loss": 2.09588718, "grad_norm": 0.36384308, "learning_rate": 5.204e-05, "elapsed_time_per_iteration": 4.85994935, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 30s", "remaining_time": "8h 14m 43s", "loss_scale": 1.0, "consumed_samples": 1696000, "global_step/max_steps": "6625/12700"}
{"lm loss": 2.08226323, "grad_norm": 0.34695154, "learning_rate": 5.202e-05, "elapsed_time_per_iteration": 4.94693565, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 35s", "remaining_time": "8h 14m 38s", "loss_scale": 1.0, "consumed_samples": 1696256, "global_step/max_steps": "6626/12700"}
{"lm loss": 2.0610106, "grad_norm": 0.37079024, "learning_rate": 5.201e-05, "elapsed_time_per_iteration": 4.93780804, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 40s", "remaining_time": "8h 14m 33s", "loss_scale": 1.0, "consumed_samples": 1696512, "global_step/max_steps": "6627/12700"}
{"lm loss": 2.08072138, "grad_norm": 0.3526257, "learning_rate": 5.2e-05, "elapsed_time_per_iteration": 4.8695612, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 45s", "remaining_time": "8h 14m 28s", "loss_scale": 1.0, "consumed_samples": 1696768, "global_step/max_steps": "6628/12700"}
{"lm loss": 2.06941915, "grad_norm": 0.36885247, "learning_rate": 5.199e-05, "elapsed_time_per_iteration": 4.89650679, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 50s", "remaining_time": "8h 14m 23s", "loss_scale": 1.0, "consumed_samples": 1697024, "global_step/max_steps": "6629/12700"}
{"lm loss": 2.08230805, "grad_norm": 0.35591573, "learning_rate": 5.197e-05, "elapsed_time_per_iteration": 4.89233756, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 54s", "remaining_time": "8h 14m 18s", "loss_scale": 1.0, "consumed_samples": 1697280, "global_step/max_steps": "6630/12700"}
{"lm loss": 2.06290436, "grad_norm": 0.35915178, "learning_rate": 5.196e-05, "elapsed_time_per_iteration": 5.00651622, "memory(GiB)": 28.98, "elapsed_time": "8h 59m 59s", "remaining_time": "8h 14m 13s", "loss_scale": 1.0, "consumed_samples": 1697536, "global_step/max_steps": "6631/12700"}
{"lm loss": 2.0900135, "grad_norm": 0.37259325, "learning_rate": 5.195e-05, "elapsed_time_per_iteration": 4.86239696, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 4s", "remaining_time": "8h 14m 9s", "loss_scale": 1.0, "consumed_samples": 1697792, "global_step/max_steps": "6632/12700"}
{"lm loss": 2.07343626, "grad_norm": 0.33868697, "learning_rate": 5.194e-05, "elapsed_time_per_iteration": 4.8951509, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 9s", "remaining_time": "8h 14m 4s", "loss_scale": 1.0, "consumed_samples": 1698048, "global_step/max_steps": "6633/12700"}
{"lm loss": 2.13686442, "grad_norm": 0.38026875, "learning_rate": 5.192e-05, "elapsed_time_per_iteration": 4.91573739, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 14s", "remaining_time": "8h 13m 59s", "loss_scale": 1.0, "consumed_samples": 1698304, "global_step/max_steps": "6634/12700"}
{"lm loss": 2.09147239, "grad_norm": 0.3402763, "learning_rate": 5.191e-05, "elapsed_time_per_iteration": 4.9202559, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 19s", "remaining_time": "8h 13m 54s", "loss_scale": 1.0, "consumed_samples": 1698560, "global_step/max_steps": "6635/12700"}
{"lm loss": 2.12255526, "grad_norm": 0.36828819, "learning_rate": 5.19e-05, "elapsed_time_per_iteration": 4.91226053, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 24s", "remaining_time": "8h 13m 49s", "loss_scale": 1.0, "consumed_samples": 1698816, "global_step/max_steps": "6636/12700"}
{"lm loss": 2.07129002, "grad_norm": 0.33983517, "learning_rate": 5.189e-05, "elapsed_time_per_iteration": 5.13178468, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 29s", "remaining_time": "8h 13m 44s", "loss_scale": 1.0, "consumed_samples": 1699072, "global_step/max_steps": "6637/12700"}
{"lm loss": 2.08711648, "grad_norm": 0.370157, "learning_rate": 5.187e-05, "elapsed_time_per_iteration": 4.99179935, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 34s", "remaining_time": "8h 13m 40s", "loss_scale": 1.0, "consumed_samples": 1699328, "global_step/max_steps": "6638/12700"}
{"lm loss": 2.07100487, "grad_norm": 0.35347602, "learning_rate": 5.186e-05, "elapsed_time_per_iteration": 4.93280411, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 39s", "remaining_time": "8h 13m 35s", "loss_scale": 1.0, "consumed_samples": 1699584, "global_step/max_steps": "6639/12700"}
{"lm loss": 2.10467863, "grad_norm": 0.35547656, "learning_rate": 5.185e-05, "elapsed_time_per_iteration": 4.89774561, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 44s", "remaining_time": "8h 13m 30s", "loss_scale": 1.0, "consumed_samples": 1699840, "global_step/max_steps": "6640/12700"}
{"lm loss": 2.1189065, "grad_norm": 0.35752293, "learning_rate": 5.183e-05, "elapsed_time_per_iteration": 4.85865903, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 49s", "remaining_time": "8h 13m 25s", "loss_scale": 1.0, "consumed_samples": 1700096, "global_step/max_steps": "6641/12700"}
{"lm loss": 2.08982921, "grad_norm": 0.38214529, "learning_rate": 5.182e-05, "elapsed_time_per_iteration": 4.87515855, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 54s", "remaining_time": "8h 13m 20s", "loss_scale": 1.0, "consumed_samples": 1700352, "global_step/max_steps": "6642/12700"}
{"lm loss": 2.09484625, "grad_norm": 0.36049396, "learning_rate": 5.181e-05, "elapsed_time_per_iteration": 4.86549902, "memory(GiB)": 28.98, "elapsed_time": "9h 0m 58s", "remaining_time": "8h 13m 15s", "loss_scale": 1.0, "consumed_samples": 1700608, "global_step/max_steps": "6643/12700"}
{"lm loss": 2.06342196, "grad_norm": 0.35211083, "learning_rate": 5.18e-05, "elapsed_time_per_iteration": 4.77361035, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 3s", "remaining_time": "8h 13m 10s", "loss_scale": 1.0, "consumed_samples": 1700864, "global_step/max_steps": "6644/12700"}
{"lm loss": 2.08619809, "grad_norm": 0.34884468, "learning_rate": 5.178e-05, "elapsed_time_per_iteration": 4.94296503, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 8s", "remaining_time": "8h 13m 5s", "loss_scale": 1.0, "consumed_samples": 1701120, "global_step/max_steps": "6645/12700"}
{"lm loss": 2.08568549, "grad_norm": 0.38565654, "learning_rate": 5.177e-05, "elapsed_time_per_iteration": 4.79245186, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 13s", "remaining_time": "8h 13m 0s", "loss_scale": 1.0, "consumed_samples": 1701376, "global_step/max_steps": "6646/12700"}
{"lm loss": 2.10094762, "grad_norm": 0.36859852, "learning_rate": 5.176e-05, "elapsed_time_per_iteration": 4.83477426, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 18s", "remaining_time": "8h 12m 55s", "loss_scale": 1.0, "consumed_samples": 1701632, "global_step/max_steps": "6647/12700"}
{"lm loss": 2.07049251, "grad_norm": 0.37316009, "learning_rate": 5.175e-05, "elapsed_time_per_iteration": 4.90762687, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 23s", "remaining_time": "8h 12m 51s", "loss_scale": 1.0, "consumed_samples": 1701888, "global_step/max_steps": "6648/12700"}
{"lm loss": 2.08890367, "grad_norm": 0.34853265, "learning_rate": 5.173e-05, "elapsed_time_per_iteration": 4.87916446, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 28s", "remaining_time": "8h 12m 46s", "loss_scale": 1.0, "consumed_samples": 1702144, "global_step/max_steps": "6649/12700"}
{"lm loss": 2.12392449, "grad_norm": 0.38238358, "learning_rate": 5.172e-05, "elapsed_time_per_iteration": 4.92855, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 33s", "remaining_time": "8h 12m 41s", "loss_scale": 1.0, "consumed_samples": 1702400, "global_step/max_steps": "6650/12700"}
{"lm loss": 2.09973192, "grad_norm": 0.35312465, "learning_rate": 5.171e-05, "elapsed_time_per_iteration": 4.86606145, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 37s", "remaining_time": "8h 12m 36s", "loss_scale": 1.0, "consumed_samples": 1702656, "global_step/max_steps": "6651/12700"}
{"lm loss": 2.08597755, "grad_norm": 0.37622157, "learning_rate": 5.17e-05, "elapsed_time_per_iteration": 4.81699038, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 42s", "remaining_time": "8h 12m 31s", "loss_scale": 1.0, "consumed_samples": 1702912, "global_step/max_steps": "6652/12700"}
{"lm loss": 2.07335019, "grad_norm": 0.36643189, "learning_rate": 5.168e-05, "elapsed_time_per_iteration": 4.78789282, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 47s", "remaining_time": "8h 12m 26s", "loss_scale": 1.0, "consumed_samples": 1703168, "global_step/max_steps": "6653/12700"}
{"lm loss": 2.08786869, "grad_norm": 0.36084524, "learning_rate": 5.167e-05, "elapsed_time_per_iteration": 4.76918125, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 52s", "remaining_time": "8h 12m 21s", "loss_scale": 1.0, "consumed_samples": 1703424, "global_step/max_steps": "6654/12700"}
{"lm loss": 2.09664726, "grad_norm": 0.36588439, "learning_rate": 5.166e-05, "elapsed_time_per_iteration": 4.76349235, "memory(GiB)": 28.98, "elapsed_time": "9h 1m 57s", "remaining_time": "8h 12m 16s", "loss_scale": 1.0, "consumed_samples": 1703680, "global_step/max_steps": "6655/12700"}
{"lm loss": 2.0596559, "grad_norm": 0.38111749, "learning_rate": 5.165e-05, "elapsed_time_per_iteration": 4.8685348, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 1s", "remaining_time": "8h 12m 11s", "loss_scale": 1.0, "consumed_samples": 1703936, "global_step/max_steps": "6656/12700"}
{"lm loss": 2.08661842, "grad_norm": 0.35830393, "learning_rate": 5.163e-05, "elapsed_time_per_iteration": 4.82915616, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 6s", "remaining_time": "8h 12m 6s", "loss_scale": 1.0, "consumed_samples": 1704192, "global_step/max_steps": "6657/12700"}
{"lm loss": 2.12339377, "grad_norm": 0.37736768, "learning_rate": 5.162e-05, "elapsed_time_per_iteration": 4.84129119, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 11s", "remaining_time": "8h 12m 1s", "loss_scale": 1.0, "consumed_samples": 1704448, "global_step/max_steps": "6658/12700"}
{"lm loss": 2.0946393, "grad_norm": 0.35117844, "learning_rate": 5.161e-05, "elapsed_time_per_iteration": 5.00832701, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 16s", "remaining_time": "8h 11m 56s", "loss_scale": 1.0, "consumed_samples": 1704704, "global_step/max_steps": "6659/12700"}
{"lm loss": 2.13506293, "grad_norm": 0.3826904, "learning_rate": 5.159e-05, "elapsed_time_per_iteration": 4.88320518, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 21s", "remaining_time": "8h 11m 52s", "loss_scale": 1.0, "consumed_samples": 1704960, "global_step/max_steps": "6660/12700"}
{"lm loss": 2.08916616, "grad_norm": 0.34529811, "learning_rate": 5.158e-05, "elapsed_time_per_iteration": 4.88531923, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 26s", "remaining_time": "8h 11m 47s", "loss_scale": 1.0, "consumed_samples": 1705216, "global_step/max_steps": "6661/12700"}
{"lm loss": 2.10516357, "grad_norm": 0.388145, "learning_rate": 5.157e-05, "elapsed_time_per_iteration": 4.77257919, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 31s", "remaining_time": "8h 11m 42s", "loss_scale": 1.0, "consumed_samples": 1705472, "global_step/max_steps": "6662/12700"}
{"lm loss": 2.07559419, "grad_norm": 0.36114025, "learning_rate": 5.156e-05, "elapsed_time_per_iteration": 4.90296102, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 36s", "remaining_time": "8h 11m 37s", "loss_scale": 1.0, "consumed_samples": 1705728, "global_step/max_steps": "6663/12700"}
{"lm loss": 2.07977319, "grad_norm": 0.3940227, "learning_rate": 5.154e-05, "elapsed_time_per_iteration": 4.92226577, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 40s", "remaining_time": "8h 11m 32s", "loss_scale": 1.0, "consumed_samples": 1705984, "global_step/max_steps": "6664/12700"}
{"lm loss": 2.13366389, "grad_norm": 0.39131975, "learning_rate": 5.153e-05, "elapsed_time_per_iteration": 4.8360877, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 45s", "remaining_time": "8h 11m 27s", "loss_scale": 1.0, "consumed_samples": 1706240, "global_step/max_steps": "6665/12700"}
{"lm loss": 2.08470821, "grad_norm": 0.36451837, "learning_rate": 5.152e-05, "elapsed_time_per_iteration": 4.91627622, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 50s", "remaining_time": "8h 11m 22s", "loss_scale": 1.0, "consumed_samples": 1706496, "global_step/max_steps": "6666/12700"}
{"lm loss": 2.07149553, "grad_norm": 0.37921628, "learning_rate": 5.151e-05, "elapsed_time_per_iteration": 4.99943352, "memory(GiB)": 28.98, "elapsed_time": "9h 2m 55s", "remaining_time": "8h 11m 17s", "loss_scale": 1.0, "consumed_samples": 1706752, "global_step/max_steps": "6667/12700"}
{"lm loss": 2.07521605, "grad_norm": 0.37069479, "learning_rate": 5.149e-05, "elapsed_time_per_iteration": 4.97165871, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 0s", "remaining_time": "8h 11m 13s", "loss_scale": 1.0, "consumed_samples": 1707008, "global_step/max_steps": "6668/12700"}
{"lm loss": 2.08285284, "grad_norm": 0.36130753, "learning_rate": 5.148e-05, "elapsed_time_per_iteration": 4.99708962, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 5s", "remaining_time": "8h 11m 8s", "loss_scale": 1.0, "consumed_samples": 1707264, "global_step/max_steps": "6669/12700"}
{"lm loss": 2.0882206, "grad_norm": 0.36911497, "learning_rate": 5.147e-05, "elapsed_time_per_iteration": 4.88677669, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 10s", "remaining_time": "8h 11m 3s", "loss_scale": 1.0, "consumed_samples": 1707520, "global_step/max_steps": "6670/12700"}
{"lm loss": 2.09146547, "grad_norm": 0.39121866, "learning_rate": 5.146e-05, "elapsed_time_per_iteration": 4.78999639, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 15s", "remaining_time": "8h 10m 58s", "loss_scale": 1.0, "consumed_samples": 1707776, "global_step/max_steps": "6671/12700"}
{"lm loss": 2.04965925, "grad_norm": 0.37487486, "learning_rate": 5.144e-05, "elapsed_time_per_iteration": 4.90074062, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 20s", "remaining_time": "8h 10m 53s", "loss_scale": 1.0, "consumed_samples": 1708032, "global_step/max_steps": "6672/12700"}
{"lm loss": 2.11576343, "grad_norm": 0.38550693, "learning_rate": 5.143e-05, "elapsed_time_per_iteration": 4.88057661, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 25s", "remaining_time": "8h 10m 48s", "loss_scale": 1.0, "consumed_samples": 1708288, "global_step/max_steps": "6673/12700"}
{"lm loss": 2.12200499, "grad_norm": 0.34614229, "learning_rate": 5.142e-05, "elapsed_time_per_iteration": 4.81973982, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 29s", "remaining_time": "8h 10m 43s", "loss_scale": 1.0, "consumed_samples": 1708544, "global_step/max_steps": "6674/12700"}
{"lm loss": 2.06432915, "grad_norm": 0.39962167, "learning_rate": 5.141e-05, "elapsed_time_per_iteration": 4.9262085, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 34s", "remaining_time": "8h 10m 38s", "loss_scale": 1.0, "consumed_samples": 1708800, "global_step/max_steps": "6675/12700"}
{"lm loss": 2.08427739, "grad_norm": 0.39578238, "learning_rate": 5.139e-05, "elapsed_time_per_iteration": 4.87102747, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 39s", "remaining_time": "8h 10m 33s", "loss_scale": 1.0, "consumed_samples": 1709056, "global_step/max_steps": "6676/12700"}
{"lm loss": 2.09987545, "grad_norm": 0.35391465, "learning_rate": 5.138e-05, "elapsed_time_per_iteration": 4.83126068, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 44s", "remaining_time": "8h 10m 29s", "loss_scale": 1.0, "consumed_samples": 1709312, "global_step/max_steps": "6677/12700"}
{"lm loss": 2.07513213, "grad_norm": 0.35914713, "learning_rate": 5.137e-05, "elapsed_time_per_iteration": 4.96474886, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 49s", "remaining_time": "8h 10m 24s", "loss_scale": 1.0, "consumed_samples": 1709568, "global_step/max_steps": "6678/12700"}
{"lm loss": 2.07996345, "grad_norm": 0.37101668, "learning_rate": 5.135e-05, "elapsed_time_per_iteration": 4.86234903, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 54s", "remaining_time": "8h 10m 19s", "loss_scale": 1.0, "consumed_samples": 1709824, "global_step/max_steps": "6679/12700"}
{"lm loss": 2.10047317, "grad_norm": 0.34197327, "learning_rate": 5.134e-05, "elapsed_time_per_iteration": 4.94360924, "memory(GiB)": 28.98, "elapsed_time": "9h 3m 59s", "remaining_time": "8h 10m 14s", "loss_scale": 1.0, "consumed_samples": 1710080, "global_step/max_steps": "6680/12700"}
{"lm loss": 2.07680178, "grad_norm": 0.39847028, "learning_rate": 5.133e-05, "elapsed_time_per_iteration": 4.79383206, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 4s", "remaining_time": "8h 10m 9s", "loss_scale": 1.0, "consumed_samples": 1710336, "global_step/max_steps": "6681/12700"}
{"lm loss": 2.12535238, "grad_norm": 0.38379851, "learning_rate": 5.132e-05, "elapsed_time_per_iteration": 4.86928773, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 9s", "remaining_time": "8h 10m 4s", "loss_scale": 1.0, "consumed_samples": 1710592, "global_step/max_steps": "6682/12700"}
{"lm loss": 2.05025291, "grad_norm": 0.37152568, "learning_rate": 5.13e-05, "elapsed_time_per_iteration": 4.79776716, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 13s", "remaining_time": "8h 9m 59s", "loss_scale": 1.0, "consumed_samples": 1710848, "global_step/max_steps": "6683/12700"}
{"lm loss": 2.09033418, "grad_norm": 0.34727436, "learning_rate": 5.129e-05, "elapsed_time_per_iteration": 4.96577692, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 18s", "remaining_time": "8h 9m 54s", "loss_scale": 1.0, "consumed_samples": 1711104, "global_step/max_steps": "6684/12700"}
{"lm loss": 2.0937202, "grad_norm": 0.37043005, "learning_rate": 5.128e-05, "elapsed_time_per_iteration": 4.95036292, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 23s", "remaining_time": "8h 9m 50s", "loss_scale": 1.0, "consumed_samples": 1711360, "global_step/max_steps": "6685/12700"}
{"lm loss": 2.11408448, "grad_norm": 0.38934612, "learning_rate": 5.127e-05, "elapsed_time_per_iteration": 4.91173029, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 28s", "remaining_time": "8h 9m 45s", "loss_scale": 1.0, "consumed_samples": 1711616, "global_step/max_steps": "6686/12700"}
{"lm loss": 2.09400082, "grad_norm": 0.3415983, "learning_rate": 5.125e-05, "elapsed_time_per_iteration": 5.0547235, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 33s", "remaining_time": "8h 9m 40s", "loss_scale": 1.0, "consumed_samples": 1711872, "global_step/max_steps": "6687/12700"}
{"lm loss": 2.0982573, "grad_norm": 0.38412791, "learning_rate": 5.124e-05, "elapsed_time_per_iteration": 4.83063579, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 38s", "remaining_time": "8h 9m 35s", "loss_scale": 1.0, "consumed_samples": 1712128, "global_step/max_steps": "6688/12700"}
{"lm loss": 2.11877918, "grad_norm": 0.38533843, "learning_rate": 5.123e-05, "elapsed_time_per_iteration": 4.96523619, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 43s", "remaining_time": "8h 9m 30s", "loss_scale": 1.0, "consumed_samples": 1712384, "global_step/max_steps": "6689/12700"}
{"lm loss": 2.06025028, "grad_norm": 0.35294473, "learning_rate": 5.122e-05, "elapsed_time_per_iteration": 4.81826186, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 48s", "remaining_time": "8h 9m 25s", "loss_scale": 1.0, "consumed_samples": 1712640, "global_step/max_steps": "6690/12700"}
{"lm loss": 2.08625102, "grad_norm": 0.37723085, "learning_rate": 5.12e-05, "elapsed_time_per_iteration": 4.88167334, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 53s", "remaining_time": "8h 9m 20s", "loss_scale": 1.0, "consumed_samples": 1712896, "global_step/max_steps": "6691/12700"}
{"lm loss": 2.07552004, "grad_norm": 0.34584895, "learning_rate": 5.119e-05, "elapsed_time_per_iteration": 4.98235893, "memory(GiB)": 28.98, "elapsed_time": "9h 4m 58s", "remaining_time": "8h 9m 16s", "loss_scale": 1.0, "consumed_samples": 1713152, "global_step/max_steps": "6692/12700"}
{"lm loss": 2.03475308, "grad_norm": 0.37067804, "learning_rate": 5.118e-05, "elapsed_time_per_iteration": 4.84179616, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 3s", "remaining_time": "8h 9m 11s", "loss_scale": 1.0, "consumed_samples": 1713408, "global_step/max_steps": "6693/12700"}
{"lm loss": 2.10698032, "grad_norm": 0.35031527, "learning_rate": 5.117e-05, "elapsed_time_per_iteration": 4.89724302, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 7s", "remaining_time": "8h 9m 6s", "loss_scale": 1.0, "consumed_samples": 1713664, "global_step/max_steps": "6694/12700"}
{"lm loss": 2.04255891, "grad_norm": 0.36316451, "learning_rate": 5.115e-05, "elapsed_time_per_iteration": 4.89205122, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 12s", "remaining_time": "8h 9m 1s", "loss_scale": 1.0, "consumed_samples": 1713920, "global_step/max_steps": "6695/12700"}
{"lm loss": 2.1013031, "grad_norm": 0.3681758, "learning_rate": 5.114e-05, "elapsed_time_per_iteration": 4.84732318, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 17s", "remaining_time": "8h 8m 56s", "loss_scale": 1.0, "consumed_samples": 1714176, "global_step/max_steps": "6696/12700"}
{"lm loss": 2.10537076, "grad_norm": 0.35937646, "learning_rate": 5.113e-05, "elapsed_time_per_iteration": 4.94422293, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 22s", "remaining_time": "8h 8m 51s", "loss_scale": 1.0, "consumed_samples": 1714432, "global_step/max_steps": "6697/12700"}
{"lm loss": 2.09314084, "grad_norm": 0.37493595, "learning_rate": 5.111e-05, "elapsed_time_per_iteration": 4.87500453, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 27s", "remaining_time": "8h 8m 46s", "loss_scale": 1.0, "consumed_samples": 1714688, "global_step/max_steps": "6698/12700"}
{"lm loss": 2.10795093, "grad_norm": 0.36099032, "learning_rate": 5.11e-05, "elapsed_time_per_iteration": 4.8601017, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 32s", "remaining_time": "8h 8m 41s", "loss_scale": 1.0, "consumed_samples": 1714944, "global_step/max_steps": "6699/12700"}
{"lm loss": 2.10488319, "grad_norm": 0.36181229, "learning_rate": 5.109e-05, "elapsed_time_per_iteration": 4.84400773, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 37s", "remaining_time": "8h 8m 36s", "loss_scale": 1.0, "consumed_samples": 1715200, "global_step/max_steps": "6700/12700"}
{"lm loss": 2.06070447, "grad_norm": 0.38077694, "learning_rate": 5.108e-05, "elapsed_time_per_iteration": 4.98905087, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 42s", "remaining_time": "8h 8m 32s", "loss_scale": 1.0, "consumed_samples": 1715456, "global_step/max_steps": "6701/12700"}
{"lm loss": 2.0850327, "grad_norm": 0.34778813, "learning_rate": 5.106e-05, "elapsed_time_per_iteration": 5.1211431, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 47s", "remaining_time": "8h 8m 27s", "loss_scale": 1.0, "consumed_samples": 1715712, "global_step/max_steps": "6702/12700"}
{"lm loss": 2.03551102, "grad_norm": 0.35693696, "learning_rate": 5.105e-05, "elapsed_time_per_iteration": 4.92023969, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 52s", "remaining_time": "8h 8m 22s", "loss_scale": 1.0, "consumed_samples": 1715968, "global_step/max_steps": "6703/12700"}
{"lm loss": 2.08015394, "grad_norm": 0.34607193, "learning_rate": 5.104e-05, "elapsed_time_per_iteration": 4.9599359, "memory(GiB)": 28.98, "elapsed_time": "9h 5m 57s", "remaining_time": "8h 8m 17s", "loss_scale": 1.0, "consumed_samples": 1716224, "global_step/max_steps": "6704/12700"}
{"lm loss": 2.0830915, "grad_norm": 0.37745902, "learning_rate": 5.103e-05, "elapsed_time_per_iteration": 5.0194993, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 2s", "remaining_time": "8h 8m 12s", "loss_scale": 1.0, "consumed_samples": 1716480, "global_step/max_steps": "6705/12700"}
{"lm loss": 2.07165146, "grad_norm": 0.38064143, "learning_rate": 5.101e-05, "elapsed_time_per_iteration": 4.87094355, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 7s", "remaining_time": "8h 8m 8s", "loss_scale": 1.0, "consumed_samples": 1716736, "global_step/max_steps": "6706/12700"}
{"lm loss": 2.10414243, "grad_norm": 0.34690669, "learning_rate": 5.1e-05, "elapsed_time_per_iteration": 4.88983655, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 11s", "remaining_time": "8h 8m 3s", "loss_scale": 1.0, "consumed_samples": 1716992, "global_step/max_steps": "6707/12700"}
{"lm loss": 2.07794809, "grad_norm": 0.33800477, "learning_rate": 5.099e-05, "elapsed_time_per_iteration": 4.92584658, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 16s", "remaining_time": "8h 7m 58s", "loss_scale": 1.0, "consumed_samples": 1717248, "global_step/max_steps": "6708/12700"}
{"lm loss": 2.06704211, "grad_norm": 0.37952539, "learning_rate": 5.098e-05, "elapsed_time_per_iteration": 4.83269072, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 21s", "remaining_time": "8h 7m 53s", "loss_scale": 1.0, "consumed_samples": 1717504, "global_step/max_steps": "6709/12700"}
{"lm loss": 2.09372306, "grad_norm": 0.36534935, "learning_rate": 5.096e-05, "elapsed_time_per_iteration": 5.11638546, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 26s", "remaining_time": "8h 7m 48s", "loss_scale": 1.0, "consumed_samples": 1717760, "global_step/max_steps": "6710/12700"}
{"lm loss": 2.09313202, "grad_norm": 0.37251747, "learning_rate": 5.095e-05, "elapsed_time_per_iteration": 4.84738493, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 31s", "remaining_time": "8h 7m 43s", "loss_scale": 1.0, "consumed_samples": 1718016, "global_step/max_steps": "6711/12700"}
{"lm loss": 2.11749721, "grad_norm": 0.37337038, "learning_rate": 5.094e-05, "elapsed_time_per_iteration": 4.87932229, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 36s", "remaining_time": "8h 7m 38s", "loss_scale": 1.0, "consumed_samples": 1718272, "global_step/max_steps": "6712/12700"}
{"lm loss": 2.12850261, "grad_norm": 0.34085763, "learning_rate": 5.093e-05, "elapsed_time_per_iteration": 4.87670827, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 41s", "remaining_time": "8h 7m 34s", "loss_scale": 1.0, "consumed_samples": 1718528, "global_step/max_steps": "6713/12700"}
{"lm loss": 2.07836509, "grad_norm": 0.3601017, "learning_rate": 5.091e-05, "elapsed_time_per_iteration": 4.8903501, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 46s", "remaining_time": "8h 7m 29s", "loss_scale": 1.0, "consumed_samples": 1718784, "global_step/max_steps": "6714/12700"}
{"lm loss": 2.08718157, "grad_norm": 0.34803918, "learning_rate": 5.09e-05, "elapsed_time_per_iteration": 4.82385278, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 51s", "remaining_time": "8h 7m 24s", "loss_scale": 1.0, "consumed_samples": 1719040, "global_step/max_steps": "6715/12700"}
{"lm loss": 2.0857594, "grad_norm": 0.35109106, "learning_rate": 5.089e-05, "elapsed_time_per_iteration": 4.87937617, "memory(GiB)": 28.98, "elapsed_time": "9h 6m 56s", "remaining_time": "8h 7m 19s", "loss_scale": 1.0, "consumed_samples": 1719296, "global_step/max_steps": "6716/12700"}
{"lm loss": 2.06986356, "grad_norm": 0.36971042, "learning_rate": 5.087e-05, "elapsed_time_per_iteration": 4.77198601, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 0s", "remaining_time": "8h 7m 14s", "loss_scale": 1.0, "consumed_samples": 1719552, "global_step/max_steps": "6717/12700"}
{"lm loss": 2.08450007, "grad_norm": 0.35830235, "learning_rate": 5.086e-05, "elapsed_time_per_iteration": 4.96626544, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 5s", "remaining_time": "8h 7m 9s", "loss_scale": 1.0, "consumed_samples": 1719808, "global_step/max_steps": "6718/12700"}
{"lm loss": 2.09110141, "grad_norm": 0.3345471, "learning_rate": 5.085e-05, "elapsed_time_per_iteration": 5.07443857, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 10s", "remaining_time": "8h 7m 4s", "loss_scale": 1.0, "consumed_samples": 1720064, "global_step/max_steps": "6719/12700"}
{"lm loss": 2.06617451, "grad_norm": 0.34264764, "learning_rate": 5.084e-05, "elapsed_time_per_iteration": 4.86029196, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 15s", "remaining_time": "8h 6m 59s", "loss_scale": 1.0, "consumed_samples": 1720320, "global_step/max_steps": "6720/12700"}
{"lm loss": 2.05270243, "grad_norm": 0.37450826, "learning_rate": 5.082e-05, "elapsed_time_per_iteration": 4.85465693, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 20s", "remaining_time": "8h 6m 54s", "loss_scale": 1.0, "consumed_samples": 1720576, "global_step/max_steps": "6721/12700"}
{"lm loss": 2.05771255, "grad_norm": 0.34133032, "learning_rate": 5.081e-05, "elapsed_time_per_iteration": 4.8054471, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 25s", "remaining_time": "8h 6m 49s", "loss_scale": 1.0, "consumed_samples": 1720832, "global_step/max_steps": "6722/12700"}
{"lm loss": 2.05090046, "grad_norm": 0.35532603, "learning_rate": 5.08e-05, "elapsed_time_per_iteration": 4.79310966, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 30s", "remaining_time": "8h 6m 45s", "loss_scale": 1.0, "consumed_samples": 1721088, "global_step/max_steps": "6723/12700"}
{"lm loss": 2.09341335, "grad_norm": 0.3686223, "learning_rate": 5.079e-05, "elapsed_time_per_iteration": 4.83863235, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 34s", "remaining_time": "8h 6m 40s", "loss_scale": 1.0, "consumed_samples": 1721344, "global_step/max_steps": "6724/12700"}
{"lm loss": 2.0888958, "grad_norm": 0.35257667, "learning_rate": 5.077e-05, "elapsed_time_per_iteration": 4.91243196, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 39s", "remaining_time": "8h 6m 35s", "loss_scale": 1.0, "consumed_samples": 1721600, "global_step/max_steps": "6725/12700"}
{"lm loss": 2.09464955, "grad_norm": 0.3600629, "learning_rate": 5.076e-05, "elapsed_time_per_iteration": 4.93050647, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 44s", "remaining_time": "8h 6m 30s", "loss_scale": 1.0, "consumed_samples": 1721856, "global_step/max_steps": "6726/12700"}
{"lm loss": 2.0776937, "grad_norm": 0.36901939, "learning_rate": 5.075e-05, "elapsed_time_per_iteration": 4.9942143, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 49s", "remaining_time": "8h 6m 25s", "loss_scale": 1.0, "consumed_samples": 1722112, "global_step/max_steps": "6727/12700"}
{"lm loss": 2.11068153, "grad_norm": 0.38855341, "learning_rate": 5.074e-05, "elapsed_time_per_iteration": 4.86143732, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 54s", "remaining_time": "8h 6m 20s", "loss_scale": 1.0, "consumed_samples": 1722368, "global_step/max_steps": "6728/12700"}
{"lm loss": 2.07840538, "grad_norm": 0.36334857, "learning_rate": 5.072e-05, "elapsed_time_per_iteration": 4.83699346, "memory(GiB)": 28.98, "elapsed_time": "9h 7m 59s", "remaining_time": "8h 6m 15s", "loss_scale": 1.0, "consumed_samples": 1722624, "global_step/max_steps": "6729/12700"}
{"lm loss": 2.09145355, "grad_norm": 0.36841467, "learning_rate": 5.071e-05, "elapsed_time_per_iteration": 4.81196713, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 4s", "remaining_time": "8h 6m 10s", "loss_scale": 1.0, "consumed_samples": 1722880, "global_step/max_steps": "6730/12700"}
{"lm loss": 2.08405852, "grad_norm": 0.37569761, "learning_rate": 5.07e-05, "elapsed_time_per_iteration": 4.99715257, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 9s", "remaining_time": "8h 6m 6s", "loss_scale": 1.0, "consumed_samples": 1723136, "global_step/max_steps": "6731/12700"}
{"lm loss": 2.06597185, "grad_norm": 0.35872597, "learning_rate": 5.069e-05, "elapsed_time_per_iteration": 4.88147759, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 14s", "remaining_time": "8h 6m 1s", "loss_scale": 1.0, "consumed_samples": 1723392, "global_step/max_steps": "6732/12700"}
{"lm loss": 2.10418701, "grad_norm": 0.35025537, "learning_rate": 5.067e-05, "elapsed_time_per_iteration": 4.72637773, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 18s", "remaining_time": "8h 5m 56s", "loss_scale": 1.0, "consumed_samples": 1723648, "global_step/max_steps": "6733/12700"}
{"lm loss": 2.07484245, "grad_norm": 0.36681914, "learning_rate": 5.066e-05, "elapsed_time_per_iteration": 4.92948651, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 23s", "remaining_time": "8h 5m 51s", "loss_scale": 1.0, "consumed_samples": 1723904, "global_step/max_steps": "6734/12700"}
{"lm loss": 2.10249949, "grad_norm": 0.37150723, "learning_rate": 5.065e-05, "elapsed_time_per_iteration": 4.82889962, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 28s", "remaining_time": "8h 5m 46s", "loss_scale": 1.0, "consumed_samples": 1724160, "global_step/max_steps": "6735/12700"}
{"lm loss": 2.08886433, "grad_norm": 0.35088456, "learning_rate": 5.063e-05, "elapsed_time_per_iteration": 4.94581509, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 33s", "remaining_time": "8h 5m 41s", "loss_scale": 1.0, "consumed_samples": 1724416, "global_step/max_steps": "6736/12700"}
{"lm loss": 2.10362697, "grad_norm": 0.37393904, "learning_rate": 5.062e-05, "elapsed_time_per_iteration": 4.85682559, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 38s", "remaining_time": "8h 5m 36s", "loss_scale": 1.0, "consumed_samples": 1724672, "global_step/max_steps": "6737/12700"}
{"lm loss": 2.10624385, "grad_norm": 0.35438156, "learning_rate": 5.061e-05, "elapsed_time_per_iteration": 4.84342766, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 43s", "remaining_time": "8h 5m 31s", "loss_scale": 1.0, "consumed_samples": 1724928, "global_step/max_steps": "6738/12700"}
{"lm loss": 2.11740971, "grad_norm": 0.39114577, "learning_rate": 5.06e-05, "elapsed_time_per_iteration": 4.82665658, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 48s", "remaining_time": "8h 5m 26s", "loss_scale": 1.0, "consumed_samples": 1725184, "global_step/max_steps": "6739/12700"}
{"lm loss": 2.06774092, "grad_norm": 0.3622894, "learning_rate": 5.058e-05, "elapsed_time_per_iteration": 4.85131931, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 53s", "remaining_time": "8h 5m 21s", "loss_scale": 1.0, "consumed_samples": 1725440, "global_step/max_steps": "6740/12700"}
{"lm loss": 2.08351731, "grad_norm": 0.35385138, "learning_rate": 5.057e-05, "elapsed_time_per_iteration": 4.83065891, "memory(GiB)": 28.98, "elapsed_time": "9h 8m 57s", "remaining_time": "8h 5m 16s", "loss_scale": 1.0, "consumed_samples": 1725696, "global_step/max_steps": "6741/12700"}
{"lm loss": 2.11599064, "grad_norm": 0.36609781, "learning_rate": 5.056e-05, "elapsed_time_per_iteration": 4.96731591, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 2s", "remaining_time": "8h 5m 12s", "loss_scale": 1.0, "consumed_samples": 1725952, "global_step/max_steps": "6742/12700"}
{"lm loss": 2.12305117, "grad_norm": 0.37847531, "learning_rate": 5.055e-05, "elapsed_time_per_iteration": 4.93609166, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 7s", "remaining_time": "8h 5m 7s", "loss_scale": 1.0, "consumed_samples": 1726208, "global_step/max_steps": "6743/12700"}
{"lm loss": 2.03928542, "grad_norm": 0.34898785, "learning_rate": 5.053e-05, "elapsed_time_per_iteration": 5.21411514, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 12s", "remaining_time": "8h 5m 2s", "loss_scale": 1.0, "consumed_samples": 1726464, "global_step/max_steps": "6744/12700"}
{"lm loss": 2.09877229, "grad_norm": 0.38827163, "learning_rate": 5.052e-05, "elapsed_time_per_iteration": 4.94675183, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 17s", "remaining_time": "8h 4m 57s", "loss_scale": 1.0, "consumed_samples": 1726720, "global_step/max_steps": "6745/12700"}
{"lm loss": 2.08544898, "grad_norm": 0.36907247, "learning_rate": 5.051e-05, "elapsed_time_per_iteration": 4.86345196, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 22s", "remaining_time": "8h 4m 52s", "loss_scale": 1.0, "consumed_samples": 1726976, "global_step/max_steps": "6746/12700"}
{"lm loss": 2.08178902, "grad_norm": 0.33273244, "learning_rate": 5.05e-05, "elapsed_time_per_iteration": 4.87677026, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 27s", "remaining_time": "8h 4m 47s", "loss_scale": 1.0, "consumed_samples": 1727232, "global_step/max_steps": "6747/12700"}
{"lm loss": 2.09196115, "grad_norm": 0.33934069, "learning_rate": 5.048e-05, "elapsed_time_per_iteration": 4.81480384, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 32s", "remaining_time": "8h 4m 43s", "loss_scale": 1.0, "consumed_samples": 1727488, "global_step/max_steps": "6748/12700"}
{"lm loss": 2.0904088, "grad_norm": 0.37035868, "learning_rate": 5.047e-05, "elapsed_time_per_iteration": 4.86102676, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 37s", "remaining_time": "8h 4m 38s", "loss_scale": 1.0, "consumed_samples": 1727744, "global_step/max_steps": "6749/12700"}
{"lm loss": 2.10931849, "grad_norm": 0.36567241, "learning_rate": 5.046e-05, "elapsed_time_per_iteration": 4.95518351, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 42s", "remaining_time": "8h 4m 33s", "loss_scale": 1.0, "consumed_samples": 1728000, "global_step/max_steps": "6750/12700"}
{"lm loss": 2.07952738, "grad_norm": 0.37353301, "learning_rate": 5.045e-05, "elapsed_time_per_iteration": 4.84090376, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 47s", "remaining_time": "8h 4m 28s", "loss_scale": 1.0, "consumed_samples": 1728256, "global_step/max_steps": "6751/12700"}
{"lm loss": 2.0801301, "grad_norm": 0.36271572, "learning_rate": 5.043e-05, "elapsed_time_per_iteration": 4.9927969, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 52s", "remaining_time": "8h 4m 23s", "loss_scale": 1.0, "consumed_samples": 1728512, "global_step/max_steps": "6752/12700"}
{"lm loss": 2.06924748, "grad_norm": 0.3799969, "learning_rate": 5.042e-05, "elapsed_time_per_iteration": 4.94908094, "memory(GiB)": 28.98, "elapsed_time": "9h 9m 57s", "remaining_time": "8h 4m 18s", "loss_scale": 1.0, "consumed_samples": 1728768, "global_step/max_steps": "6753/12700"}
{"lm loss": 2.06433463, "grad_norm": 0.34757644, "learning_rate": 5.041e-05, "elapsed_time_per_iteration": 4.95440888, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 2s", "remaining_time": "8h 4m 13s", "loss_scale": 1.0, "consumed_samples": 1729024, "global_step/max_steps": "6754/12700"}
{"lm loss": 2.07465959, "grad_norm": 0.38704282, "learning_rate": 5.04e-05, "elapsed_time_per_iteration": 4.79608297, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 6s", "remaining_time": "8h 4m 8s", "loss_scale": 1.0, "consumed_samples": 1729280, "global_step/max_steps": "6755/12700"}
{"lm loss": 2.09556031, "grad_norm": 0.34993941, "learning_rate": 5.038e-05, "elapsed_time_per_iteration": 4.92226744, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 11s", "remaining_time": "8h 4m 4s", "loss_scale": 1.0, "consumed_samples": 1729536, "global_step/max_steps": "6756/12700"}
{"lm loss": 2.06339788, "grad_norm": 0.40634799, "learning_rate": 5.037e-05, "elapsed_time_per_iteration": 4.80035806, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 16s", "remaining_time": "8h 3m 59s", "loss_scale": 1.0, "consumed_samples": 1729792, "global_step/max_steps": "6757/12700"}
{"lm loss": 2.1122694, "grad_norm": 0.34420019, "learning_rate": 5.036e-05, "elapsed_time_per_iteration": 4.95120454, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 21s", "remaining_time": "8h 3m 54s", "loss_scale": 1.0, "consumed_samples": 1730048, "global_step/max_steps": "6758/12700"}
{"lm loss": 2.06026721, "grad_norm": 0.36624855, "learning_rate": 5.034e-05, "elapsed_time_per_iteration": 4.90674829, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 26s", "remaining_time": "8h 3m 49s", "loss_scale": 1.0, "consumed_samples": 1730304, "global_step/max_steps": "6759/12700"}
{"lm loss": 2.06692934, "grad_norm": 0.36107159, "learning_rate": 5.033e-05, "elapsed_time_per_iteration": 5.1360445, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 31s", "remaining_time": "8h 3m 44s", "loss_scale": 1.0, "consumed_samples": 1730560, "global_step/max_steps": "6760/12700"}
{"lm loss": 2.06791115, "grad_norm": 0.35055518, "learning_rate": 5.032e-05, "elapsed_time_per_iteration": 5.06545925, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 36s", "remaining_time": "8h 3m 40s", "loss_scale": 1.0, "consumed_samples": 1730816, "global_step/max_steps": "6761/12700"}
{"lm loss": 2.1089654, "grad_norm": 0.39222872, "learning_rate": 5.031e-05, "elapsed_time_per_iteration": 4.84124994, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 41s", "remaining_time": "8h 3m 35s", "loss_scale": 1.0, "consumed_samples": 1731072, "global_step/max_steps": "6762/12700"}
{"lm loss": 2.0948422, "grad_norm": 0.35932624, "learning_rate": 5.029e-05, "elapsed_time_per_iteration": 4.89832902, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 46s", "remaining_time": "8h 3m 30s", "loss_scale": 1.0, "consumed_samples": 1731328, "global_step/max_steps": "6763/12700"}
{"lm loss": 2.10628319, "grad_norm": 0.37973812, "learning_rate": 5.028e-05, "elapsed_time_per_iteration": 4.91527414, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 51s", "remaining_time": "8h 3m 25s", "loss_scale": 1.0, "consumed_samples": 1731584, "global_step/max_steps": "6764/12700"}
{"lm loss": 2.07858515, "grad_norm": 0.37533098, "learning_rate": 5.027e-05, "elapsed_time_per_iteration": 4.78034115, "memory(GiB)": 28.98, "elapsed_time": "9h 10m 56s", "remaining_time": "8h 3m 20s", "loss_scale": 1.0, "consumed_samples": 1731840, "global_step/max_steps": "6765/12700"}
{"lm loss": 2.08620429, "grad_norm": 0.38673267, "learning_rate": 5.026e-05, "elapsed_time_per_iteration": 4.8793807, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 0s", "remaining_time": "8h 3m 15s", "loss_scale": 1.0, "consumed_samples": 1732096, "global_step/max_steps": "6766/12700"}
{"lm loss": 2.12438178, "grad_norm": 0.34675655, "learning_rate": 5.024e-05, "elapsed_time_per_iteration": 5.03102899, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 5s", "remaining_time": "8h 3m 10s", "loss_scale": 1.0, "consumed_samples": 1732352, "global_step/max_steps": "6767/12700"}
{"lm loss": 2.09149241, "grad_norm": 0.36740261, "learning_rate": 5.023e-05, "elapsed_time_per_iteration": 4.88045073, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 10s", "remaining_time": "8h 3m 5s", "loss_scale": 1.0, "consumed_samples": 1732608, "global_step/max_steps": "6768/12700"}
{"lm loss": 2.10187984, "grad_norm": 0.38614088, "learning_rate": 5.022e-05, "elapsed_time_per_iteration": 4.99855876, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 15s", "remaining_time": "8h 3m 1s", "loss_scale": 1.0, "consumed_samples": 1732864, "global_step/max_steps": "6769/12700"}
{"lm loss": 2.08336806, "grad_norm": 0.33622077, "learning_rate": 5.021e-05, "elapsed_time_per_iteration": 4.93086123, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 20s", "remaining_time": "8h 2m 56s", "loss_scale": 1.0, "consumed_samples": 1733120, "global_step/max_steps": "6770/12700"}
{"lm loss": 2.09154344, "grad_norm": 0.35459322, "learning_rate": 5.019e-05, "elapsed_time_per_iteration": 4.88878012, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 25s", "remaining_time": "8h 2m 51s", "loss_scale": 1.0, "consumed_samples": 1733376, "global_step/max_steps": "6771/12700"}
{"lm loss": 2.09672976, "grad_norm": 0.37835804, "learning_rate": 5.018e-05, "elapsed_time_per_iteration": 4.84619164, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 30s", "remaining_time": "8h 2m 46s", "loss_scale": 1.0, "consumed_samples": 1733632, "global_step/max_steps": "6772/12700"}
{"lm loss": 2.08797359, "grad_norm": 0.37420872, "learning_rate": 5.017e-05, "elapsed_time_per_iteration": 4.78359556, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 35s", "remaining_time": "8h 2m 41s", "loss_scale": 1.0, "consumed_samples": 1733888, "global_step/max_steps": "6773/12700"}
{"lm loss": 2.09113002, "grad_norm": 0.38589397, "learning_rate": 5.016e-05, "elapsed_time_per_iteration": 4.84634614, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 40s", "remaining_time": "8h 2m 36s", "loss_scale": 1.0, "consumed_samples": 1734144, "global_step/max_steps": "6774/12700"}
{"lm loss": 2.11133575, "grad_norm": 0.36391559, "learning_rate": 5.014e-05, "elapsed_time_per_iteration": 4.81461525, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 44s", "remaining_time": "8h 2m 31s", "loss_scale": 1.0, "consumed_samples": 1734400, "global_step/max_steps": "6775/12700"}
{"lm loss": 2.09342313, "grad_norm": 0.3848595, "learning_rate": 5.013e-05, "elapsed_time_per_iteration": 4.94730234, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 49s", "remaining_time": "8h 2m 26s", "loss_scale": 1.0, "consumed_samples": 1734656, "global_step/max_steps": "6776/12700"}
{"lm loss": 2.07872415, "grad_norm": 0.3482371, "learning_rate": 5.012e-05, "elapsed_time_per_iteration": 5.1263175, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 55s", "remaining_time": "8h 2m 22s", "loss_scale": 1.0, "consumed_samples": 1734912, "global_step/max_steps": "6777/12700"}
{"lm loss": 2.06689525, "grad_norm": 0.34095618, "learning_rate": 5.01e-05, "elapsed_time_per_iteration": 4.91240001, "memory(GiB)": 28.98, "elapsed_time": "9h 11m 59s", "remaining_time": "8h 2m 17s", "loss_scale": 1.0, "consumed_samples": 1735168, "global_step/max_steps": "6778/12700"}
{"lm loss": 2.09814644, "grad_norm": 0.36356145, "learning_rate": 5.009e-05, "elapsed_time_per_iteration": 4.8882103, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 4s", "remaining_time": "8h 2m 12s", "loss_scale": 1.0, "consumed_samples": 1735424, "global_step/max_steps": "6779/12700"}
{"lm loss": 2.1288383, "grad_norm": 0.34008387, "learning_rate": 5.008e-05, "elapsed_time_per_iteration": 4.81618524, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 9s", "remaining_time": "8h 2m 7s", "loss_scale": 1.0, "consumed_samples": 1735680, "global_step/max_steps": "6780/12700"}
{"lm loss": 2.08425832, "grad_norm": 0.34872383, "learning_rate": 5.007e-05, "elapsed_time_per_iteration": 4.87184763, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 14s", "remaining_time": "8h 2m 2s", "loss_scale": 1.0, "consumed_samples": 1735936, "global_step/max_steps": "6781/12700"}
{"lm loss": 2.10691237, "grad_norm": 0.38070667, "learning_rate": 5.005e-05, "elapsed_time_per_iteration": 4.88019562, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 19s", "remaining_time": "8h 1m 57s", "loss_scale": 1.0, "consumed_samples": 1736192, "global_step/max_steps": "6782/12700"}
{"lm loss": 2.08361673, "grad_norm": 0.3479203, "learning_rate": 5.004e-05, "elapsed_time_per_iteration": 4.94161654, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 24s", "remaining_time": "8h 1m 52s", "loss_scale": 1.0, "consumed_samples": 1736448, "global_step/max_steps": "6783/12700"}
{"lm loss": 2.10858607, "grad_norm": 0.35662788, "learning_rate": 5.003e-05, "elapsed_time_per_iteration": 4.8206358, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 29s", "remaining_time": "8h 1m 47s", "loss_scale": 1.0, "consumed_samples": 1736704, "global_step/max_steps": "6784/12700"}
{"lm loss": 2.10962749, "grad_norm": 0.35847002, "learning_rate": 5.002e-05, "elapsed_time_per_iteration": 5.02789474, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 34s", "remaining_time": "8h 1m 43s", "loss_scale": 1.0, "consumed_samples": 1736960, "global_step/max_steps": "6785/12700"}
{"lm loss": 2.0782876, "grad_norm": 0.34941253, "learning_rate": 5e-05, "elapsed_time_per_iteration": 4.89974022, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 39s", "remaining_time": "8h 1m 38s", "loss_scale": 1.0, "consumed_samples": 1737216, "global_step/max_steps": "6786/12700"}
{"lm loss": 2.06599522, "grad_norm": 0.36645097, "learning_rate": 4.999e-05, "elapsed_time_per_iteration": 4.8760829, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 43s", "remaining_time": "8h 1m 33s", "loss_scale": 1.0, "consumed_samples": 1737472, "global_step/max_steps": "6787/12700"}
{"lm loss": 2.10155439, "grad_norm": 0.32979888, "learning_rate": 4.998e-05, "elapsed_time_per_iteration": 4.83956957, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 48s", "remaining_time": "8h 1m 28s", "loss_scale": 1.0, "consumed_samples": 1737728, "global_step/max_steps": "6788/12700"}
{"lm loss": 2.09717417, "grad_norm": 0.36412504, "learning_rate": 4.997e-05, "elapsed_time_per_iteration": 4.91122365, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 53s", "remaining_time": "8h 1m 23s", "loss_scale": 1.0, "consumed_samples": 1737984, "global_step/max_steps": "6789/12700"}
{"lm loss": 2.05250239, "grad_norm": 0.33939195, "learning_rate": 4.995e-05, "elapsed_time_per_iteration": 4.8610568, "memory(GiB)": 28.98, "elapsed_time": "9h 12m 58s", "remaining_time": "8h 1m 18s", "loss_scale": 1.0, "consumed_samples": 1738240, "global_step/max_steps": "6790/12700"}
{"lm loss": 2.0798862, "grad_norm": 0.35542852, "learning_rate": 4.994e-05, "elapsed_time_per_iteration": 4.87282896, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 3s", "remaining_time": "8h 1m 13s", "loss_scale": 1.0, "consumed_samples": 1738496, "global_step/max_steps": "6791/12700"}
{"lm loss": 2.08709121, "grad_norm": 0.35412785, "learning_rate": 4.993e-05, "elapsed_time_per_iteration": 4.91238403, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 8s", "remaining_time": "8h 1m 8s", "loss_scale": 1.0, "consumed_samples": 1738752, "global_step/max_steps": "6792/12700"}
{"lm loss": 2.08747935, "grad_norm": 0.35094765, "learning_rate": 4.992e-05, "elapsed_time_per_iteration": 5.08339977, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 13s", "remaining_time": "8h 1m 4s", "loss_scale": 1.0, "consumed_samples": 1739008, "global_step/max_steps": "6793/12700"}
{"lm loss": 2.07885695, "grad_norm": 0.4017638, "learning_rate": 4.99e-05, "elapsed_time_per_iteration": 4.91749859, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 18s", "remaining_time": "8h 0m 59s", "loss_scale": 1.0, "consumed_samples": 1739264, "global_step/max_steps": "6794/12700"}
{"lm loss": 2.08302951, "grad_norm": 0.34367192, "learning_rate": 4.989e-05, "elapsed_time_per_iteration": 4.83805633, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 23s", "remaining_time": "8h 0m 54s", "loss_scale": 1.0, "consumed_samples": 1739520, "global_step/max_steps": "6795/12700"}
{"lm loss": 2.08854866, "grad_norm": 0.35937938, "learning_rate": 4.988e-05, "elapsed_time_per_iteration": 4.88338113, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 28s", "remaining_time": "8h 0m 49s", "loss_scale": 1.0, "consumed_samples": 1739776, "global_step/max_steps": "6796/12700"}
{"lm loss": 2.12247443, "grad_norm": 0.3619898, "learning_rate": 4.986e-05, "elapsed_time_per_iteration": 4.88500118, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 32s", "remaining_time": "8h 0m 44s", "loss_scale": 1.0, "consumed_samples": 1740032, "global_step/max_steps": "6797/12700"}
{"lm loss": 2.08885527, "grad_norm": 0.37999088, "learning_rate": 4.985e-05, "elapsed_time_per_iteration": 4.86850357, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 37s", "remaining_time": "8h 0m 39s", "loss_scale": 1.0, "consumed_samples": 1740288, "global_step/max_steps": "6798/12700"}
{"lm loss": 2.09459567, "grad_norm": 0.34005192, "learning_rate": 4.984e-05, "elapsed_time_per_iteration": 4.87277198, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 42s", "remaining_time": "8h 0m 34s", "loss_scale": 1.0, "consumed_samples": 1740544, "global_step/max_steps": "6799/12700"}
{"lm loss": 2.07379937, "grad_norm": 0.37435091, "learning_rate": 4.983e-05, "elapsed_time_per_iteration": 4.93750596, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 47s", "remaining_time": "8h 0m 29s", "loss_scale": 1.0, "consumed_samples": 1740800, "global_step/max_steps": "6800/12700"}
{"lm loss": 2.07410192, "grad_norm": 0.33289218, "learning_rate": 4.981e-05, "elapsed_time_per_iteration": 4.9176774, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 52s", "remaining_time": "8h 0m 24s", "loss_scale": 1.0, "consumed_samples": 1741056, "global_step/max_steps": "6801/12700"}
{"lm loss": 2.0825038, "grad_norm": 0.38166761, "learning_rate": 4.98e-05, "elapsed_time_per_iteration": 5.06423926, "memory(GiB)": 28.98, "elapsed_time": "9h 13m 57s", "remaining_time": "8h 0m 20s", "loss_scale": 1.0, "consumed_samples": 1741312, "global_step/max_steps": "6802/12700"}
{"lm loss": 2.04418993, "grad_norm": 0.35640648, "learning_rate": 4.979e-05, "elapsed_time_per_iteration": 4.87169647, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 2s", "remaining_time": "8h 0m 15s", "loss_scale": 1.0, "consumed_samples": 1741568, "global_step/max_steps": "6803/12700"}
{"lm loss": 2.056288, "grad_norm": 0.36947447, "learning_rate": 4.978e-05, "elapsed_time_per_iteration": 4.87422347, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 7s", "remaining_time": "8h 0m 10s", "loss_scale": 1.0, "consumed_samples": 1741824, "global_step/max_steps": "6804/12700"}
{"lm loss": 2.09261537, "grad_norm": 0.37473601, "learning_rate": 4.976e-05, "elapsed_time_per_iteration": 4.88854051, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 12s", "remaining_time": "8h 0m 5s", "loss_scale": 1.0, "consumed_samples": 1742080, "global_step/max_steps": "6805/12700"}
{"lm loss": 2.04248762, "grad_norm": 0.38155866, "learning_rate": 4.975e-05, "elapsed_time_per_iteration": 4.84101748, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 17s", "remaining_time": "8h 0m 0s", "loss_scale": 1.0, "consumed_samples": 1742336, "global_step/max_steps": "6806/12700"}
{"lm loss": 2.10423708, "grad_norm": 0.37396982, "learning_rate": 4.974e-05, "elapsed_time_per_iteration": 4.86296678, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 21s", "remaining_time": "7h 59m 55s", "loss_scale": 1.0, "consumed_samples": 1742592, "global_step/max_steps": "6807/12700"}
{"lm loss": 2.06431031, "grad_norm": 0.37579188, "learning_rate": 4.973e-05, "elapsed_time_per_iteration": 4.97265077, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 26s", "remaining_time": "7h 59m 50s", "loss_scale": 1.0, "consumed_samples": 1742848, "global_step/max_steps": "6808/12700"}
{"lm loss": 2.09118485, "grad_norm": 0.39804941, "learning_rate": 4.971e-05, "elapsed_time_per_iteration": 4.83090258, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 31s", "remaining_time": "7h 59m 45s", "loss_scale": 1.0, "consumed_samples": 1743104, "global_step/max_steps": "6809/12700"}
{"lm loss": 2.10647726, "grad_norm": 0.35880062, "learning_rate": 4.97e-05, "elapsed_time_per_iteration": 5.02232575, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 36s", "remaining_time": "7h 59m 41s", "loss_scale": 1.0, "consumed_samples": 1743360, "global_step/max_steps": "6810/12700"}
{"lm loss": 2.11344528, "grad_norm": 0.37807727, "learning_rate": 4.969e-05, "elapsed_time_per_iteration": 4.85395122, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 41s", "remaining_time": "7h 59m 36s", "loss_scale": 1.0, "consumed_samples": 1743616, "global_step/max_steps": "6811/12700"}
{"lm loss": 2.09009385, "grad_norm": 0.35739845, "learning_rate": 4.968e-05, "elapsed_time_per_iteration": 4.92475748, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 46s", "remaining_time": "7h 59m 31s", "loss_scale": 1.0, "consumed_samples": 1743872, "global_step/max_steps": "6812/12700"}
{"lm loss": 2.11342025, "grad_norm": 0.36608377, "learning_rate": 4.966e-05, "elapsed_time_per_iteration": 4.78251529, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 51s", "remaining_time": "7h 59m 26s", "loss_scale": 1.0, "consumed_samples": 1744128, "global_step/max_steps": "6813/12700"}
{"lm loss": 2.10599875, "grad_norm": 0.3533906, "learning_rate": 4.965e-05, "elapsed_time_per_iteration": 4.85992551, "memory(GiB)": 28.98, "elapsed_time": "9h 14m 56s", "remaining_time": "7h 59m 21s", "loss_scale": 1.0, "consumed_samples": 1744384, "global_step/max_steps": "6814/12700"}
{"lm loss": 2.11969113, "grad_norm": 0.38182068, "learning_rate": 4.964e-05, "elapsed_time_per_iteration": 4.88348436, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 1s", "remaining_time": "7h 59m 16s", "loss_scale": 1.0, "consumed_samples": 1744640, "global_step/max_steps": "6815/12700"}
{"lm loss": 2.08905625, "grad_norm": 0.35678625, "learning_rate": 4.963e-05, "elapsed_time_per_iteration": 4.96265173, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 6s", "remaining_time": "7h 59m 11s", "loss_scale": 1.0, "consumed_samples": 1744896, "global_step/max_steps": "6816/12700"}
{"lm loss": 2.07473683, "grad_norm": 0.38331413, "learning_rate": 4.961e-05, "elapsed_time_per_iteration": 5.00267243, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 11s", "remaining_time": "7h 59m 7s", "loss_scale": 1.0, "consumed_samples": 1745152, "global_step/max_steps": "6817/12700"}
{"lm loss": 2.06015158, "grad_norm": 0.34062585, "learning_rate": 4.96e-05, "elapsed_time_per_iteration": 5.0904429, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 16s", "remaining_time": "7h 59m 2s", "loss_scale": 1.0, "consumed_samples": 1745408, "global_step/max_steps": "6818/12700"}
{"lm loss": 2.06503177, "grad_norm": 0.39083537, "learning_rate": 4.959e-05, "elapsed_time_per_iteration": 5.00519013, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 21s", "remaining_time": "7h 58m 57s", "loss_scale": 1.0, "consumed_samples": 1745664, "global_step/max_steps": "6819/12700"}
{"lm loss": 2.09265423, "grad_norm": 0.34214184, "learning_rate": 4.957e-05, "elapsed_time_per_iteration": 4.98516798, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 26s", "remaining_time": "7h 58m 52s", "loss_scale": 1.0, "consumed_samples": 1745920, "global_step/max_steps": "6820/12700"}
{"lm loss": 2.12727308, "grad_norm": 0.37994283, "learning_rate": 4.956e-05, "elapsed_time_per_iteration": 4.87737799, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 30s", "remaining_time": "7h 58m 47s", "loss_scale": 1.0, "consumed_samples": 1746176, "global_step/max_steps": "6821/12700"}
{"lm loss": 2.07407737, "grad_norm": 0.37061927, "learning_rate": 4.955e-05, "elapsed_time_per_iteration": 4.95782876, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 35s", "remaining_time": "7h 58m 43s", "loss_scale": 1.0, "consumed_samples": 1746432, "global_step/max_steps": "6822/12700"}
{"lm loss": 2.08888721, "grad_norm": 0.35152736, "learning_rate": 4.954e-05, "elapsed_time_per_iteration": 4.98692226, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 40s", "remaining_time": "7h 58m 38s", "loss_scale": 1.0, "consumed_samples": 1746688, "global_step/max_steps": "6823/12700"}
{"lm loss": 2.05847239, "grad_norm": 0.38305324, "learning_rate": 4.952e-05, "elapsed_time_per_iteration": 4.91757202, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 45s", "remaining_time": "7h 58m 33s", "loss_scale": 1.0, "consumed_samples": 1746944, "global_step/max_steps": "6824/12700"}
{"lm loss": 2.07043219, "grad_norm": 0.35344309, "learning_rate": 4.951e-05, "elapsed_time_per_iteration": 4.86274862, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 50s", "remaining_time": "7h 58m 28s", "loss_scale": 1.0, "consumed_samples": 1747200, "global_step/max_steps": "6825/12700"}
{"lm loss": 2.08439994, "grad_norm": 0.35985404, "learning_rate": 4.95e-05, "elapsed_time_per_iteration": 4.83293891, "memory(GiB)": 28.98, "elapsed_time": "9h 15m 55s", "remaining_time": "7h 58m 23s", "loss_scale": 1.0, "consumed_samples": 1747456, "global_step/max_steps": "6826/12700"}
{"lm loss": 2.07903576, "grad_norm": 0.33840972, "learning_rate": 4.949e-05, "elapsed_time_per_iteration": 5.00297785, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 0s", "remaining_time": "7h 58m 18s", "loss_scale": 1.0, "consumed_samples": 1747712, "global_step/max_steps": "6827/12700"}
{"lm loss": 2.07458305, "grad_norm": 0.41317216, "learning_rate": 4.947e-05, "elapsed_time_per_iteration": 5.05138087, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 5s", "remaining_time": "7h 58m 14s", "loss_scale": 1.0, "consumed_samples": 1747968, "global_step/max_steps": "6828/12700"}
{"lm loss": 2.0739162, "grad_norm": 0.34027219, "learning_rate": 4.946e-05, "elapsed_time_per_iteration": 4.90659189, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 10s", "remaining_time": "7h 58m 9s", "loss_scale": 1.0, "consumed_samples": 1748224, "global_step/max_steps": "6829/12700"}
{"lm loss": 2.1053412, "grad_norm": 0.35148224, "learning_rate": 4.945e-05, "elapsed_time_per_iteration": 4.86957979, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 15s", "remaining_time": "7h 58m 4s", "loss_scale": 1.0, "consumed_samples": 1748480, "global_step/max_steps": "6830/12700"}
{"lm loss": 2.09239411, "grad_norm": 0.35366052, "learning_rate": 4.944e-05, "elapsed_time_per_iteration": 4.82512307, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 20s", "remaining_time": "7h 57m 59s", "loss_scale": 1.0, "consumed_samples": 1748736, "global_step/max_steps": "6831/12700"}
{"lm loss": 2.12548542, "grad_norm": 0.34722334, "learning_rate": 4.942e-05, "elapsed_time_per_iteration": 4.80550051, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 25s", "remaining_time": "7h 57m 54s", "loss_scale": 1.0, "consumed_samples": 1748992, "global_step/max_steps": "6832/12700"}
{"lm loss": 2.10023522, "grad_norm": 0.40416822, "learning_rate": 4.941e-05, "elapsed_time_per_iteration": 4.88048792, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 29s", "remaining_time": "7h 57m 49s", "loss_scale": 1.0, "consumed_samples": 1749248, "global_step/max_steps": "6833/12700"}
{"lm loss": 2.10184336, "grad_norm": 0.37687388, "learning_rate": 4.94e-05, "elapsed_time_per_iteration": 4.90102482, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 34s", "remaining_time": "7h 57m 44s", "loss_scale": 1.0, "consumed_samples": 1749504, "global_step/max_steps": "6834/12700"}
{"lm loss": 2.11571026, "grad_norm": 0.39662048, "learning_rate": 4.939e-05, "elapsed_time_per_iteration": 5.1203537, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 39s", "remaining_time": "7h 57m 39s", "loss_scale": 1.0, "consumed_samples": 1749760, "global_step/max_steps": "6835/12700"}
{"lm loss": 2.11505556, "grad_norm": 0.35263601, "learning_rate": 4.937e-05, "elapsed_time_per_iteration": 5.01908493, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 44s", "remaining_time": "7h 57m 35s", "loss_scale": 1.0, "consumed_samples": 1750016, "global_step/max_steps": "6836/12700"}
{"lm loss": 2.0708735, "grad_norm": 0.40927804, "learning_rate": 4.936e-05, "elapsed_time_per_iteration": 4.9029007, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 49s", "remaining_time": "7h 57m 30s", "loss_scale": 1.0, "consumed_samples": 1750272, "global_step/max_steps": "6837/12700"}
{"lm loss": 2.11038446, "grad_norm": 0.36755407, "learning_rate": 4.935e-05, "elapsed_time_per_iteration": 4.83305573, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 54s", "remaining_time": "7h 57m 25s", "loss_scale": 1.0, "consumed_samples": 1750528, "global_step/max_steps": "6838/12700"}
{"lm loss": 2.08727622, "grad_norm": 0.36378065, "learning_rate": 4.933e-05, "elapsed_time_per_iteration": 4.76069093, "memory(GiB)": 28.98, "elapsed_time": "9h 16m 59s", "remaining_time": "7h 57m 20s", "loss_scale": 1.0, "consumed_samples": 1750784, "global_step/max_steps": "6839/12700"}
{"lm loss": 2.08521008, "grad_norm": 0.37406471, "learning_rate": 4.932e-05, "elapsed_time_per_iteration": 4.88744807, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 4s", "remaining_time": "7h 57m 15s", "loss_scale": 1.0, "consumed_samples": 1751040, "global_step/max_steps": "6840/12700"}
{"lm loss": 2.12093663, "grad_norm": 0.36420467, "learning_rate": 4.931e-05, "elapsed_time_per_iteration": 4.93580604, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 9s", "remaining_time": "7h 57m 10s", "loss_scale": 1.0, "consumed_samples": 1751296, "global_step/max_steps": "6841/12700"}
{"lm loss": 2.0927217, "grad_norm": 0.38908163, "learning_rate": 4.93e-05, "elapsed_time_per_iteration": 4.81805515, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 14s", "remaining_time": "7h 57m 5s", "loss_scale": 1.0, "consumed_samples": 1751552, "global_step/max_steps": "6842/12700"}
{"lm loss": 2.07344985, "grad_norm": 0.36638552, "learning_rate": 4.928e-05, "elapsed_time_per_iteration": 4.9731431, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 19s", "remaining_time": "7h 57m 0s", "loss_scale": 1.0, "consumed_samples": 1751808, "global_step/max_steps": "6843/12700"}
{"lm loss": 2.11799335, "grad_norm": 0.3571156, "learning_rate": 4.927e-05, "elapsed_time_per_iteration": 5.17168069, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 24s", "remaining_time": "7h 56m 56s", "loss_scale": 1.0, "consumed_samples": 1752064, "global_step/max_steps": "6844/12700"}
{"lm loss": 2.05798554, "grad_norm": 0.38462123, "learning_rate": 4.926e-05, "elapsed_time_per_iteration": 4.96115994, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 29s", "remaining_time": "7h 56m 51s", "loss_scale": 1.0, "consumed_samples": 1752320, "global_step/max_steps": "6845/12700"}
{"lm loss": 2.07755589, "grad_norm": 0.34042791, "learning_rate": 4.925e-05, "elapsed_time_per_iteration": 4.84568334, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 34s", "remaining_time": "7h 56m 46s", "loss_scale": 1.0, "consumed_samples": 1752576, "global_step/max_steps": "6846/12700"}
{"lm loss": 2.0779593, "grad_norm": 0.38748962, "learning_rate": 4.923e-05, "elapsed_time_per_iteration": 4.85075974, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 38s", "remaining_time": "7h 56m 41s", "loss_scale": 1.0, "consumed_samples": 1752832, "global_step/max_steps": "6847/12700"}
{"lm loss": 2.1031251, "grad_norm": 0.36677864, "learning_rate": 4.922e-05, "elapsed_time_per_iteration": 5.00016403, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 43s", "remaining_time": "7h 56m 36s", "loss_scale": 1.0, "consumed_samples": 1753088, "global_step/max_steps": "6848/12700"}
{"lm loss": 2.08058143, "grad_norm": 0.36256507, "learning_rate": 4.921e-05, "elapsed_time_per_iteration": 4.86830115, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 48s", "remaining_time": "7h 56m 31s", "loss_scale": 1.0, "consumed_samples": 1753344, "global_step/max_steps": "6849/12700"}
{"lm loss": 2.09861255, "grad_norm": 0.4046714, "learning_rate": 4.92e-05, "elapsed_time_per_iteration": 4.86720276, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 53s", "remaining_time": "7h 56m 26s", "loss_scale": 1.0, "consumed_samples": 1753600, "global_step/max_steps": "6850/12700"}
{"lm loss": 2.08474469, "grad_norm": 0.40218014, "learning_rate": 4.918e-05, "elapsed_time_per_iteration": 4.9362843, "memory(GiB)": 28.98, "elapsed_time": "9h 17m 58s", "remaining_time": "7h 56m 22s", "loss_scale": 1.0, "consumed_samples": 1753856, "global_step/max_steps": "6851/12700"}
{"lm loss": 2.11396217, "grad_norm": 0.36992222, "learning_rate": 4.917e-05, "elapsed_time_per_iteration": 5.09740567, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 3s", "remaining_time": "7h 56m 17s", "loss_scale": 1.0, "consumed_samples": 1754112, "global_step/max_steps": "6852/12700"}
{"lm loss": 2.11404324, "grad_norm": 0.41941729, "learning_rate": 4.916e-05, "elapsed_time_per_iteration": 5.0081296, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 8s", "remaining_time": "7h 56m 12s", "loss_scale": 1.0, "consumed_samples": 1754368, "global_step/max_steps": "6853/12700"}
{"lm loss": 2.11235499, "grad_norm": 0.40262282, "learning_rate": 4.915e-05, "elapsed_time_per_iteration": 4.81762433, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 13s", "remaining_time": "7h 56m 7s", "loss_scale": 1.0, "consumed_samples": 1754624, "global_step/max_steps": "6854/12700"}
{"lm loss": 2.09372568, "grad_norm": 0.34431627, "learning_rate": 4.913e-05, "elapsed_time_per_iteration": 4.94407892, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 18s", "remaining_time": "7h 56m 2s", "loss_scale": 1.0, "consumed_samples": 1754880, "global_step/max_steps": "6855/12700"}
{"lm loss": 2.03444695, "grad_norm": 0.39943984, "learning_rate": 4.912e-05, "elapsed_time_per_iteration": 4.9705267, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 23s", "remaining_time": "7h 55m 58s", "loss_scale": 1.0, "consumed_samples": 1755136, "global_step/max_steps": "6856/12700"}
{"lm loss": 2.07272124, "grad_norm": 0.3597607, "learning_rate": 4.911e-05, "elapsed_time_per_iteration": 4.86277914, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 28s", "remaining_time": "7h 55m 53s", "loss_scale": 1.0, "consumed_samples": 1755392, "global_step/max_steps": "6857/12700"}
{"lm loss": 2.11162901, "grad_norm": 0.37531567, "learning_rate": 4.91e-05, "elapsed_time_per_iteration": 4.91183186, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 33s", "remaining_time": "7h 55m 48s", "loss_scale": 1.0, "consumed_samples": 1755648, "global_step/max_steps": "6858/12700"}
{"lm loss": 2.07868648, "grad_norm": 0.34456453, "learning_rate": 4.908e-05, "elapsed_time_per_iteration": 4.9068675, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 38s", "remaining_time": "7h 55m 43s", "loss_scale": 1.0, "consumed_samples": 1755904, "global_step/max_steps": "6859/12700"}
{"lm loss": 2.11435366, "grad_norm": 0.36317363, "learning_rate": 4.907e-05, "elapsed_time_per_iteration": 4.97762752, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 43s", "remaining_time": "7h 55m 38s", "loss_scale": 1.0, "consumed_samples": 1756160, "global_step/max_steps": "6860/12700"}
{"lm loss": 2.11007524, "grad_norm": 0.37215635, "learning_rate": 4.906e-05, "elapsed_time_per_iteration": 5.11086059, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 48s", "remaining_time": "7h 55m 33s", "loss_scale": 1.0, "consumed_samples": 1756416, "global_step/max_steps": "6861/12700"}
{"lm loss": 2.1060667, "grad_norm": 0.3502011, "learning_rate": 4.904e-05, "elapsed_time_per_iteration": 5.00394487, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 53s", "remaining_time": "7h 55m 29s", "loss_scale": 1.0, "consumed_samples": 1756672, "global_step/max_steps": "6862/12700"}
{"lm loss": 2.06597948, "grad_norm": 0.35052446, "learning_rate": 4.903e-05, "elapsed_time_per_iteration": 4.83780575, "memory(GiB)": 28.98, "elapsed_time": "9h 18m 57s", "remaining_time": "7h 55m 24s", "loss_scale": 1.0, "consumed_samples": 1756928, "global_step/max_steps": "6863/12700"}
{"lm loss": 2.08073401, "grad_norm": 0.34219155, "learning_rate": 4.902e-05, "elapsed_time_per_iteration": 4.86895061, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 2s", "remaining_time": "7h 55m 19s", "loss_scale": 1.0, "consumed_samples": 1757184, "global_step/max_steps": "6864/12700"}
{"lm loss": 2.07780218, "grad_norm": 0.36118525, "learning_rate": 4.901e-05, "elapsed_time_per_iteration": 4.74085808, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 7s", "remaining_time": "7h 55m 14s", "loss_scale": 1.0, "consumed_samples": 1757440, "global_step/max_steps": "6865/12700"}
{"lm loss": 2.05927587, "grad_norm": 0.32354155, "learning_rate": 4.899e-05, "elapsed_time_per_iteration": 4.86966491, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 12s", "remaining_time": "7h 55m 9s", "loss_scale": 1.0, "consumed_samples": 1757696, "global_step/max_steps": "6866/12700"}
{"lm loss": 2.07467246, "grad_norm": 0.35128516, "learning_rate": 4.898e-05, "elapsed_time_per_iteration": 4.9820447, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 17s", "remaining_time": "7h 55m 4s", "loss_scale": 1.0, "consumed_samples": 1757952, "global_step/max_steps": "6867/12700"}
{"lm loss": 2.12140965, "grad_norm": 0.34674424, "learning_rate": 4.897e-05, "elapsed_time_per_iteration": 5.04599953, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 22s", "remaining_time": "7h 54m 59s", "loss_scale": 1.0, "consumed_samples": 1758208, "global_step/max_steps": "6868/12700"}
{"lm loss": 2.11050558, "grad_norm": 0.35261056, "learning_rate": 4.896e-05, "elapsed_time_per_iteration": 4.98511481, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 27s", "remaining_time": "7h 54m 54s", "loss_scale": 1.0, "consumed_samples": 1758464, "global_step/max_steps": "6869/12700"}
{"lm loss": 2.08683276, "grad_norm": 0.33365718, "learning_rate": 4.894e-05, "elapsed_time_per_iteration": 5.04436135, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 32s", "remaining_time": "7h 54m 50s", "loss_scale": 1.0, "consumed_samples": 1758720, "global_step/max_steps": "6870/12700"}
{"lm loss": 2.09035802, "grad_norm": 0.34813887, "learning_rate": 4.893e-05, "elapsed_time_per_iteration": 4.88230252, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 37s", "remaining_time": "7h 54m 45s", "loss_scale": 1.0, "consumed_samples": 1758976, "global_step/max_steps": "6871/12700"}
{"lm loss": 2.07571483, "grad_norm": 0.35291889, "learning_rate": 4.892e-05, "elapsed_time_per_iteration": 4.82607222, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 42s", "remaining_time": "7h 54m 40s", "loss_scale": 1.0, "consumed_samples": 1759232, "global_step/max_steps": "6872/12700"}
{"lm loss": 2.10265112, "grad_norm": 0.35800549, "learning_rate": 4.891e-05, "elapsed_time_per_iteration": 4.86842322, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 47s", "remaining_time": "7h 54m 35s", "loss_scale": 1.0, "consumed_samples": 1759488, "global_step/max_steps": "6873/12700"}
{"lm loss": 2.10142231, "grad_norm": 0.3738037, "learning_rate": 4.889e-05, "elapsed_time_per_iteration": 4.81857514, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 51s", "remaining_time": "7h 54m 30s", "loss_scale": 1.0, "consumed_samples": 1759744, "global_step/max_steps": "6874/12700"}
{"lm loss": 2.09855843, "grad_norm": 0.37425974, "learning_rate": 4.888e-05, "elapsed_time_per_iteration": 4.88013458, "memory(GiB)": 28.98, "elapsed_time": "9h 19m 56s", "remaining_time": "7h 54m 25s", "loss_scale": 1.0, "consumed_samples": 1760000, "global_step/max_steps": "6875/12700"}
{"lm loss": 2.10493255, "grad_norm": 0.36913446, "learning_rate": 4.887e-05, "elapsed_time_per_iteration": 4.84257436, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 1s", "remaining_time": "7h 54m 20s", "loss_scale": 1.0, "consumed_samples": 1760256, "global_step/max_steps": "6876/12700"}
{"lm loss": 2.05466151, "grad_norm": 0.35173813, "learning_rate": 4.886e-05, "elapsed_time_per_iteration": 4.98640943, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 6s", "remaining_time": "7h 54m 15s", "loss_scale": 1.0, "consumed_samples": 1760512, "global_step/max_steps": "6877/12700"}
{"lm loss": 2.06513619, "grad_norm": 0.4139519, "learning_rate": 4.884e-05, "elapsed_time_per_iteration": 4.93601274, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 11s", "remaining_time": "7h 54m 11s", "loss_scale": 1.0, "consumed_samples": 1760768, "global_step/max_steps": "6878/12700"}
{"lm loss": 2.10240793, "grad_norm": 0.36126605, "learning_rate": 4.883e-05, "elapsed_time_per_iteration": 4.81188941, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 16s", "remaining_time": "7h 54m 6s", "loss_scale": 1.0, "consumed_samples": 1761024, "global_step/max_steps": "6879/12700"}
{"lm loss": 2.10249138, "grad_norm": 0.37706047, "learning_rate": 4.882e-05, "elapsed_time_per_iteration": 4.86919713, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 21s", "remaining_time": "7h 54m 1s", "loss_scale": 1.0, "consumed_samples": 1761280, "global_step/max_steps": "6880/12700"}
{"lm loss": 2.06043577, "grad_norm": 0.35638899, "learning_rate": 4.881e-05, "elapsed_time_per_iteration": 4.9239583, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 26s", "remaining_time": "7h 53m 56s", "loss_scale": 1.0, "consumed_samples": 1761536, "global_step/max_steps": "6881/12700"}
{"lm loss": 2.08620524, "grad_norm": 0.36865371, "learning_rate": 4.879e-05, "elapsed_time_per_iteration": 4.83599854, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 31s", "remaining_time": "7h 53m 51s", "loss_scale": 1.0, "consumed_samples": 1761792, "global_step/max_steps": "6882/12700"}
{"lm loss": 2.05468464, "grad_norm": 0.34325781, "learning_rate": 4.878e-05, "elapsed_time_per_iteration": 4.84526443, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 35s", "remaining_time": "7h 53m 46s", "loss_scale": 1.0, "consumed_samples": 1762048, "global_step/max_steps": "6883/12700"}
{"lm loss": 2.07304287, "grad_norm": 0.35144553, "learning_rate": 4.877e-05, "elapsed_time_per_iteration": 4.84053659, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 40s", "remaining_time": "7h 53m 41s", "loss_scale": 1.0, "consumed_samples": 1762304, "global_step/max_steps": "6884/12700"}
{"lm loss": 2.08299851, "grad_norm": 0.35157123, "learning_rate": 4.875e-05, "elapsed_time_per_iteration": 4.91686654, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 45s", "remaining_time": "7h 53m 36s", "loss_scale": 1.0, "consumed_samples": 1762560, "global_step/max_steps": "6885/12700"}
{"lm loss": 2.06984925, "grad_norm": 0.36816347, "learning_rate": 4.874e-05, "elapsed_time_per_iteration": 4.93964529, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 50s", "remaining_time": "7h 53m 31s", "loss_scale": 1.0, "consumed_samples": 1762816, "global_step/max_steps": "6886/12700"}
{"lm loss": 2.0854919, "grad_norm": 0.36874872, "learning_rate": 4.873e-05, "elapsed_time_per_iteration": 4.89722013, "memory(GiB)": 28.98, "elapsed_time": "9h 20m 55s", "remaining_time": "7h 53m 27s", "loss_scale": 1.0, "consumed_samples": 1763072, "global_step/max_steps": "6887/12700"}
{"lm loss": 2.08047962, "grad_norm": 0.35999787, "learning_rate": 4.872e-05, "elapsed_time_per_iteration": 4.96355724, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 0s", "remaining_time": "7h 53m 22s", "loss_scale": 1.0, "consumed_samples": 1763328, "global_step/max_steps": "6888/12700"}
{"lm loss": 2.09991884, "grad_norm": 0.35225645, "learning_rate": 4.87e-05, "elapsed_time_per_iteration": 4.81332016, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 5s", "remaining_time": "7h 53m 17s", "loss_scale": 1.0, "consumed_samples": 1763584, "global_step/max_steps": "6889/12700"}
{"lm loss": 2.10104179, "grad_norm": 0.37336019, "learning_rate": 4.869e-05, "elapsed_time_per_iteration": 4.80170178, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 10s", "remaining_time": "7h 53m 12s", "loss_scale": 1.0, "consumed_samples": 1763840, "global_step/max_steps": "6890/12700"}
{"lm loss": 2.0670135, "grad_norm": 0.34537011, "learning_rate": 4.868e-05, "elapsed_time_per_iteration": 4.93239141, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 14s", "remaining_time": "7h 53m 7s", "loss_scale": 1.0, "consumed_samples": 1764096, "global_step/max_steps": "6891/12700"}
{"lm loss": 2.09549809, "grad_norm": 0.35894352, "learning_rate": 4.867e-05, "elapsed_time_per_iteration": 4.8963511, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 19s", "remaining_time": "7h 53m 2s", "loss_scale": 1.0, "consumed_samples": 1764352, "global_step/max_steps": "6892/12700"}
{"lm loss": 2.10764766, "grad_norm": 0.36324584, "learning_rate": 4.865e-05, "elapsed_time_per_iteration": 4.88861871, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 24s", "remaining_time": "7h 52m 57s", "loss_scale": 1.0, "consumed_samples": 1764608, "global_step/max_steps": "6893/12700"}
{"lm loss": 2.08970404, "grad_norm": 0.37743804, "learning_rate": 4.864e-05, "elapsed_time_per_iteration": 4.98716354, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 29s", "remaining_time": "7h 52m 52s", "loss_scale": 1.0, "consumed_samples": 1764864, "global_step/max_steps": "6894/12700"}
{"lm loss": 2.05832362, "grad_norm": 0.3672336, "learning_rate": 4.863e-05, "elapsed_time_per_iteration": 5.07484436, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 34s", "remaining_time": "7h 52m 48s", "loss_scale": 1.0, "consumed_samples": 1765120, "global_step/max_steps": "6895/12700"}
{"lm loss": 2.08316994, "grad_norm": 0.33418599, "learning_rate": 4.862e-05, "elapsed_time_per_iteration": 4.97304416, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 39s", "remaining_time": "7h 52m 43s", "loss_scale": 1.0, "consumed_samples": 1765376, "global_step/max_steps": "6896/12700"}
{"lm loss": 2.07274961, "grad_norm": 0.36275148, "learning_rate": 4.86e-05, "elapsed_time_per_iteration": 4.82054424, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 44s", "remaining_time": "7h 52m 38s", "loss_scale": 1.0, "consumed_samples": 1765632, "global_step/max_steps": "6897/12700"}
{"lm loss": 2.10961461, "grad_norm": 0.35818893, "learning_rate": 4.859e-05, "elapsed_time_per_iteration": 4.76720595, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 49s", "remaining_time": "7h 52m 33s", "loss_scale": 1.0, "consumed_samples": 1765888, "global_step/max_steps": "6898/12700"}
{"lm loss": 2.12154984, "grad_norm": 0.34897137, "learning_rate": 4.858e-05, "elapsed_time_per_iteration": 4.92079258, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 54s", "remaining_time": "7h 52m 28s", "loss_scale": 1.0, "consumed_samples": 1766144, "global_step/max_steps": "6899/12700"}
{"lm loss": 2.09696317, "grad_norm": 0.33720213, "learning_rate": 4.857e-05, "elapsed_time_per_iteration": 4.90214682, "memory(GiB)": 28.98, "elapsed_time": "9h 21m 59s", "remaining_time": "7h 52m 23s", "loss_scale": 1.0, "consumed_samples": 1766400, "global_step/max_steps": "6900/12700"}
{"lm loss": 2.11884046, "grad_norm": 0.3470566, "learning_rate": 4.855e-05, "elapsed_time_per_iteration": 4.95910263, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 4s", "remaining_time": "7h 52m 18s", "loss_scale": 1.0, "consumed_samples": 1766656, "global_step/max_steps": "6901/12700"}
{"lm loss": 2.12015963, "grad_norm": 0.33915886, "learning_rate": 4.854e-05, "elapsed_time_per_iteration": 5.03765893, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 9s", "remaining_time": "7h 52m 14s", "loss_scale": 1.0, "consumed_samples": 1766912, "global_step/max_steps": "6902/12700"}
{"lm loss": 2.1063807, "grad_norm": 0.35550573, "learning_rate": 4.853e-05, "elapsed_time_per_iteration": 4.8387475, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 14s", "remaining_time": "7h 52m 9s", "loss_scale": 1.0, "consumed_samples": 1767168, "global_step/max_steps": "6903/12700"}
{"lm loss": 2.10782909, "grad_norm": 0.36718342, "learning_rate": 4.852e-05, "elapsed_time_per_iteration": 4.85124683, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 18s", "remaining_time": "7h 52m 4s", "loss_scale": 1.0, "consumed_samples": 1767424, "global_step/max_steps": "6904/12700"}
{"lm loss": 2.11012268, "grad_norm": 0.34828085, "learning_rate": 4.85e-05, "elapsed_time_per_iteration": 4.82822347, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 23s", "remaining_time": "7h 51m 59s", "loss_scale": 1.0, "consumed_samples": 1767680, "global_step/max_steps": "6905/12700"}
{"lm loss": 2.09014249, "grad_norm": 0.33228922, "learning_rate": 4.849e-05, "elapsed_time_per_iteration": 4.82853127, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 28s", "remaining_time": "7h 51m 54s", "loss_scale": 1.0, "consumed_samples": 1767936, "global_step/max_steps": "6906/12700"}
{"lm loss": 2.06444049, "grad_norm": 0.33740261, "learning_rate": 4.848e-05, "elapsed_time_per_iteration": 4.92478681, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 33s", "remaining_time": "7h 51m 49s", "loss_scale": 1.0, "consumed_samples": 1768192, "global_step/max_steps": "6907/12700"}
{"lm loss": 2.06688762, "grad_norm": 0.34087741, "learning_rate": 4.846e-05, "elapsed_time_per_iteration": 4.87651396, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 38s", "remaining_time": "7h 51m 44s", "loss_scale": 1.0, "consumed_samples": 1768448, "global_step/max_steps": "6908/12700"}
{"lm loss": 2.07365298, "grad_norm": 0.35525763, "learning_rate": 4.845e-05, "elapsed_time_per_iteration": 4.81661987, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 43s", "remaining_time": "7h 51m 39s", "loss_scale": 1.0, "consumed_samples": 1768704, "global_step/max_steps": "6909/12700"}
{"lm loss": 2.06991792, "grad_norm": 0.35389945, "learning_rate": 4.844e-05, "elapsed_time_per_iteration": 5.03022957, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 48s", "remaining_time": "7h 51m 34s", "loss_scale": 1.0, "consumed_samples": 1768960, "global_step/max_steps": "6910/12700"}
{"lm loss": 2.08820009, "grad_norm": 0.34229642, "learning_rate": 4.843e-05, "elapsed_time_per_iteration": 4.95914841, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 53s", "remaining_time": "7h 51m 30s", "loss_scale": 1.0, "consumed_samples": 1769216, "global_step/max_steps": "6911/12700"}
{"lm loss": 2.11354518, "grad_norm": 0.34124622, "learning_rate": 4.841e-05, "elapsed_time_per_iteration": 5.0282464, "memory(GiB)": 28.98, "elapsed_time": "9h 22m 58s", "remaining_time": "7h 51m 25s", "loss_scale": 1.0, "consumed_samples": 1769472, "global_step/max_steps": "6912/12700"}
{"lm loss": 2.0970149, "grad_norm": 0.33516249, "learning_rate": 4.84e-05, "elapsed_time_per_iteration": 4.8430419, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 3s", "remaining_time": "7h 51m 20s", "loss_scale": 1.0, "consumed_samples": 1769728, "global_step/max_steps": "6913/12700"}
{"lm loss": 2.09510231, "grad_norm": 0.35091919, "learning_rate": 4.839e-05, "elapsed_time_per_iteration": 4.85643029, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 7s", "remaining_time": "7h 51m 15s", "loss_scale": 1.0, "consumed_samples": 1769984, "global_step/max_steps": "6914/12700"}
{"lm loss": 2.07331491, "grad_norm": 0.33614412, "learning_rate": 4.838e-05, "elapsed_time_per_iteration": 4.9470861, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 12s", "remaining_time": "7h 51m 10s", "loss_scale": 1.0, "consumed_samples": 1770240, "global_step/max_steps": "6915/12700"}
{"lm loss": 2.05114532, "grad_norm": 0.36324286, "learning_rate": 4.836e-05, "elapsed_time_per_iteration": 4.83363652, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 17s", "remaining_time": "7h 51m 5s", "loss_scale": 1.0, "consumed_samples": 1770496, "global_step/max_steps": "6916/12700"}
{"lm loss": 2.10083938, "grad_norm": 0.34956035, "learning_rate": 4.835e-05, "elapsed_time_per_iteration": 4.86356235, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 22s", "remaining_time": "7h 51m 0s", "loss_scale": 1.0, "consumed_samples": 1770752, "global_step/max_steps": "6917/12700"}
{"lm loss": 2.06151891, "grad_norm": 0.37114483, "learning_rate": 4.834e-05, "elapsed_time_per_iteration": 5.00292993, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 27s", "remaining_time": "7h 50m 56s", "loss_scale": 1.0, "consumed_samples": 1771008, "global_step/max_steps": "6918/12700"}
{"lm loss": 2.07613707, "grad_norm": 0.38650295, "learning_rate": 4.833e-05, "elapsed_time_per_iteration": 4.95030785, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 32s", "remaining_time": "7h 50m 51s", "loss_scale": 1.0, "consumed_samples": 1771264, "global_step/max_steps": "6919/12700"}
{"lm loss": 2.08823824, "grad_norm": 0.37643048, "learning_rate": 4.831e-05, "elapsed_time_per_iteration": 5.04488087, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 37s", "remaining_time": "7h 50m 46s", "loss_scale": 1.0, "consumed_samples": 1771520, "global_step/max_steps": "6920/12700"}
{"lm loss": 2.10977697, "grad_norm": 0.35363019, "learning_rate": 4.83e-05, "elapsed_time_per_iteration": 4.88920927, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 42s", "remaining_time": "7h 50m 41s", "loss_scale": 1.0, "consumed_samples": 1771776, "global_step/max_steps": "6921/12700"}
{"lm loss": 2.07516122, "grad_norm": 0.37168515, "learning_rate": 4.829e-05, "elapsed_time_per_iteration": 4.81700087, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 47s", "remaining_time": "7h 50m 36s", "loss_scale": 1.0, "consumed_samples": 1772032, "global_step/max_steps": "6922/12700"}
{"lm loss": 2.10232544, "grad_norm": 0.36480007, "learning_rate": 4.828e-05, "elapsed_time_per_iteration": 4.87045002, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 52s", "remaining_time": "7h 50m 31s", "loss_scale": 1.0, "consumed_samples": 1772288, "global_step/max_steps": "6923/12700"}
{"lm loss": 2.08184981, "grad_norm": 0.36801779, "learning_rate": 4.826e-05, "elapsed_time_per_iteration": 4.84098935, "memory(GiB)": 28.98, "elapsed_time": "9h 23m 56s", "remaining_time": "7h 50m 26s", "loss_scale": 1.0, "consumed_samples": 1772544, "global_step/max_steps": "6924/12700"}
{"lm loss": 2.05913234, "grad_norm": 0.34649569, "learning_rate": 4.825e-05, "elapsed_time_per_iteration": 4.86480761, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 1s", "remaining_time": "7h 50m 21s", "loss_scale": 1.0, "consumed_samples": 1772800, "global_step/max_steps": "6925/12700"}
{"lm loss": 2.06258154, "grad_norm": 0.3554621, "learning_rate": 4.824e-05, "elapsed_time_per_iteration": 4.84933877, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 6s", "remaining_time": "7h 50m 16s", "loss_scale": 1.0, "consumed_samples": 1773056, "global_step/max_steps": "6926/12700"}
{"lm loss": 2.09741259, "grad_norm": 0.39964768, "learning_rate": 4.823e-05, "elapsed_time_per_iteration": 5.05073595, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 11s", "remaining_time": "7h 50m 12s", "loss_scale": 1.0, "consumed_samples": 1773312, "global_step/max_steps": "6927/12700"}
{"lm loss": 2.09602833, "grad_norm": 0.3690806, "learning_rate": 4.821e-05, "elapsed_time_per_iteration": 5.09464765, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 16s", "remaining_time": "7h 50m 7s", "loss_scale": 1.0, "consumed_samples": 1773568, "global_step/max_steps": "6928/12700"}
{"lm loss": 2.08757043, "grad_norm": 0.37818223, "learning_rate": 4.82e-05, "elapsed_time_per_iteration": 4.83748055, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 21s", "remaining_time": "7h 50m 2s", "loss_scale": 1.0, "consumed_samples": 1773824, "global_step/max_steps": "6929/12700"}
{"lm loss": 2.0946784, "grad_norm": 0.3404437, "learning_rate": 4.819e-05, "elapsed_time_per_iteration": 4.80645084, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 26s", "remaining_time": "7h 49m 57s", "loss_scale": 1.0, "consumed_samples": 1774080, "global_step/max_steps": "6930/12700"}
{"lm loss": 2.10538626, "grad_norm": 0.37252218, "learning_rate": 4.817e-05, "elapsed_time_per_iteration": 4.8166697, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 31s", "remaining_time": "7h 49m 52s", "loss_scale": 1.0, "consumed_samples": 1774336, "global_step/max_steps": "6931/12700"}
{"lm loss": 2.11673427, "grad_norm": 0.35047984, "learning_rate": 4.816e-05, "elapsed_time_per_iteration": 4.75769854, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 36s", "remaining_time": "7h 49m 47s", "loss_scale": 1.0, "consumed_samples": 1774592, "global_step/max_steps": "6932/12700"}
{"lm loss": 2.07289004, "grad_norm": 0.4129822, "learning_rate": 4.815e-05, "elapsed_time_per_iteration": 4.86610937, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 40s", "remaining_time": "7h 49m 42s", "loss_scale": 1.0, "consumed_samples": 1774848, "global_step/max_steps": "6933/12700"}
{"lm loss": 2.06583786, "grad_norm": 0.35688189, "learning_rate": 4.814e-05, "elapsed_time_per_iteration": 4.87570691, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 45s", "remaining_time": "7h 49m 37s", "loss_scale": 1.0, "consumed_samples": 1775104, "global_step/max_steps": "6934/12700"}
{"lm loss": 2.10653591, "grad_norm": 0.36355338, "learning_rate": 4.812e-05, "elapsed_time_per_iteration": 5.06271267, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 50s", "remaining_time": "7h 49m 33s", "loss_scale": 1.0, "consumed_samples": 1775360, "global_step/max_steps": "6935/12700"}
{"lm loss": 2.11447001, "grad_norm": 0.34968022, "learning_rate": 4.811e-05, "elapsed_time_per_iteration": 5.02254224, "memory(GiB)": 28.98, "elapsed_time": "9h 24m 55s", "remaining_time": "7h 49m 28s", "loss_scale": 1.0, "consumed_samples": 1775616, "global_step/max_steps": "6936/12700"}
{"lm loss": 2.09694719, "grad_norm": 0.39337191, "learning_rate": 4.81e-05, "elapsed_time_per_iteration": 4.93077564, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 0s", "remaining_time": "7h 49m 23s", "loss_scale": 1.0, "consumed_samples": 1775872, "global_step/max_steps": "6937/12700"}
{"lm loss": 2.1167953, "grad_norm": 0.40685961, "learning_rate": 4.809e-05, "elapsed_time_per_iteration": 4.81593776, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 5s", "remaining_time": "7h 49m 18s", "loss_scale": 1.0, "consumed_samples": 1776128, "global_step/max_steps": "6938/12700"}
{"lm loss": 2.08431959, "grad_norm": 0.35992178, "learning_rate": 4.807e-05, "elapsed_time_per_iteration": 4.87420011, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 10s", "remaining_time": "7h 49m 13s", "loss_scale": 1.0, "consumed_samples": 1776384, "global_step/max_steps": "6939/12700"}
{"lm loss": 2.05678749, "grad_norm": 0.38810676, "learning_rate": 4.806e-05, "elapsed_time_per_iteration": 4.91421199, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 15s", "remaining_time": "7h 49m 8s", "loss_scale": 1.0, "consumed_samples": 1776640, "global_step/max_steps": "6940/12700"}
{"lm loss": 2.09369302, "grad_norm": 0.38530052, "learning_rate": 4.805e-05, "elapsed_time_per_iteration": 4.90608501, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 20s", "remaining_time": "7h 49m 3s", "loss_scale": 1.0, "consumed_samples": 1776896, "global_step/max_steps": "6941/12700"}
{"lm loss": 2.09698534, "grad_norm": 0.38113183, "learning_rate": 4.804e-05, "elapsed_time_per_iteration": 4.93818021, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 25s", "remaining_time": "7h 48m 59s", "loss_scale": 1.0, "consumed_samples": 1777152, "global_step/max_steps": "6942/12700"}
{"lm loss": 2.10186434, "grad_norm": 0.37445709, "learning_rate": 4.802e-05, "elapsed_time_per_iteration": 4.92035341, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 30s", "remaining_time": "7h 48m 54s", "loss_scale": 1.0, "consumed_samples": 1777408, "global_step/max_steps": "6943/12700"}
{"lm loss": 2.08764791, "grad_norm": 0.34946409, "learning_rate": 4.801e-05, "elapsed_time_per_iteration": 5.0094707, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 35s", "remaining_time": "7h 48m 49s", "loss_scale": 1.0, "consumed_samples": 1777664, "global_step/max_steps": "6944/12700"}
{"lm loss": 2.0958395, "grad_norm": 0.37464336, "learning_rate": 4.8e-05, "elapsed_time_per_iteration": 5.01353693, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 40s", "remaining_time": "7h 48m 44s", "loss_scale": 1.0, "consumed_samples": 1777920, "global_step/max_steps": "6945/12700"}
{"lm loss": 2.10751629, "grad_norm": 0.35194036, "learning_rate": 4.799e-05, "elapsed_time_per_iteration": 4.93340468, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 45s", "remaining_time": "7h 48m 39s", "loss_scale": 1.0, "consumed_samples": 1778176, "global_step/max_steps": "6946/12700"}
{"lm loss": 2.1023581, "grad_norm": 0.37024054, "learning_rate": 4.797e-05, "elapsed_time_per_iteration": 4.90604162, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 50s", "remaining_time": "7h 48m 34s", "loss_scale": 1.0, "consumed_samples": 1778432, "global_step/max_steps": "6947/12700"}
{"lm loss": 2.09502554, "grad_norm": 0.36112496, "learning_rate": 4.796e-05, "elapsed_time_per_iteration": 4.80541945, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 54s", "remaining_time": "7h 48m 29s", "loss_scale": 1.0, "consumed_samples": 1778688, "global_step/max_steps": "6948/12700"}
{"lm loss": 2.14051652, "grad_norm": 0.37087688, "learning_rate": 4.795e-05, "elapsed_time_per_iteration": 4.77547336, "memory(GiB)": 28.98, "elapsed_time": "9h 25m 59s", "remaining_time": "7h 48m 24s", "loss_scale": 1.0, "consumed_samples": 1778944, "global_step/max_steps": "6949/12700"}
{"lm loss": 2.06367111, "grad_norm": 0.3579489, "learning_rate": 4.794e-05, "elapsed_time_per_iteration": 4.83159041, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 4s", "remaining_time": "7h 48m 20s", "loss_scale": 1.0, "consumed_samples": 1779200, "global_step/max_steps": "6950/12700"}
{"lm loss": 2.08529401, "grad_norm": 0.36391127, "learning_rate": 4.792e-05, "elapsed_time_per_iteration": 4.89289904, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 9s", "remaining_time": "7h 48m 15s", "loss_scale": 1.0, "consumed_samples": 1779456, "global_step/max_steps": "6951/12700"}
{"lm loss": 2.09607935, "grad_norm": 0.38104483, "learning_rate": 4.791e-05, "elapsed_time_per_iteration": 5.0255363, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 14s", "remaining_time": "7h 48m 10s", "loss_scale": 1.0, "consumed_samples": 1779712, "global_step/max_steps": "6952/12700"}
{"lm loss": 2.08003306, "grad_norm": 0.35533327, "learning_rate": 4.79e-05, "elapsed_time_per_iteration": 5.00422406, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 19s", "remaining_time": "7h 48m 5s", "loss_scale": 1.0, "consumed_samples": 1779968, "global_step/max_steps": "6953/12700"}
{"lm loss": 2.1002202, "grad_norm": 0.38538706, "learning_rate": 4.789e-05, "elapsed_time_per_iteration": 4.99364495, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 24s", "remaining_time": "7h 48m 0s", "loss_scale": 1.0, "consumed_samples": 1780224, "global_step/max_steps": "6954/12700"}
{"lm loss": 2.10346389, "grad_norm": 0.33388922, "learning_rate": 4.787e-05, "elapsed_time_per_iteration": 4.94024348, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 29s", "remaining_time": "7h 47m 55s", "loss_scale": 1.0, "consumed_samples": 1780480, "global_step/max_steps": "6955/12700"}
{"lm loss": 2.07806778, "grad_norm": 0.36651301, "learning_rate": 4.786e-05, "elapsed_time_per_iteration": 4.81702948, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 34s", "remaining_time": "7h 47m 51s", "loss_scale": 1.0, "consumed_samples": 1780736, "global_step/max_steps": "6956/12700"}
{"lm loss": 2.08582544, "grad_norm": 0.36961934, "learning_rate": 4.785e-05, "elapsed_time_per_iteration": 4.83991885, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 38s", "remaining_time": "7h 47m 46s", "loss_scale": 1.0, "consumed_samples": 1780992, "global_step/max_steps": "6957/12700"}
{"lm loss": 2.05243349, "grad_norm": 0.36600834, "learning_rate": 4.783e-05, "elapsed_time_per_iteration": 4.85741901, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 43s", "remaining_time": "7h 47m 41s", "loss_scale": 1.0, "consumed_samples": 1781248, "global_step/max_steps": "6958/12700"}
{"lm loss": 2.08497953, "grad_norm": 0.36113101, "learning_rate": 4.782e-05, "elapsed_time_per_iteration": 4.81860805, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 48s", "remaining_time": "7h 47m 36s", "loss_scale": 1.0, "consumed_samples": 1781504, "global_step/max_steps": "6959/12700"}
{"lm loss": 2.06538272, "grad_norm": 0.3424949, "learning_rate": 4.781e-05, "elapsed_time_per_iteration": 4.87966633, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 53s", "remaining_time": "7h 47m 31s", "loss_scale": 1.0, "consumed_samples": 1781760, "global_step/max_steps": "6960/12700"}
{"lm loss": 2.1035037, "grad_norm": 0.37004688, "learning_rate": 4.78e-05, "elapsed_time_per_iteration": 5.01103234, "memory(GiB)": 28.98, "elapsed_time": "9h 26m 58s", "remaining_time": "7h 47m 26s", "loss_scale": 1.0, "consumed_samples": 1782016, "global_step/max_steps": "6961/12700"}
{"lm loss": 2.06953287, "grad_norm": 0.36414483, "learning_rate": 4.778e-05, "elapsed_time_per_iteration": 4.98959517, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 3s", "remaining_time": "7h 47m 21s", "loss_scale": 1.0, "consumed_samples": 1782272, "global_step/max_steps": "6962/12700"}
{"lm loss": 2.0958786, "grad_norm": 0.38294786, "learning_rate": 4.777e-05, "elapsed_time_per_iteration": 4.98686242, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 8s", "remaining_time": "7h 47m 16s", "loss_scale": 1.0, "consumed_samples": 1782528, "global_step/max_steps": "6963/12700"}
{"lm loss": 2.08004165, "grad_norm": 0.37109059, "learning_rate": 4.776e-05, "elapsed_time_per_iteration": 4.94806838, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 13s", "remaining_time": "7h 47m 12s", "loss_scale": 1.0, "consumed_samples": 1782784, "global_step/max_steps": "6964/12700"}
{"lm loss": 2.09611034, "grad_norm": 0.35676217, "learning_rate": 4.775e-05, "elapsed_time_per_iteration": 4.9256804, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 18s", "remaining_time": "7h 47m 7s", "loss_scale": 1.0, "consumed_samples": 1783040, "global_step/max_steps": "6965/12700"}
{"lm loss": 2.08274794, "grad_norm": 0.40551898, "learning_rate": 4.773e-05, "elapsed_time_per_iteration": 4.86532283, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 23s", "remaining_time": "7h 47m 2s", "loss_scale": 1.0, "consumed_samples": 1783296, "global_step/max_steps": "6966/12700"}
{"lm loss": 2.0772922, "grad_norm": 0.34536615, "learning_rate": 4.772e-05, "elapsed_time_per_iteration": 4.93856597, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 28s", "remaining_time": "7h 46m 57s", "loss_scale": 1.0, "consumed_samples": 1783552, "global_step/max_steps": "6967/12700"}
{"lm loss": 2.11588144, "grad_norm": 0.37728614, "learning_rate": 4.771e-05, "elapsed_time_per_iteration": 4.8474648, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 32s", "remaining_time": "7h 46m 52s", "loss_scale": 1.0, "consumed_samples": 1783808, "global_step/max_steps": "6968/12700"}
{"lm loss": 2.10784626, "grad_norm": 0.36237729, "learning_rate": 4.77e-05, "elapsed_time_per_iteration": 4.9150064, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 37s", "remaining_time": "7h 46m 47s", "loss_scale": 1.0, "consumed_samples": 1784064, "global_step/max_steps": "6969/12700"}
{"lm loss": 2.07864356, "grad_norm": 0.35545009, "learning_rate": 4.768e-05, "elapsed_time_per_iteration": 4.96926236, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 42s", "remaining_time": "7h 46m 42s", "loss_scale": 1.0, "consumed_samples": 1784320, "global_step/max_steps": "6970/12700"}
{"lm loss": 2.12321925, "grad_norm": 0.36297169, "learning_rate": 4.767e-05, "elapsed_time_per_iteration": 5.10387063, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 47s", "remaining_time": "7h 46m 38s", "loss_scale": 1.0, "consumed_samples": 1784576, "global_step/max_steps": "6971/12700"}
{"lm loss": 2.06395912, "grad_norm": 0.35777548, "learning_rate": 4.766e-05, "elapsed_time_per_iteration": 4.98689604, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 52s", "remaining_time": "7h 46m 33s", "loss_scale": 1.0, "consumed_samples": 1784832, "global_step/max_steps": "6972/12700"}
{"lm loss": 2.05794311, "grad_norm": 0.34124142, "learning_rate": 4.765e-05, "elapsed_time_per_iteration": 4.7963829, "memory(GiB)": 28.98, "elapsed_time": "9h 27m 57s", "remaining_time": "7h 46m 28s", "loss_scale": 1.0, "consumed_samples": 1785088, "global_step/max_steps": "6973/12700"}
{"lm loss": 2.09156919, "grad_norm": 0.36050028, "learning_rate": 4.763e-05, "elapsed_time_per_iteration": 4.87527847, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 2s", "remaining_time": "7h 46m 23s", "loss_scale": 1.0, "consumed_samples": 1785344, "global_step/max_steps": "6974/12700"}
{"lm loss": 2.08081007, "grad_norm": 0.34358492, "learning_rate": 4.762e-05, "elapsed_time_per_iteration": 4.97161555, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 7s", "remaining_time": "7h 46m 18s", "loss_scale": 1.0, "consumed_samples": 1785600, "global_step/max_steps": "6975/12700"}
{"lm loss": 2.0712111, "grad_norm": 0.39139742, "learning_rate": 4.761e-05, "elapsed_time_per_iteration": 4.96200132, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 12s", "remaining_time": "7h 46m 13s", "loss_scale": 1.0, "consumed_samples": 1785856, "global_step/max_steps": "6976/12700"}
{"lm loss": 2.09622455, "grad_norm": 0.33521113, "learning_rate": 4.76e-05, "elapsed_time_per_iteration": 4.88168263, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 17s", "remaining_time": "7h 46m 9s", "loss_scale": 1.0, "consumed_samples": 1786112, "global_step/max_steps": "6977/12700"}
{"lm loss": 2.10989022, "grad_norm": 0.40015492, "learning_rate": 4.758e-05, "elapsed_time_per_iteration": 5.08243465, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 22s", "remaining_time": "7h 46m 4s", "loss_scale": 1.0, "consumed_samples": 1786368, "global_step/max_steps": "6978/12700"}
{"lm loss": 2.07692099, "grad_norm": 0.36004823, "learning_rate": 4.757e-05, "elapsed_time_per_iteration": 4.93981767, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 27s", "remaining_time": "7h 45m 59s", "loss_scale": 1.0, "consumed_samples": 1786624, "global_step/max_steps": "6979/12700"}
{"lm loss": 2.06353307, "grad_norm": 0.36718881, "learning_rate": 4.756e-05, "elapsed_time_per_iteration": 4.92424822, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 32s", "remaining_time": "7h 45m 54s", "loss_scale": 1.0, "consumed_samples": 1786880, "global_step/max_steps": "6980/12700"}
{"lm loss": 2.08643126, "grad_norm": 0.36853737, "learning_rate": 4.755e-05, "elapsed_time_per_iteration": 4.97355103, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 37s", "remaining_time": "7h 45m 49s", "loss_scale": 1.0, "consumed_samples": 1787136, "global_step/max_steps": "6981/12700"}
{"lm loss": 2.09230542, "grad_norm": 0.35892701, "learning_rate": 4.753e-05, "elapsed_time_per_iteration": 4.83894587, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 42s", "remaining_time": "7h 45m 44s", "loss_scale": 1.0, "consumed_samples": 1787392, "global_step/max_steps": "6982/12700"}
{"lm loss": 2.09935427, "grad_norm": 0.35214072, "learning_rate": 4.752e-05, "elapsed_time_per_iteration": 4.86379862, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 47s", "remaining_time": "7h 45m 39s", "loss_scale": 1.0, "consumed_samples": 1787648, "global_step/max_steps": "6983/12700"}
{"lm loss": 2.07316279, "grad_norm": 0.38637459, "learning_rate": 4.751e-05, "elapsed_time_per_iteration": 4.98491001, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 52s", "remaining_time": "7h 45m 35s", "loss_scale": 1.0, "consumed_samples": 1787904, "global_step/max_steps": "6984/12700"}
{"lm loss": 2.10052538, "grad_norm": 0.36338532, "learning_rate": 4.749e-05, "elapsed_time_per_iteration": 4.86917925, "memory(GiB)": 28.98, "elapsed_time": "9h 28m 56s", "remaining_time": "7h 45m 30s", "loss_scale": 1.0, "consumed_samples": 1788160, "global_step/max_steps": "6985/12700"}
{"lm loss": 2.09208822, "grad_norm": 0.35135034, "learning_rate": 4.748e-05, "elapsed_time_per_iteration": 5.13679194, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 2s", "remaining_time": "7h 45m 25s", "loss_scale": 1.0, "consumed_samples": 1788416, "global_step/max_steps": "6986/12700"}
{"lm loss": 2.08171773, "grad_norm": 0.3928147, "learning_rate": 4.747e-05, "elapsed_time_per_iteration": 4.97499847, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 7s", "remaining_time": "7h 45m 20s", "loss_scale": 1.0, "consumed_samples": 1788672, "global_step/max_steps": "6987/12700"}
{"lm loss": 2.1197896, "grad_norm": 0.35269284, "learning_rate": 4.746e-05, "elapsed_time_per_iteration": 4.89943242, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 11s", "remaining_time": "7h 45m 15s", "loss_scale": 1.0, "consumed_samples": 1788928, "global_step/max_steps": "6988/12700"}
{"lm loss": 2.07699847, "grad_norm": 0.43093735, "learning_rate": 4.744e-05, "elapsed_time_per_iteration": 4.94284534, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 16s", "remaining_time": "7h 45m 11s", "loss_scale": 1.0, "consumed_samples": 1789184, "global_step/max_steps": "6989/12700"}
{"lm loss": 2.0831542, "grad_norm": 0.38085154, "learning_rate": 4.743e-05, "elapsed_time_per_iteration": 4.83386993, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 21s", "remaining_time": "7h 45m 6s", "loss_scale": 1.0, "consumed_samples": 1789440, "global_step/max_steps": "6990/12700"}
{"lm loss": 2.08979392, "grad_norm": 0.39164472, "learning_rate": 4.742e-05, "elapsed_time_per_iteration": 4.92818356, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 26s", "remaining_time": "7h 45m 1s", "loss_scale": 1.0, "consumed_samples": 1789696, "global_step/max_steps": "6991/12700"}
{"lm loss": 2.10147715, "grad_norm": 0.37903881, "learning_rate": 4.741e-05, "elapsed_time_per_iteration": 4.96755457, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 31s", "remaining_time": "7h 44m 56s", "loss_scale": 1.0, "consumed_samples": 1789952, "global_step/max_steps": "6992/12700"}
{"lm loss": 2.08798051, "grad_norm": 0.39714807, "learning_rate": 4.739e-05, "elapsed_time_per_iteration": 4.89966774, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 36s", "remaining_time": "7h 44m 51s", "loss_scale": 1.0, "consumed_samples": 1790208, "global_step/max_steps": "6993/12700"}
{"lm loss": 2.10939193, "grad_norm": 0.38869685, "learning_rate": 4.738e-05, "elapsed_time_per_iteration": 4.94260669, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 41s", "remaining_time": "7h 44m 46s", "loss_scale": 1.0, "consumed_samples": 1790464, "global_step/max_steps": "6994/12700"}
{"lm loss": 2.06750655, "grad_norm": 0.36491305, "learning_rate": 4.737e-05, "elapsed_time_per_iteration": 4.98109269, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 46s", "remaining_time": "7h 44m 41s", "loss_scale": 1.0, "consumed_samples": 1790720, "global_step/max_steps": "6995/12700"}
{"lm loss": 2.1031723, "grad_norm": 0.36782879, "learning_rate": 4.736e-05, "elapsed_time_per_iteration": 4.8929069, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 51s", "remaining_time": "7h 44m 36s", "loss_scale": 1.0, "consumed_samples": 1790976, "global_step/max_steps": "6996/12700"}
{"lm loss": 2.06819844, "grad_norm": 0.36523119, "learning_rate": 4.734e-05, "elapsed_time_per_iteration": 5.12756276, "memory(GiB)": 28.98, "elapsed_time": "9h 29m 56s", "remaining_time": "7h 44m 32s", "loss_scale": 1.0, "consumed_samples": 1791232, "global_step/max_steps": "6997/12700"}
{"lm loss": 2.04188752, "grad_norm": 0.3790769, "learning_rate": 4.733e-05, "elapsed_time_per_iteration": 5.16639519, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 1s", "remaining_time": "7h 44m 27s", "loss_scale": 1.0, "consumed_samples": 1791488, "global_step/max_steps": "6998/12700"}
{"lm loss": 2.08358645, "grad_norm": 0.35025281, "learning_rate": 4.732e-05, "elapsed_time_per_iteration": 4.85424113, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 6s", "remaining_time": "7h 44m 22s", "loss_scale": 1.0, "consumed_samples": 1791744, "global_step/max_steps": "6999/12700"}
{"lm loss": 2.08313942, "grad_norm": 0.35397571, "learning_rate": 4.731e-05, "elapsed_time_per_iteration": 4.90365386, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 11s", "remaining_time": "7h 44m 17s", "loss_scale": 1.0, "consumed_samples": 1792000, "global_step/max_steps": "7000/12700"}
{"lm loss": 2.08251333, "grad_norm": 0.38787708, "learning_rate": 4.729e-05, "elapsed_time_per_iteration": 5.00027943, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 16s", "remaining_time": "7h 44m 13s", "loss_scale": 1.0, "consumed_samples": 1792256, "global_step/max_steps": "7001/12700"}
{"lm loss": 2.07225418, "grad_norm": 0.3500317, "learning_rate": 4.728e-05, "elapsed_time_per_iteration": 5.03176165, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 21s", "remaining_time": "7h 44m 8s", "loss_scale": 1.0, "consumed_samples": 1792512, "global_step/max_steps": "7002/12700"}
{"lm loss": 2.12146759, "grad_norm": 0.36994028, "learning_rate": 4.727e-05, "elapsed_time_per_iteration": 4.8742764, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 26s", "remaining_time": "7h 44m 3s", "loss_scale": 1.0, "consumed_samples": 1792768, "global_step/max_steps": "7003/12700"}
{"lm loss": 2.10719728, "grad_norm": 0.33466202, "learning_rate": 4.726e-05, "elapsed_time_per_iteration": 4.81890893, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 31s", "remaining_time": "7h 43m 58s", "loss_scale": 1.0, "consumed_samples": 1793024, "global_step/max_steps": "7004/12700"}
{"lm loss": 2.05589485, "grad_norm": 0.36892483, "learning_rate": 4.724e-05, "elapsed_time_per_iteration": 4.81263328, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 35s", "remaining_time": "7h 43m 53s", "loss_scale": 1.0, "consumed_samples": 1793280, "global_step/max_steps": "7005/12700"}
{"lm loss": 2.08416414, "grad_norm": 0.34429926, "learning_rate": 4.723e-05, "elapsed_time_per_iteration": 4.80789948, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 40s", "remaining_time": "7h 43m 48s", "loss_scale": 1.0, "consumed_samples": 1793536, "global_step/max_steps": "7006/12700"}
{"lm loss": 2.06651425, "grad_norm": 0.36899886, "learning_rate": 4.722e-05, "elapsed_time_per_iteration": 4.94591355, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 45s", "remaining_time": "7h 43m 43s", "loss_scale": 1.0, "consumed_samples": 1793792, "global_step/max_steps": "7007/12700"}
{"lm loss": 2.07950068, "grad_norm": 0.33340332, "learning_rate": 4.721e-05, "elapsed_time_per_iteration": 4.85653043, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 50s", "remaining_time": "7h 43m 38s", "loss_scale": 1.0, "consumed_samples": 1794048, "global_step/max_steps": "7008/12700"}
{"lm loss": 2.08343029, "grad_norm": 0.35436565, "learning_rate": 4.719e-05, "elapsed_time_per_iteration": 4.94287729, "memory(GiB)": 28.98, "elapsed_time": "9h 30m 55s", "remaining_time": "7h 43m 33s", "loss_scale": 1.0, "consumed_samples": 1794304, "global_step/max_steps": "7009/12700"}
{"lm loss": 2.09897137, "grad_norm": 0.35232282, "learning_rate": 4.718e-05, "elapsed_time_per_iteration": 5.01520848, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 0s", "remaining_time": "7h 43m 29s", "loss_scale": 1.0, "consumed_samples": 1794560, "global_step/max_steps": "7010/12700"}
{"lm loss": 2.05661488, "grad_norm": 0.37247747, "learning_rate": 4.717e-05, "elapsed_time_per_iteration": 4.97404003, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 5s", "remaining_time": "7h 43m 24s", "loss_scale": 1.0, "consumed_samples": 1794816, "global_step/max_steps": "7011/12700"}
{"lm loss": 2.08226585, "grad_norm": 0.34136593, "learning_rate": 4.716e-05, "elapsed_time_per_iteration": 4.79515958, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 10s", "remaining_time": "7h 43m 19s", "loss_scale": 1.0, "consumed_samples": 1795072, "global_step/max_steps": "7012/12700"}
{"lm loss": 2.09256077, "grad_norm": 0.34651786, "learning_rate": 4.714e-05, "elapsed_time_per_iteration": 4.94263983, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 15s", "remaining_time": "7h 43m 14s", "loss_scale": 1.0, "consumed_samples": 1795328, "global_step/max_steps": "7013/12700"}
{"lm loss": 2.09716487, "grad_norm": 0.34642267, "learning_rate": 4.713e-05, "elapsed_time_per_iteration": 4.81719518, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 20s", "remaining_time": "7h 43m 9s", "loss_scale": 1.0, "consumed_samples": 1795584, "global_step/max_steps": "7014/12700"}
{"lm loss": 2.09577084, "grad_norm": 0.33840111, "learning_rate": 4.712e-05, "elapsed_time_per_iteration": 4.74500799, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 24s", "remaining_time": "7h 43m 4s", "loss_scale": 1.0, "consumed_samples": 1795840, "global_step/max_steps": "7015/12700"}
{"lm loss": 2.11298585, "grad_norm": 0.37565044, "learning_rate": 4.71e-05, "elapsed_time_per_iteration": 4.90453887, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 29s", "remaining_time": "7h 42m 59s", "loss_scale": 1.0, "consumed_samples": 1796096, "global_step/max_steps": "7016/12700"}
{"lm loss": 2.06217265, "grad_norm": 0.339369, "learning_rate": 4.709e-05, "elapsed_time_per_iteration": 4.99188089, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 34s", "remaining_time": "7h 42m 54s", "loss_scale": 1.0, "consumed_samples": 1796352, "global_step/max_steps": "7017/12700"}
{"lm loss": 2.05029249, "grad_norm": 0.34114614, "learning_rate": 4.708e-05, "elapsed_time_per_iteration": 4.95880747, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 39s", "remaining_time": "7h 42m 50s", "loss_scale": 1.0, "consumed_samples": 1796608, "global_step/max_steps": "7018/12700"}
{"lm loss": 2.08308029, "grad_norm": 0.34718913, "learning_rate": 4.707e-05, "elapsed_time_per_iteration": 5.04715228, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 44s", "remaining_time": "7h 42m 45s", "loss_scale": 1.0, "consumed_samples": 1796864, "global_step/max_steps": "7019/12700"}
{"lm loss": 2.07751846, "grad_norm": 0.3621797, "learning_rate": 4.705e-05, "elapsed_time_per_iteration": 4.97252083, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 49s", "remaining_time": "7h 42m 40s", "loss_scale": 1.0, "consumed_samples": 1797120, "global_step/max_steps": "7020/12700"}
{"lm loss": 2.09869838, "grad_norm": 0.34677452, "learning_rate": 4.704e-05, "elapsed_time_per_iteration": 4.90639806, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 54s", "remaining_time": "7h 42m 35s", "loss_scale": 1.0, "consumed_samples": 1797376, "global_step/max_steps": "7021/12700"}
{"lm loss": 2.08257556, "grad_norm": 0.35964486, "learning_rate": 4.703e-05, "elapsed_time_per_iteration": 4.8233459, "memory(GiB)": 28.98, "elapsed_time": "9h 31m 59s", "remaining_time": "7h 42m 30s", "loss_scale": 1.0, "consumed_samples": 1797632, "global_step/max_steps": "7022/12700"}
{"lm loss": 2.06107426, "grad_norm": 0.3581624, "learning_rate": 4.702e-05, "elapsed_time_per_iteration": 4.9308567, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 4s", "remaining_time": "7h 42m 25s", "loss_scale": 1.0, "consumed_samples": 1797888, "global_step/max_steps": "7023/12700"}
{"lm loss": 2.06124258, "grad_norm": 0.3796908, "learning_rate": 4.7e-05, "elapsed_time_per_iteration": 4.83105421, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 9s", "remaining_time": "7h 42m 20s", "loss_scale": 1.0, "consumed_samples": 1798144, "global_step/max_steps": "7024/12700"}
{"lm loss": 2.08727455, "grad_norm": 0.36547413, "learning_rate": 4.699e-05, "elapsed_time_per_iteration": 4.9210031, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 14s", "remaining_time": "7h 42m 16s", "loss_scale": 1.0, "consumed_samples": 1798400, "global_step/max_steps": "7025/12700"}
{"lm loss": 2.09935498, "grad_norm": 0.41694748, "learning_rate": 4.698e-05, "elapsed_time_per_iteration": 5.07161736, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 19s", "remaining_time": "7h 42m 11s", "loss_scale": 1.0, "consumed_samples": 1798656, "global_step/max_steps": "7026/12700"}
{"lm loss": 2.07786798, "grad_norm": 0.35308811, "learning_rate": 4.697e-05, "elapsed_time_per_iteration": 5.1630075, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 24s", "remaining_time": "7h 42m 6s", "loss_scale": 1.0, "consumed_samples": 1798912, "global_step/max_steps": "7027/12700"}
{"lm loss": 2.07003927, "grad_norm": 0.3808631, "learning_rate": 4.695e-05, "elapsed_time_per_iteration": 4.96161962, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 29s", "remaining_time": "7h 42m 1s", "loss_scale": 1.0, "consumed_samples": 1799168, "global_step/max_steps": "7028/12700"}
{"lm loss": 2.0890274, "grad_norm": 0.37894088, "learning_rate": 4.694e-05, "elapsed_time_per_iteration": 4.89944291, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 34s", "remaining_time": "7h 41m 56s", "loss_scale": 1.0, "consumed_samples": 1799424, "global_step/max_steps": "7029/12700"}
{"lm loss": 2.05434823, "grad_norm": 0.35626474, "learning_rate": 4.693e-05, "elapsed_time_per_iteration": 4.81284571, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 38s", "remaining_time": "7h 41m 51s", "loss_scale": 1.0, "consumed_samples": 1799680, "global_step/max_steps": "7030/12700"}
{"lm loss": 2.04870653, "grad_norm": 0.39985561, "learning_rate": 4.692e-05, "elapsed_time_per_iteration": 4.83176851, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 43s", "remaining_time": "7h 41m 47s", "loss_scale": 1.0, "consumed_samples": 1799936, "global_step/max_steps": "7031/12700"}
{"lm loss": 2.08776355, "grad_norm": 0.3447549, "learning_rate": 4.69e-05, "elapsed_time_per_iteration": 4.84690547, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 48s", "remaining_time": "7h 41m 42s", "loss_scale": 1.0, "consumed_samples": 1800192, "global_step/max_steps": "7032/12700"}
{"lm loss": 2.07057691, "grad_norm": 0.38314468, "learning_rate": 4.689e-05, "elapsed_time_per_iteration": 4.85675383, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 53s", "remaining_time": "7h 41m 37s", "loss_scale": 1.0, "consumed_samples": 1800448, "global_step/max_steps": "7033/12700"}
{"lm loss": 2.08624101, "grad_norm": 0.34227785, "learning_rate": 4.688e-05, "elapsed_time_per_iteration": 4.84799957, "memory(GiB)": 28.98, "elapsed_time": "9h 32m 58s", "remaining_time": "7h 41m 32s", "loss_scale": 1.0, "consumed_samples": 1800704, "global_step/max_steps": "7034/12700"}
{"lm loss": 2.12154341, "grad_norm": 0.37712085, "learning_rate": 4.687e-05, "elapsed_time_per_iteration": 5.05381465, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 3s", "remaining_time": "7h 41m 27s", "loss_scale": 1.0, "consumed_samples": 1800960, "global_step/max_steps": "7035/12700"}
{"lm loss": 2.08128548, "grad_norm": 0.36228737, "learning_rate": 4.685e-05, "elapsed_time_per_iteration": 4.93919539, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 8s", "remaining_time": "7h 41m 22s", "loss_scale": 1.0, "consumed_samples": 1801216, "global_step/max_steps": "7036/12700"}
{"lm loss": 2.11132193, "grad_norm": 0.35032943, "learning_rate": 4.684e-05, "elapsed_time_per_iteration": 4.98095155, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 13s", "remaining_time": "7h 41m 17s", "loss_scale": 1.0, "consumed_samples": 1801472, "global_step/max_steps": "7037/12700"}
{"lm loss": 2.09522557, "grad_norm": 0.38898584, "learning_rate": 4.683e-05, "elapsed_time_per_iteration": 4.82715511, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 18s", "remaining_time": "7h 41m 12s", "loss_scale": 1.0, "consumed_samples": 1801728, "global_step/max_steps": "7038/12700"}
{"lm loss": 2.05088329, "grad_norm": 0.35316288, "learning_rate": 4.682e-05, "elapsed_time_per_iteration": 4.83999991, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 22s", "remaining_time": "7h 41m 8s", "loss_scale": 1.0, "consumed_samples": 1801984, "global_step/max_steps": "7039/12700"}
{"lm loss": 2.12048793, "grad_norm": 0.38879782, "learning_rate": 4.68e-05, "elapsed_time_per_iteration": 4.86775589, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 27s", "remaining_time": "7h 41m 3s", "loss_scale": 1.0, "consumed_samples": 1802240, "global_step/max_steps": "7040/12700"}
{"lm loss": 2.06578827, "grad_norm": 0.36707824, "learning_rate": 4.679e-05, "elapsed_time_per_iteration": 4.94343209, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 32s", "remaining_time": "7h 40m 58s", "loss_scale": 1.0, "consumed_samples": 1802496, "global_step/max_steps": "7041/12700"}
{"lm loss": 2.08162093, "grad_norm": 0.35819212, "learning_rate": 4.678e-05, "elapsed_time_per_iteration": 4.90951133, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 37s", "remaining_time": "7h 40m 53s", "loss_scale": 1.0, "consumed_samples": 1802752, "global_step/max_steps": "7042/12700"}
{"lm loss": 2.06392717, "grad_norm": 0.38244653, "learning_rate": 4.677e-05, "elapsed_time_per_iteration": 4.90859056, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 42s", "remaining_time": "7h 40m 48s", "loss_scale": 1.0, "consumed_samples": 1803008, "global_step/max_steps": "7043/12700"}
{"lm loss": 2.05557275, "grad_norm": 0.36532563, "learning_rate": 4.675e-05, "elapsed_time_per_iteration": 5.01155567, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 47s", "remaining_time": "7h 40m 43s", "loss_scale": 1.0, "consumed_samples": 1803264, "global_step/max_steps": "7044/12700"}
{"lm loss": 2.09612942, "grad_norm": 0.39103019, "learning_rate": 4.674e-05, "elapsed_time_per_iteration": 4.97741437, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 52s", "remaining_time": "7h 40m 38s", "loss_scale": 1.0, "consumed_samples": 1803520, "global_step/max_steps": "7045/12700"}
{"lm loss": 2.08448029, "grad_norm": 0.39629883, "learning_rate": 4.673e-05, "elapsed_time_per_iteration": 4.89571309, "memory(GiB)": 28.98, "elapsed_time": "9h 33m 57s", "remaining_time": "7h 40m 34s", "loss_scale": 1.0, "consumed_samples": 1803776, "global_step/max_steps": "7046/12700"}
{"lm loss": 2.05087733, "grad_norm": 0.36662471, "learning_rate": 4.672e-05, "elapsed_time_per_iteration": 4.88374877, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 2s", "remaining_time": "7h 40m 29s", "loss_scale": 1.0, "consumed_samples": 1804032, "global_step/max_steps": "7047/12700"}
{"lm loss": 2.06511235, "grad_norm": 0.36879322, "learning_rate": 4.67e-05, "elapsed_time_per_iteration": 4.90079236, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 7s", "remaining_time": "7h 40m 24s", "loss_scale": 1.0, "consumed_samples": 1804288, "global_step/max_steps": "7048/12700"}
{"lm loss": 2.05481482, "grad_norm": 0.36954305, "learning_rate": 4.669e-05, "elapsed_time_per_iteration": 4.7828176, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 12s", "remaining_time": "7h 40m 19s", "loss_scale": 1.0, "consumed_samples": 1804544, "global_step/max_steps": "7049/12700"}
{"lm loss": 2.10600495, "grad_norm": 0.40511572, "learning_rate": 4.668e-05, "elapsed_time_per_iteration": 4.98804092, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 17s", "remaining_time": "7h 40m 14s", "loss_scale": 1.0, "consumed_samples": 1804800, "global_step/max_steps": "7050/12700"}
{"lm loss": 2.10433269, "grad_norm": 0.37506077, "learning_rate": 4.666e-05, "elapsed_time_per_iteration": 5.07050109, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 22s", "remaining_time": "7h 40m 9s", "loss_scale": 1.0, "consumed_samples": 1805056, "global_step/max_steps": "7051/12700"}
{"lm loss": 2.08319616, "grad_norm": 0.36391026, "learning_rate": 4.665e-05, "elapsed_time_per_iteration": 4.94480324, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 27s", "remaining_time": "7h 40m 4s", "loss_scale": 1.0, "consumed_samples": 1805312, "global_step/max_steps": "7052/12700"}
{"lm loss": 2.06411195, "grad_norm": 0.38384923, "learning_rate": 4.664e-05, "elapsed_time_per_iteration": 4.92803717, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 32s", "remaining_time": "7h 40m 0s", "loss_scale": 1.0, "consumed_samples": 1805568, "global_step/max_steps": "7053/12700"}
{"lm loss": 2.08758688, "grad_norm": 0.36900678, "learning_rate": 4.663e-05, "elapsed_time_per_iteration": 4.87208128, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 36s", "remaining_time": "7h 39m 55s", "loss_scale": 1.0, "consumed_samples": 1805824, "global_step/max_steps": "7054/12700"}
{"lm loss": 2.07621217, "grad_norm": 0.38564172, "learning_rate": 4.661e-05, "elapsed_time_per_iteration": 4.96957755, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 41s", "remaining_time": "7h 39m 50s", "loss_scale": 1.0, "consumed_samples": 1806080, "global_step/max_steps": "7055/12700"}
{"lm loss": 2.08847713, "grad_norm": 0.37359369, "learning_rate": 4.66e-05, "elapsed_time_per_iteration": 4.83158088, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 46s", "remaining_time": "7h 39m 45s", "loss_scale": 1.0, "consumed_samples": 1806336, "global_step/max_steps": "7056/12700"}
{"lm loss": 2.08556056, "grad_norm": 0.37200108, "learning_rate": 4.659e-05, "elapsed_time_per_iteration": 4.91460943, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 51s", "remaining_time": "7h 39m 40s", "loss_scale": 1.0, "consumed_samples": 1806592, "global_step/max_steps": "7057/12700"}
{"lm loss": 2.06733155, "grad_norm": 0.4105449, "learning_rate": 4.658e-05, "elapsed_time_per_iteration": 4.92516541, "memory(GiB)": 28.98, "elapsed_time": "9h 34m 56s", "remaining_time": "7h 39m 35s", "loss_scale": 1.0, "consumed_samples": 1806848, "global_step/max_steps": "7058/12700"}
{"lm loss": 2.08059311, "grad_norm": 0.38254908, "learning_rate": 4.656e-05, "elapsed_time_per_iteration": 4.86028552, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 1s", "remaining_time": "7h 39m 30s", "loss_scale": 1.0, "consumed_samples": 1807104, "global_step/max_steps": "7059/12700"}
{"lm loss": 2.14100266, "grad_norm": 0.42224127, "learning_rate": 4.655e-05, "elapsed_time_per_iteration": 5.02115822, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 6s", "remaining_time": "7h 39m 26s", "loss_scale": 1.0, "consumed_samples": 1807360, "global_step/max_steps": "7060/12700"}
{"lm loss": 2.0778563, "grad_norm": 0.35941073, "learning_rate": 4.654e-05, "elapsed_time_per_iteration": 4.96715546, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 11s", "remaining_time": "7h 39m 21s", "loss_scale": 1.0, "consumed_samples": 1807616, "global_step/max_steps": "7061/12700"}
{"lm loss": 2.07886648, "grad_norm": 0.41331995, "learning_rate": 4.653e-05, "elapsed_time_per_iteration": 4.90393662, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 16s", "remaining_time": "7h 39m 16s", "loss_scale": 1.0, "consumed_samples": 1807872, "global_step/max_steps": "7062/12700"}
{"lm loss": 2.10001016, "grad_norm": 0.35752308, "learning_rate": 4.651e-05, "elapsed_time_per_iteration": 5.09642434, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 21s", "remaining_time": "7h 39m 11s", "loss_scale": 1.0, "consumed_samples": 1808128, "global_step/max_steps": "7063/12700"}
{"lm loss": 2.0820446, "grad_norm": 0.42639503, "learning_rate": 4.65e-05, "elapsed_time_per_iteration": 5.02789927, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 26s", "remaining_time": "7h 39m 6s", "loss_scale": 1.0, "consumed_samples": 1808384, "global_step/max_steps": "7064/12700"}
{"lm loss": 2.07703185, "grad_norm": 0.32799524, "learning_rate": 4.649e-05, "elapsed_time_per_iteration": 4.78491497, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 31s", "remaining_time": "7h 39m 1s", "loss_scale": 1.0, "consumed_samples": 1808640, "global_step/max_steps": "7065/12700"}
{"lm loss": 2.06667709, "grad_norm": 0.38204145, "learning_rate": 4.648e-05, "elapsed_time_per_iteration": 4.98079967, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 36s", "remaining_time": "7h 38m 57s", "loss_scale": 1.0, "consumed_samples": 1808896, "global_step/max_steps": "7066/12700"}
{"lm loss": 2.05003071, "grad_norm": 0.37238401, "learning_rate": 4.646e-05, "elapsed_time_per_iteration": 4.82227087, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 40s", "remaining_time": "7h 38m 52s", "loss_scale": 1.0, "consumed_samples": 1809152, "global_step/max_steps": "7067/12700"}
{"lm loss": 2.0885849, "grad_norm": 0.3781212, "learning_rate": 4.645e-05, "elapsed_time_per_iteration": 4.94889975, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 45s", "remaining_time": "7h 38m 47s", "loss_scale": 1.0, "consumed_samples": 1809408, "global_step/max_steps": "7068/12700"}
{"lm loss": 2.07941747, "grad_norm": 0.35920438, "learning_rate": 4.644e-05, "elapsed_time_per_iteration": 4.98921514, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 50s", "remaining_time": "7h 38m 42s", "loss_scale": 1.0, "consumed_samples": 1809664, "global_step/max_steps": "7069/12700"}
{"lm loss": 2.08238864, "grad_norm": 0.34871534, "learning_rate": 4.643e-05, "elapsed_time_per_iteration": 4.86699748, "memory(GiB)": 28.98, "elapsed_time": "9h 35m 55s", "remaining_time": "7h 38m 37s", "loss_scale": 1.0, "consumed_samples": 1809920, "global_step/max_steps": "7070/12700"}
{"lm loss": 2.08042097, "grad_norm": 0.39897162, "learning_rate": 4.641e-05, "elapsed_time_per_iteration": 4.9727962, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 0s", "remaining_time": "7h 38m 32s", "loss_scale": 1.0, "consumed_samples": 1810176, "global_step/max_steps": "7071/12700"}
{"lm loss": 2.08027601, "grad_norm": 0.34920153, "learning_rate": 4.64e-05, "elapsed_time_per_iteration": 5.13021016, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 5s", "remaining_time": "7h 38m 28s", "loss_scale": 1.0, "consumed_samples": 1810432, "global_step/max_steps": "7072/12700"}
{"lm loss": 2.10685277, "grad_norm": 0.36836046, "learning_rate": 4.639e-05, "elapsed_time_per_iteration": 4.86682701, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 10s", "remaining_time": "7h 38m 23s", "loss_scale": 1.0, "consumed_samples": 1810688, "global_step/max_steps": "7073/12700"}
{"lm loss": 2.09682274, "grad_norm": 0.37359571, "learning_rate": 4.638e-05, "elapsed_time_per_iteration": 4.89062119, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 15s", "remaining_time": "7h 38m 18s", "loss_scale": 1.0, "consumed_samples": 1810944, "global_step/max_steps": "7074/12700"}
{"lm loss": 2.10079503, "grad_norm": 0.34799644, "learning_rate": 4.636e-05, "elapsed_time_per_iteration": 4.87900233, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 20s", "remaining_time": "7h 38m 13s", "loss_scale": 1.0, "consumed_samples": 1811200, "global_step/max_steps": "7075/12700"}
{"lm loss": 2.09233522, "grad_norm": 0.36861771, "learning_rate": 4.635e-05, "elapsed_time_per_iteration": 4.94207501, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 25s", "remaining_time": "7h 38m 8s", "loss_scale": 1.0, "consumed_samples": 1811456, "global_step/max_steps": "7076/12700"}
{"lm loss": 2.08627105, "grad_norm": 0.36045071, "learning_rate": 4.634e-05, "elapsed_time_per_iteration": 5.13708353, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 30s", "remaining_time": "7h 38m 3s", "loss_scale": 1.0, "consumed_samples": 1811712, "global_step/max_steps": "7077/12700"}
{"lm loss": 2.08512616, "grad_norm": 0.37203386, "learning_rate": 4.633e-05, "elapsed_time_per_iteration": 5.03340411, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 35s", "remaining_time": "7h 37m 59s", "loss_scale": 1.0, "consumed_samples": 1811968, "global_step/max_steps": "7078/12700"}
{"lm loss": 2.10498214, "grad_norm": 0.33193743, "learning_rate": 4.631e-05, "elapsed_time_per_iteration": 4.77476263, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 40s", "remaining_time": "7h 37m 54s", "loss_scale": 1.0, "consumed_samples": 1812224, "global_step/max_steps": "7079/12700"}
{"lm loss": 2.09657884, "grad_norm": 0.38049057, "learning_rate": 4.63e-05, "elapsed_time_per_iteration": 4.94536519, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 45s", "remaining_time": "7h 37m 49s", "loss_scale": 1.0, "consumed_samples": 1812480, "global_step/max_steps": "7080/12700"}
{"lm loss": 2.10633469, "grad_norm": 0.36719713, "learning_rate": 4.629e-05, "elapsed_time_per_iteration": 4.81658792, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 50s", "remaining_time": "7h 37m 44s", "loss_scale": 1.0, "consumed_samples": 1812736, "global_step/max_steps": "7081/12700"}
{"lm loss": 2.09956193, "grad_norm": 0.43554184, "learning_rate": 4.628e-05, "elapsed_time_per_iteration": 4.87444568, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 55s", "remaining_time": "7h 37m 39s", "loss_scale": 1.0, "consumed_samples": 1812992, "global_step/max_steps": "7082/12700"}
{"lm loss": 2.06307387, "grad_norm": 0.35985607, "learning_rate": 4.626e-05, "elapsed_time_per_iteration": 4.79348683, "memory(GiB)": 28.98, "elapsed_time": "9h 36m 59s", "remaining_time": "7h 37m 34s", "loss_scale": 1.0, "consumed_samples": 1813248, "global_step/max_steps": "7083/12700"}
{"lm loss": 2.1045301, "grad_norm": 0.40824994, "learning_rate": 4.625e-05, "elapsed_time_per_iteration": 4.83690405, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 4s", "remaining_time": "7h 37m 29s", "loss_scale": 1.0, "consumed_samples": 1813504, "global_step/max_steps": "7084/12700"}
{"lm loss": 2.09565926, "grad_norm": 0.36887565, "learning_rate": 4.624e-05, "elapsed_time_per_iteration": 4.92074752, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 9s", "remaining_time": "7h 37m 24s", "loss_scale": 1.0, "consumed_samples": 1813760, "global_step/max_steps": "7085/12700"}
{"lm loss": 2.06597066, "grad_norm": 0.43222693, "learning_rate": 4.623e-05, "elapsed_time_per_iteration": 4.86958456, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 14s", "remaining_time": "7h 37m 19s", "loss_scale": 1.0, "consumed_samples": 1814016, "global_step/max_steps": "7086/12700"}
{"lm loss": 2.09440207, "grad_norm": 0.37126017, "learning_rate": 4.621e-05, "elapsed_time_per_iteration": 5.04690051, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 19s", "remaining_time": "7h 37m 14s", "loss_scale": 1.0, "consumed_samples": 1814272, "global_step/max_steps": "7087/12700"}
{"lm loss": 2.09586859, "grad_norm": 0.41573828, "learning_rate": 4.62e-05, "elapsed_time_per_iteration": 4.88077283, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 24s", "remaining_time": "7h 37m 10s", "loss_scale": 1.0, "consumed_samples": 1814528, "global_step/max_steps": "7088/12700"}
{"lm loss": 2.10397649, "grad_norm": 0.34312817, "learning_rate": 4.619e-05, "elapsed_time_per_iteration": 4.90555763, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 29s", "remaining_time": "7h 37m 5s", "loss_scale": 1.0, "consumed_samples": 1814784, "global_step/max_steps": "7089/12700"}
{"lm loss": 2.1042273, "grad_norm": 0.38625523, "learning_rate": 4.618e-05, "elapsed_time_per_iteration": 4.92039752, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 34s", "remaining_time": "7h 37m 0s", "loss_scale": 1.0, "consumed_samples": 1815040, "global_step/max_steps": "7090/12700"}
{"lm loss": 2.05961299, "grad_norm": 0.34374022, "learning_rate": 4.616e-05, "elapsed_time_per_iteration": 4.85179973, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 39s", "remaining_time": "7h 36m 55s", "loss_scale": 1.0, "consumed_samples": 1815296, "global_step/max_steps": "7091/12700"}
{"lm loss": 2.08356977, "grad_norm": 0.36415792, "learning_rate": 4.615e-05, "elapsed_time_per_iteration": 4.83841896, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 43s", "remaining_time": "7h 36m 50s", "loss_scale": 1.0, "consumed_samples": 1815552, "global_step/max_steps": "7092/12700"}
{"lm loss": 2.09014559, "grad_norm": 0.37508178, "learning_rate": 4.614e-05, "elapsed_time_per_iteration": 4.89336133, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 48s", "remaining_time": "7h 36m 45s", "loss_scale": 1.0, "consumed_samples": 1815808, "global_step/max_steps": "7093/12700"}
{"lm loss": 2.10030437, "grad_norm": 0.35695726, "learning_rate": 4.612e-05, "elapsed_time_per_iteration": 4.86702871, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 53s", "remaining_time": "7h 36m 40s", "loss_scale": 1.0, "consumed_samples": 1816064, "global_step/max_steps": "7094/12700"}
{"lm loss": 2.06591916, "grad_norm": 0.36690482, "learning_rate": 4.611e-05, "elapsed_time_per_iteration": 4.89264321, "memory(GiB)": 28.98, "elapsed_time": "9h 37m 58s", "remaining_time": "7h 36m 35s", "loss_scale": 1.0, "consumed_samples": 1816320, "global_step/max_steps": "7095/12700"}
{"lm loss": 2.04863477, "grad_norm": 0.36419156, "learning_rate": 4.61e-05, "elapsed_time_per_iteration": 5.05119371, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 3s", "remaining_time": "7h 36m 31s", "loss_scale": 1.0, "consumed_samples": 1816576, "global_step/max_steps": "7096/12700"}
{"lm loss": 2.09650302, "grad_norm": 0.36309591, "learning_rate": 4.609e-05, "elapsed_time_per_iteration": 4.89806223, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 8s", "remaining_time": "7h 36m 26s", "loss_scale": 1.0, "consumed_samples": 1816832, "global_step/max_steps": "7097/12700"}
{"lm loss": 2.07566381, "grad_norm": 0.33151674, "learning_rate": 4.607e-05, "elapsed_time_per_iteration": 5.02794313, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 13s", "remaining_time": "7h 36m 21s", "loss_scale": 1.0, "consumed_samples": 1817088, "global_step/max_steps": "7098/12700"}
{"lm loss": 2.07795191, "grad_norm": 0.34442765, "learning_rate": 4.606e-05, "elapsed_time_per_iteration": 4.99852633, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 18s", "remaining_time": "7h 36m 16s", "loss_scale": 1.0, "consumed_samples": 1817344, "global_step/max_steps": "7099/12700"}
{"lm loss": 2.10348105, "grad_norm": 0.3509545, "learning_rate": 4.605e-05, "elapsed_time_per_iteration": 4.82734942, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 23s", "remaining_time": "7h 36m 11s", "loss_scale": 1.0, "consumed_samples": 1817600, "global_step/max_steps": "7100/12700"}
{"lm loss": 2.05049825, "grad_norm": 0.35283098, "learning_rate": 4.604e-05, "elapsed_time_per_iteration": 5.27518654, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 28s", "remaining_time": "7h 36m 7s", "loss_scale": 1.0, "consumed_samples": 1817856, "global_step/max_steps": "7101/12700"}
{"lm loss": 2.07004499, "grad_norm": 0.35920691, "learning_rate": 4.602e-05, "elapsed_time_per_iteration": 5.08654499, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 33s", "remaining_time": "7h 36m 2s", "loss_scale": 1.0, "consumed_samples": 1818112, "global_step/max_steps": "7102/12700"}
{"lm loss": 2.0659306, "grad_norm": 0.36068144, "learning_rate": 4.601e-05, "elapsed_time_per_iteration": 4.91923094, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 38s", "remaining_time": "7h 35m 57s", "loss_scale": 1.0, "consumed_samples": 1818368, "global_step/max_steps": "7103/12700"}
{"lm loss": 2.12244463, "grad_norm": 0.35438037, "learning_rate": 4.6e-05, "elapsed_time_per_iteration": 4.90579891, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 43s", "remaining_time": "7h 35m 52s", "loss_scale": 1.0, "consumed_samples": 1818624, "global_step/max_steps": "7104/12700"}
{"lm loss": 2.07010174, "grad_norm": 0.36114597, "learning_rate": 4.599e-05, "elapsed_time_per_iteration": 4.84594655, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 48s", "remaining_time": "7h 35m 47s", "loss_scale": 1.0, "consumed_samples": 1818880, "global_step/max_steps": "7105/12700"}
{"lm loss": 2.0903759, "grad_norm": 0.34713745, "learning_rate": 4.597e-05, "elapsed_time_per_iteration": 5.02771235, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 53s", "remaining_time": "7h 35m 42s", "loss_scale": 1.0, "consumed_samples": 1819136, "global_step/max_steps": "7106/12700"}
{"lm loss": 2.06768918, "grad_norm": 0.36911657, "learning_rate": 4.596e-05, "elapsed_time_per_iteration": 4.91025186, "memory(GiB)": 28.98, "elapsed_time": "9h 38m 58s", "remaining_time": "7h 35m 38s", "loss_scale": 1.0, "consumed_samples": 1819392, "global_step/max_steps": "7107/12700"}
{"lm loss": 2.0631268, "grad_norm": 0.36551765, "learning_rate": 4.595e-05, "elapsed_time_per_iteration": 4.79881859, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 3s", "remaining_time": "7h 35m 33s", "loss_scale": 1.0, "consumed_samples": 1819648, "global_step/max_steps": "7108/12700"}
{"lm loss": 2.05137396, "grad_norm": 0.34733352, "learning_rate": 4.594e-05, "elapsed_time_per_iteration": 4.92948103, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 8s", "remaining_time": "7h 35m 28s", "loss_scale": 1.0, "consumed_samples": 1819904, "global_step/max_steps": "7109/12700"}
{"lm loss": 2.08803368, "grad_norm": 0.36755508, "learning_rate": 4.592e-05, "elapsed_time_per_iteration": 5.25741482, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 13s", "remaining_time": "7h 35m 23s", "loss_scale": 1.0, "consumed_samples": 1820160, "global_step/max_steps": "7110/12700"}
{"lm loss": 2.10563684, "grad_norm": 0.35917413, "learning_rate": 4.591e-05, "elapsed_time_per_iteration": 5.18136382, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 18s", "remaining_time": "7h 35m 18s", "loss_scale": 1.0, "consumed_samples": 1820416, "global_step/max_steps": "7111/12700"}
{"lm loss": 2.06207848, "grad_norm": 0.36568251, "learning_rate": 4.59e-05, "elapsed_time_per_iteration": 5.04766798, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 23s", "remaining_time": "7h 35m 14s", "loss_scale": 1.0, "consumed_samples": 1820672, "global_step/max_steps": "7112/12700"}
{"lm loss": 2.07780051, "grad_norm": 0.37238872, "learning_rate": 4.589e-05, "elapsed_time_per_iteration": 4.86997747, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 28s", "remaining_time": "7h 35m 9s", "loss_scale": 1.0, "consumed_samples": 1820928, "global_step/max_steps": "7113/12700"}
{"lm loss": 2.0908289, "grad_norm": 0.36421433, "learning_rate": 4.587e-05, "elapsed_time_per_iteration": 4.94531941, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 33s", "remaining_time": "7h 35m 4s", "loss_scale": 1.0, "consumed_samples": 1821184, "global_step/max_steps": "7114/12700"}
{"lm loss": 2.09557772, "grad_norm": 0.40681231, "learning_rate": 4.586e-05, "elapsed_time_per_iteration": 4.86211252, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 38s", "remaining_time": "7h 34m 59s", "loss_scale": 1.0, "consumed_samples": 1821440, "global_step/max_steps": "7115/12700"}
{"lm loss": 2.08770609, "grad_norm": 0.38197932, "learning_rate": 4.585e-05, "elapsed_time_per_iteration": 4.87288117, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 43s", "remaining_time": "7h 34m 54s", "loss_scale": 1.0, "consumed_samples": 1821696, "global_step/max_steps": "7116/12700"}
{"lm loss": 2.05502772, "grad_norm": 0.3614932, "learning_rate": 4.584e-05, "elapsed_time_per_iteration": 4.92500877, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 48s", "remaining_time": "7h 34m 49s", "loss_scale": 1.0, "consumed_samples": 1821952, "global_step/max_steps": "7117/12700"}
{"lm loss": 2.11733246, "grad_norm": 0.3391068, "learning_rate": 4.582e-05, "elapsed_time_per_iteration": 4.92885828, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 52s", "remaining_time": "7h 34m 44s", "loss_scale": 1.0, "consumed_samples": 1822208, "global_step/max_steps": "7118/12700"}
{"lm loss": 2.09635067, "grad_norm": 0.39896983, "learning_rate": 4.581e-05, "elapsed_time_per_iteration": 4.89500833, "memory(GiB)": 28.98, "elapsed_time": "9h 39m 57s", "remaining_time": "7h 34m 40s", "loss_scale": 1.0, "consumed_samples": 1822464, "global_step/max_steps": "7119/12700"}
{"lm loss": 2.06195688, "grad_norm": 0.3522498, "learning_rate": 4.58e-05, "elapsed_time_per_iteration": 5.03915882, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 2s", "remaining_time": "7h 34m 35s", "loss_scale": 1.0, "consumed_samples": 1822720, "global_step/max_steps": "7120/12700"}
{"lm loss": 2.08764911, "grad_norm": 0.36487702, "learning_rate": 4.579e-05, "elapsed_time_per_iteration": 5.12027574, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 8s", "remaining_time": "7h 34m 30s", "loss_scale": 1.0, "consumed_samples": 1822976, "global_step/max_steps": "7121/12700"}
{"lm loss": 2.09259367, "grad_norm": 0.37595943, "learning_rate": 4.577e-05, "elapsed_time_per_iteration": 4.80186415, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 12s", "remaining_time": "7h 34m 25s", "loss_scale": 1.0, "consumed_samples": 1823232, "global_step/max_steps": "7122/12700"}
{"lm loss": 2.03174853, "grad_norm": 0.37718475, "learning_rate": 4.576e-05, "elapsed_time_per_iteration": 4.92725611, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 17s", "remaining_time": "7h 34m 20s", "loss_scale": 1.0, "consumed_samples": 1823488, "global_step/max_steps": "7123/12700"}
{"lm loss": 2.06395555, "grad_norm": 0.38249987, "learning_rate": 4.575e-05, "elapsed_time_per_iteration": 4.9531877, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 22s", "remaining_time": "7h 34m 15s", "loss_scale": 1.0, "consumed_samples": 1823744, "global_step/max_steps": "7124/12700"}
{"lm loss": 2.09998608, "grad_norm": 0.38012046, "learning_rate": 4.574e-05, "elapsed_time_per_iteration": 4.87644005, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 27s", "remaining_time": "7h 34m 11s", "loss_scale": 1.0, "consumed_samples": 1824000, "global_step/max_steps": "7125/12700"}
{"lm loss": 2.07705522, "grad_norm": 0.37905931, "learning_rate": 4.572e-05, "elapsed_time_per_iteration": 4.80182719, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 32s", "remaining_time": "7h 34m 6s", "loss_scale": 1.0, "consumed_samples": 1824256, "global_step/max_steps": "7126/12700"}
{"lm loss": 2.09588718, "grad_norm": 0.35835621, "learning_rate": 4.571e-05, "elapsed_time_per_iteration": 4.98650384, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 37s", "remaining_time": "7h 34m 1s", "loss_scale": 1.0, "consumed_samples": 1824512, "global_step/max_steps": "7127/12700"}
{"lm loss": 2.08492851, "grad_norm": 0.3683545, "learning_rate": 4.57e-05, "elapsed_time_per_iteration": 5.07818675, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 42s", "remaining_time": "7h 33m 56s", "loss_scale": 1.0, "consumed_samples": 1824768, "global_step/max_steps": "7128/12700"}
{"lm loss": 2.08387947, "grad_norm": 0.38420704, "learning_rate": 4.569e-05, "elapsed_time_per_iteration": 4.98754597, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 47s", "remaining_time": "7h 33m 51s", "loss_scale": 1.0, "consumed_samples": 1825024, "global_step/max_steps": "7129/12700"}
{"lm loss": 2.03818369, "grad_norm": 0.36165676, "learning_rate": 4.567e-05, "elapsed_time_per_iteration": 4.91056275, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 52s", "remaining_time": "7h 33m 46s", "loss_scale": 1.0, "consumed_samples": 1825280, "global_step/max_steps": "7130/12700"}
{"lm loss": 2.08529496, "grad_norm": 0.35603958, "learning_rate": 4.566e-05, "elapsed_time_per_iteration": 4.80839777, "memory(GiB)": 28.98, "elapsed_time": "9h 40m 57s", "remaining_time": "7h 33m 41s", "loss_scale": 1.0, "consumed_samples": 1825536, "global_step/max_steps": "7131/12700"}
{"lm loss": 2.06784034, "grad_norm": 0.388717, "learning_rate": 4.565e-05, "elapsed_time_per_iteration": 4.88752246, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 2s", "remaining_time": "7h 33m 37s", "loss_scale": 1.0, "consumed_samples": 1825792, "global_step/max_steps": "7132/12700"}
{"lm loss": 2.10165811, "grad_norm": 0.37630495, "learning_rate": 4.564e-05, "elapsed_time_per_iteration": 4.81956863, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 6s", "remaining_time": "7h 33m 32s", "loss_scale": 1.0, "consumed_samples": 1826048, "global_step/max_steps": "7133/12700"}
{"lm loss": 2.07996941, "grad_norm": 0.34041157, "learning_rate": 4.562e-05, "elapsed_time_per_iteration": 4.90191722, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 11s", "remaining_time": "7h 33m 27s", "loss_scale": 1.0, "consumed_samples": 1826304, "global_step/max_steps": "7134/12700"}
{"lm loss": 2.11514163, "grad_norm": 0.42649859, "learning_rate": 4.561e-05, "elapsed_time_per_iteration": 4.84277272, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 16s", "remaining_time": "7h 33m 22s", "loss_scale": 1.0, "consumed_samples": 1826560, "global_step/max_steps": "7135/12700"}
{"lm loss": 2.08069682, "grad_norm": 0.40746579, "learning_rate": 4.56e-05, "elapsed_time_per_iteration": 4.87536573, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 21s", "remaining_time": "7h 33m 17s", "loss_scale": 1.0, "consumed_samples": 1826816, "global_step/max_steps": "7136/12700"}
{"lm loss": 2.08265591, "grad_norm": 0.35200533, "learning_rate": 4.559e-05, "elapsed_time_per_iteration": 4.92949462, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 26s", "remaining_time": "7h 33m 12s", "loss_scale": 1.0, "consumed_samples": 1827072, "global_step/max_steps": "7137/12700"}
{"lm loss": 2.09145617, "grad_norm": 0.34988382, "learning_rate": 4.557e-05, "elapsed_time_per_iteration": 4.9386692, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 31s", "remaining_time": "7h 33m 7s", "loss_scale": 1.0, "consumed_samples": 1827328, "global_step/max_steps": "7138/12700"}
{"lm loss": 2.06024146, "grad_norm": 0.37912583, "learning_rate": 4.556e-05, "elapsed_time_per_iteration": 4.85603356, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 36s", "remaining_time": "7h 33m 2s", "loss_scale": 1.0, "consumed_samples": 1827584, "global_step/max_steps": "7139/12700"}
{"lm loss": 2.1012938, "grad_norm": 0.43186909, "learning_rate": 4.555e-05, "elapsed_time_per_iteration": 4.80530357, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 41s", "remaining_time": "7h 32m 57s", "loss_scale": 1.0, "consumed_samples": 1827840, "global_step/max_steps": "7140/12700"}
{"lm loss": 2.08939362, "grad_norm": 0.40410617, "learning_rate": 4.554e-05, "elapsed_time_per_iteration": 4.88844633, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 45s", "remaining_time": "7h 32m 52s", "loss_scale": 1.0, "consumed_samples": 1828096, "global_step/max_steps": "7141/12700"}
{"lm loss": 2.07684493, "grad_norm": 0.37468565, "learning_rate": 4.552e-05, "elapsed_time_per_iteration": 4.92823792, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 50s", "remaining_time": "7h 32m 48s", "loss_scale": 1.0, "consumed_samples": 1828352, "global_step/max_steps": "7142/12700"}
{"lm loss": 2.08804178, "grad_norm": 0.3892189, "learning_rate": 4.551e-05, "elapsed_time_per_iteration": 4.92715168, "memory(GiB)": 28.98, "elapsed_time": "9h 41m 55s", "remaining_time": "7h 32m 43s", "loss_scale": 1.0, "consumed_samples": 1828608, "global_step/max_steps": "7143/12700"}
{"lm loss": 2.11821032, "grad_norm": 0.37645614, "learning_rate": 4.55e-05, "elapsed_time_per_iteration": 4.83085012, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 0s", "remaining_time": "7h 32m 38s", "loss_scale": 1.0, "consumed_samples": 1828864, "global_step/max_steps": "7144/12700"}
{"lm loss": 2.07767415, "grad_norm": 0.40146002, "learning_rate": 4.549e-05, "elapsed_time_per_iteration": 4.93823814, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 5s", "remaining_time": "7h 32m 33s", "loss_scale": 1.0, "consumed_samples": 1829120, "global_step/max_steps": "7145/12700"}
{"lm loss": 2.05632877, "grad_norm": 0.36086458, "learning_rate": 4.547e-05, "elapsed_time_per_iteration": 5.03617811, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 10s", "remaining_time": "7h 32m 28s", "loss_scale": 1.0, "consumed_samples": 1829376, "global_step/max_steps": "7146/12700"}
{"lm loss": 2.06767035, "grad_norm": 0.37094647, "learning_rate": 4.546e-05, "elapsed_time_per_iteration": 5.03155613, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 15s", "remaining_time": "7h 32m 23s", "loss_scale": 1.0, "consumed_samples": 1829632, "global_step/max_steps": "7147/12700"}
{"lm loss": 2.11620808, "grad_norm": 0.36727893, "learning_rate": 4.545e-05, "elapsed_time_per_iteration": 4.88108516, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 20s", "remaining_time": "7h 32m 18s", "loss_scale": 1.0, "consumed_samples": 1829888, "global_step/max_steps": "7148/12700"}
{"lm loss": 2.09145784, "grad_norm": 0.40924391, "learning_rate": 4.544e-05, "elapsed_time_per_iteration": 4.97315836, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 25s", "remaining_time": "7h 32m 14s", "loss_scale": 1.0, "consumed_samples": 1830144, "global_step/max_steps": "7149/12700"}
{"lm loss": 2.0923655, "grad_norm": 0.35354573, "learning_rate": 4.542e-05, "elapsed_time_per_iteration": 4.87475443, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 30s", "remaining_time": "7h 32m 9s", "loss_scale": 1.0, "consumed_samples": 1830400, "global_step/max_steps": "7150/12700"}
{"lm loss": 2.08216405, "grad_norm": 0.35949475, "learning_rate": 4.541e-05, "elapsed_time_per_iteration": 4.97288346, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 35s", "remaining_time": "7h 32m 4s", "loss_scale": 1.0, "consumed_samples": 1830656, "global_step/max_steps": "7151/12700"}
{"lm loss": 2.08486676, "grad_norm": 0.3797718, "learning_rate": 4.54e-05, "elapsed_time_per_iteration": 4.79820585, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 40s", "remaining_time": "7h 31m 59s", "loss_scale": 1.0, "consumed_samples": 1830912, "global_step/max_steps": "7152/12700"}
{"lm loss": 2.05915523, "grad_norm": 0.36437708, "learning_rate": 4.539e-05, "elapsed_time_per_iteration": 4.78640413, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 44s", "remaining_time": "7h 31m 54s", "loss_scale": 1.0, "consumed_samples": 1831168, "global_step/max_steps": "7153/12700"}
{"lm loss": 2.08354568, "grad_norm": 0.37158784, "learning_rate": 4.537e-05, "elapsed_time_per_iteration": 5.10367966, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 49s", "remaining_time": "7h 31m 49s", "loss_scale": 1.0, "consumed_samples": 1831424, "global_step/max_steps": "7154/12700"}
{"lm loss": 2.08978891, "grad_norm": 0.37036979, "learning_rate": 4.536e-05, "elapsed_time_per_iteration": 5.06285691, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 55s", "remaining_time": "7h 31m 45s", "loss_scale": 1.0, "consumed_samples": 1831680, "global_step/max_steps": "7155/12700"}
{"lm loss": 2.06967735, "grad_norm": 0.38717854, "learning_rate": 4.535e-05, "elapsed_time_per_iteration": 4.87677765, "memory(GiB)": 28.98, "elapsed_time": "9h 42m 59s", "remaining_time": "7h 31m 40s", "loss_scale": 1.0, "consumed_samples": 1831936, "global_step/max_steps": "7156/12700"}
{"lm loss": 2.07879114, "grad_norm": 0.34144524, "learning_rate": 4.533e-05, "elapsed_time_per_iteration": 4.78759456, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 4s", "remaining_time": "7h 31m 35s", "loss_scale": 1.0, "consumed_samples": 1832192, "global_step/max_steps": "7157/12700"}
{"lm loss": 2.08449173, "grad_norm": 0.3754285, "learning_rate": 4.532e-05, "elapsed_time_per_iteration": 4.88680792, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 9s", "remaining_time": "7h 31m 30s", "loss_scale": 1.0, "consumed_samples": 1832448, "global_step/max_steps": "7158/12700"}
{"lm loss": 2.06343913, "grad_norm": 0.38914767, "learning_rate": 4.531e-05, "elapsed_time_per_iteration": 5.05937529, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 14s", "remaining_time": "7h 31m 25s", "loss_scale": 1.0, "consumed_samples": 1832704, "global_step/max_steps": "7159/12700"}
{"lm loss": 2.07705951, "grad_norm": 0.40217471, "learning_rate": 4.53e-05, "elapsed_time_per_iteration": 4.7991128, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 19s", "remaining_time": "7h 31m 20s", "loss_scale": 1.0, "consumed_samples": 1832960, "global_step/max_steps": "7160/12700"}
{"lm loss": 2.08947968, "grad_norm": 0.37256494, "learning_rate": 4.528e-05, "elapsed_time_per_iteration": 5.03174615, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 24s", "remaining_time": "7h 31m 15s", "loss_scale": 1.0, "consumed_samples": 1833216, "global_step/max_steps": "7161/12700"}
{"lm loss": 2.08461237, "grad_norm": 0.37291145, "learning_rate": 4.527e-05, "elapsed_time_per_iteration": 4.84135342, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 29s", "remaining_time": "7h 31m 10s", "loss_scale": 1.0, "consumed_samples": 1833472, "global_step/max_steps": "7162/12700"}
{"lm loss": 2.0815146, "grad_norm": 0.35908848, "learning_rate": 4.526e-05, "elapsed_time_per_iteration": 4.93064189, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 34s", "remaining_time": "7h 31m 6s", "loss_scale": 1.0, "consumed_samples": 1833728, "global_step/max_steps": "7163/12700"}
{"lm loss": 2.07543492, "grad_norm": 0.35192192, "learning_rate": 4.525e-05, "elapsed_time_per_iteration": 4.96653557, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 39s", "remaining_time": "7h 31m 1s", "loss_scale": 1.0, "consumed_samples": 1833984, "global_step/max_steps": "7164/12700"}
{"lm loss": 2.04648137, "grad_norm": 0.35428664, "learning_rate": 4.523e-05, "elapsed_time_per_iteration": 4.97953677, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 44s", "remaining_time": "7h 30m 56s", "loss_scale": 1.0, "consumed_samples": 1834240, "global_step/max_steps": "7165/12700"}
{"lm loss": 2.05464697, "grad_norm": 0.35143822, "learning_rate": 4.522e-05, "elapsed_time_per_iteration": 4.95581627, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 49s", "remaining_time": "7h 30m 51s", "loss_scale": 1.0, "consumed_samples": 1834496, "global_step/max_steps": "7166/12700"}
{"lm loss": 2.04444575, "grad_norm": 0.36123705, "learning_rate": 4.521e-05, "elapsed_time_per_iteration": 4.92389655, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 54s", "remaining_time": "7h 30m 46s", "loss_scale": 1.0, "consumed_samples": 1834752, "global_step/max_steps": "7167/12700"}
{"lm loss": 2.05116129, "grad_norm": 0.37291732, "learning_rate": 4.52e-05, "elapsed_time_per_iteration": 4.90784883, "memory(GiB)": 28.98, "elapsed_time": "9h 43m 58s", "remaining_time": "7h 30m 41s", "loss_scale": 1.0, "consumed_samples": 1835008, "global_step/max_steps": "7168/12700"}
{"lm loss": 2.06212521, "grad_norm": 0.35631549, "learning_rate": 4.518e-05, "elapsed_time_per_iteration": 4.86225486, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 3s", "remaining_time": "7h 30m 36s", "loss_scale": 1.0, "consumed_samples": 1835264, "global_step/max_steps": "7169/12700"}
{"lm loss": 2.07202721, "grad_norm": 0.37174925, "learning_rate": 4.517e-05, "elapsed_time_per_iteration": 4.87175822, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 8s", "remaining_time": "7h 30m 31s", "loss_scale": 1.0, "consumed_samples": 1835520, "global_step/max_steps": "7170/12700"}
{"lm loss": 2.10382223, "grad_norm": 0.38328654, "learning_rate": 4.516e-05, "elapsed_time_per_iteration": 5.03603363, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 13s", "remaining_time": "7h 30m 27s", "loss_scale": 1.0, "consumed_samples": 1835776, "global_step/max_steps": "7171/12700"}
{"lm loss": 2.05166626, "grad_norm": 0.342226, "learning_rate": 4.515e-05, "elapsed_time_per_iteration": 4.89332747, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 18s", "remaining_time": "7h 30m 22s", "loss_scale": 1.0, "consumed_samples": 1836032, "global_step/max_steps": "7172/12700"}
{"lm loss": 2.05891919, "grad_norm": 0.35603559, "learning_rate": 4.513e-05, "elapsed_time_per_iteration": 4.92183208, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 23s", "remaining_time": "7h 30m 17s", "loss_scale": 1.0, "consumed_samples": 1836288, "global_step/max_steps": "7173/12700"}
{"lm loss": 2.08372283, "grad_norm": 0.38275877, "learning_rate": 4.512e-05, "elapsed_time_per_iteration": 4.97942352, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 28s", "remaining_time": "7h 30m 12s", "loss_scale": 1.0, "consumed_samples": 1836544, "global_step/max_steps": "7174/12700"}
{"lm loss": 2.08553481, "grad_norm": 0.35600081, "learning_rate": 4.511e-05, "elapsed_time_per_iteration": 4.91877437, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 33s", "remaining_time": "7h 30m 7s", "loss_scale": 1.0, "consumed_samples": 1836800, "global_step/max_steps": "7175/12700"}
{"lm loss": 2.09467816, "grad_norm": 0.35606924, "learning_rate": 4.51e-05, "elapsed_time_per_iteration": 4.75527668, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 38s", "remaining_time": "7h 30m 2s", "loss_scale": 1.0, "consumed_samples": 1837056, "global_step/max_steps": "7176/12700"}
{"lm loss": 2.07542181, "grad_norm": 0.36661512, "learning_rate": 4.508e-05, "elapsed_time_per_iteration": 4.89445758, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 43s", "remaining_time": "7h 29m 57s", "loss_scale": 1.0, "consumed_samples": 1837312, "global_step/max_steps": "7177/12700"}
{"lm loss": 2.11869049, "grad_norm": 0.34357327, "learning_rate": 4.507e-05, "elapsed_time_per_iteration": 4.80783916, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 47s", "remaining_time": "7h 29m 52s", "loss_scale": 1.0, "consumed_samples": 1837568, "global_step/max_steps": "7178/12700"}
{"lm loss": 2.08512378, "grad_norm": 0.38986751, "learning_rate": 4.506e-05, "elapsed_time_per_iteration": 5.21900272, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 53s", "remaining_time": "7h 29m 48s", "loss_scale": 1.0, "consumed_samples": 1837824, "global_step/max_steps": "7179/12700"}
{"lm loss": 2.05863738, "grad_norm": 0.37137094, "learning_rate": 4.505e-05, "elapsed_time_per_iteration": 4.92230034, "memory(GiB)": 28.98, "elapsed_time": "9h 44m 58s", "remaining_time": "7h 29m 43s", "loss_scale": 1.0, "consumed_samples": 1838080, "global_step/max_steps": "7180/12700"}
{"lm loss": 2.08406925, "grad_norm": 0.35778037, "learning_rate": 4.503e-05, "elapsed_time_per_iteration": 4.8028183, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 2s", "remaining_time": "7h 29m 38s", "loss_scale": 1.0, "consumed_samples": 1838336, "global_step/max_steps": "7181/12700"}
{"lm loss": 2.06812787, "grad_norm": 0.37050378, "learning_rate": 4.502e-05, "elapsed_time_per_iteration": 4.93053818, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 7s", "remaining_time": "7h 29m 33s", "loss_scale": 1.0, "consumed_samples": 1838592, "global_step/max_steps": "7182/12700"}
{"lm loss": 2.05134034, "grad_norm": 0.36655948, "learning_rate": 4.501e-05, "elapsed_time_per_iteration": 4.9059968, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 12s", "remaining_time": "7h 29m 28s", "loss_scale": 1.0, "consumed_samples": 1838848, "global_step/max_steps": "7183/12700"}
{"lm loss": 2.07484007, "grad_norm": 0.35167548, "learning_rate": 4.5e-05, "elapsed_time_per_iteration": 4.84672141, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 17s", "remaining_time": "7h 29m 23s", "loss_scale": 1.0, "consumed_samples": 1839104, "global_step/max_steps": "7184/12700"}
{"lm loss": 2.02451921, "grad_norm": 0.37731239, "learning_rate": 4.498e-05, "elapsed_time_per_iteration": 4.87631559, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 22s", "remaining_time": "7h 29m 18s", "loss_scale": 1.0, "consumed_samples": 1839360, "global_step/max_steps": "7185/12700"}
{"lm loss": 2.10642457, "grad_norm": 0.36474317, "learning_rate": 4.497e-05, "elapsed_time_per_iteration": 4.76963997, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 27s", "remaining_time": "7h 29m 13s", "loss_scale": 1.0, "consumed_samples": 1839616, "global_step/max_steps": "7186/12700"}
{"lm loss": 2.06989789, "grad_norm": 0.36907652, "learning_rate": 4.496e-05, "elapsed_time_per_iteration": 4.89329171, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 32s", "remaining_time": "7h 29m 9s", "loss_scale": 1.0, "consumed_samples": 1839872, "global_step/max_steps": "7187/12700"}
{"lm loss": 2.08896136, "grad_norm": 0.35251915, "learning_rate": 4.495e-05, "elapsed_time_per_iteration": 5.00667119, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 37s", "remaining_time": "7h 29m 4s", "loss_scale": 1.0, "consumed_samples": 1840128, "global_step/max_steps": "7188/12700"}
{"lm loss": 2.07198143, "grad_norm": 0.37175328, "learning_rate": 4.493e-05, "elapsed_time_per_iteration": 4.90482521, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 42s", "remaining_time": "7h 28m 59s", "loss_scale": 1.0, "consumed_samples": 1840384, "global_step/max_steps": "7189/12700"}
{"lm loss": 2.10041523, "grad_norm": 0.37090981, "learning_rate": 4.492e-05, "elapsed_time_per_iteration": 4.84507227, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 46s", "remaining_time": "7h 28m 54s", "loss_scale": 1.0, "consumed_samples": 1840640, "global_step/max_steps": "7190/12700"}
{"lm loss": 2.07485294, "grad_norm": 0.36213985, "learning_rate": 4.491e-05, "elapsed_time_per_iteration": 4.88683987, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 51s", "remaining_time": "7h 28m 49s", "loss_scale": 1.0, "consumed_samples": 1840896, "global_step/max_steps": "7191/12700"}
{"lm loss": 2.07968378, "grad_norm": 0.35061342, "learning_rate": 4.49e-05, "elapsed_time_per_iteration": 4.86951089, "memory(GiB)": 28.98, "elapsed_time": "9h 45m 56s", "remaining_time": "7h 28m 44s", "loss_scale": 1.0, "consumed_samples": 1841152, "global_step/max_steps": "7192/12700"}
{"lm loss": 2.04824257, "grad_norm": 0.34033397, "learning_rate": 4.488e-05, "elapsed_time_per_iteration": 4.89644289, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 1s", "remaining_time": "7h 28m 39s", "loss_scale": 1.0, "consumed_samples": 1841408, "global_step/max_steps": "7193/12700"}
{"lm loss": 2.05494523, "grad_norm": 0.36107251, "learning_rate": 4.487e-05, "elapsed_time_per_iteration": 4.88445473, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 6s", "remaining_time": "7h 28m 34s", "loss_scale": 1.0, "consumed_samples": 1841664, "global_step/max_steps": "7194/12700"}
{"lm loss": 2.07742667, "grad_norm": 0.35787454, "learning_rate": 4.486e-05, "elapsed_time_per_iteration": 5.04809666, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 11s", "remaining_time": "7h 28m 30s", "loss_scale": 1.0, "consumed_samples": 1841920, "global_step/max_steps": "7195/12700"}
{"lm loss": 2.11495495, "grad_norm": 0.36773089, "learning_rate": 4.485e-05, "elapsed_time_per_iteration": 5.19109344, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 16s", "remaining_time": "7h 28m 25s", "loss_scale": 1.0, "consumed_samples": 1842176, "global_step/max_steps": "7196/12700"}
{"lm loss": 2.08444738, "grad_norm": 0.36025372, "learning_rate": 4.483e-05, "elapsed_time_per_iteration": 4.97410274, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 21s", "remaining_time": "7h 28m 20s", "loss_scale": 1.0, "consumed_samples": 1842432, "global_step/max_steps": "7197/12700"}
{"lm loss": 2.0840292, "grad_norm": 0.34446412, "learning_rate": 4.482e-05, "elapsed_time_per_iteration": 4.77881742, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 26s", "remaining_time": "7h 28m 15s", "loss_scale": 1.0, "consumed_samples": 1842688, "global_step/max_steps": "7198/12700"}
{"lm loss": 2.08164167, "grad_norm": 0.36075485, "learning_rate": 4.481e-05, "elapsed_time_per_iteration": 4.82731128, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 31s", "remaining_time": "7h 28m 10s", "loss_scale": 1.0, "consumed_samples": 1842944, "global_step/max_steps": "7199/12700"}
{"lm loss": 2.09197354, "grad_norm": 0.33599788, "learning_rate": 4.48e-05, "elapsed_time_per_iteration": 4.91524172, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 36s", "remaining_time": "7h 28m 5s", "loss_scale": 1.0, "consumed_samples": 1843200, "global_step/max_steps": "7200/12700"}
{"lm loss": 2.09608698, "grad_norm": 0.36051628, "learning_rate": 4.478e-05, "elapsed_time_per_iteration": 5.02432656, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 41s", "remaining_time": "7h 28m 1s", "loss_scale": 1.0, "consumed_samples": 1843456, "global_step/max_steps": "7201/12700"}
{"lm loss": 2.09465933, "grad_norm": 0.34957695, "learning_rate": 4.477e-05, "elapsed_time_per_iteration": 5.00877333, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 46s", "remaining_time": "7h 27m 56s", "loss_scale": 1.0, "consumed_samples": 1843712, "global_step/max_steps": "7202/12700"}
{"lm loss": 2.0971849, "grad_norm": 0.35587302, "learning_rate": 4.476e-05, "elapsed_time_per_iteration": 4.82917118, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 50s", "remaining_time": "7h 27m 51s", "loss_scale": 1.0, "consumed_samples": 1843968, "global_step/max_steps": "7203/12700"}
{"lm loss": 2.07891035, "grad_norm": 0.37468892, "learning_rate": 4.475e-05, "elapsed_time_per_iteration": 4.88817096, "memory(GiB)": 28.98, "elapsed_time": "9h 46m 55s", "remaining_time": "7h 27m 46s", "loss_scale": 1.0, "consumed_samples": 1844224, "global_step/max_steps": "7204/12700"}
{"lm loss": 2.09342885, "grad_norm": 0.36384565, "learning_rate": 4.473e-05, "elapsed_time_per_iteration": 5.67688537, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 1s", "remaining_time": "7h 27m 42s", "loss_scale": 1.0, "consumed_samples": 1844480, "global_step/max_steps": "7205/12700"}
{"lm loss": 2.06738925, "grad_norm": 0.35965991, "learning_rate": 4.472e-05, "elapsed_time_per_iteration": 4.98274302, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 6s", "remaining_time": "7h 27m 37s", "loss_scale": 1.0, "consumed_samples": 1844736, "global_step/max_steps": "7206/12700"}
{"lm loss": 2.0906837, "grad_norm": 0.34827605, "learning_rate": 4.471e-05, "elapsed_time_per_iteration": 4.88036585, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 11s", "remaining_time": "7h 27m 32s", "loss_scale": 1.0, "consumed_samples": 1844992, "global_step/max_steps": "7207/12700"}
{"lm loss": 2.07945681, "grad_norm": 0.3869133, "learning_rate": 4.47e-05, "elapsed_time_per_iteration": 4.89636493, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 16s", "remaining_time": "7h 27m 27s", "loss_scale": 1.0, "consumed_samples": 1845248, "global_step/max_steps": "7208/12700"}
{"lm loss": 2.10046887, "grad_norm": 0.34634948, "learning_rate": 4.468e-05, "elapsed_time_per_iteration": 4.91903353, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 21s", "remaining_time": "7h 27m 22s", "loss_scale": 1.0, "consumed_samples": 1845504, "global_step/max_steps": "7209/12700"}
{"lm loss": 2.07209301, "grad_norm": 0.3529515, "learning_rate": 4.467e-05, "elapsed_time_per_iteration": 4.98543429, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 26s", "remaining_time": "7h 27m 17s", "loss_scale": 1.0, "consumed_samples": 1845760, "global_step/max_steps": "7210/12700"}
{"lm loss": 2.08254504, "grad_norm": 0.37388217, "learning_rate": 4.466e-05, "elapsed_time_per_iteration": 4.94763565, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 31s", "remaining_time": "7h 27m 13s", "loss_scale": 1.0, "consumed_samples": 1846016, "global_step/max_steps": "7211/12700"}
{"lm loss": 2.08035588, "grad_norm": 0.34255853, "learning_rate": 4.465e-05, "elapsed_time_per_iteration": 5.01935673, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 36s", "remaining_time": "7h 27m 8s", "loss_scale": 1.0, "consumed_samples": 1846272, "global_step/max_steps": "7212/12700"}
{"lm loss": 2.07118821, "grad_norm": 0.36514637, "learning_rate": 4.463e-05, "elapsed_time_per_iteration": 4.78845882, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 40s", "remaining_time": "7h 27m 3s", "loss_scale": 1.0, "consumed_samples": 1846528, "global_step/max_steps": "7213/12700"}
{"lm loss": 2.10647893, "grad_norm": 0.37670404, "learning_rate": 4.462e-05, "elapsed_time_per_iteration": 4.82176948, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 45s", "remaining_time": "7h 26m 58s", "loss_scale": 1.0, "consumed_samples": 1846784, "global_step/max_steps": "7214/12700"}
{"lm loss": 2.11502218, "grad_norm": 0.36857656, "learning_rate": 4.461e-05, "elapsed_time_per_iteration": 4.86695719, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 50s", "remaining_time": "7h 26m 53s", "loss_scale": 1.0, "consumed_samples": 1847040, "global_step/max_steps": "7215/12700"}
{"lm loss": 2.07222271, "grad_norm": 0.34095287, "learning_rate": 4.46e-05, "elapsed_time_per_iteration": 4.90784979, "memory(GiB)": 28.98, "elapsed_time": "9h 47m 55s", "remaining_time": "7h 26m 48s", "loss_scale": 1.0, "consumed_samples": 1847296, "global_step/max_steps": "7216/12700"}
{"lm loss": 2.03964043, "grad_norm": 0.37395293, "learning_rate": 4.458e-05, "elapsed_time_per_iteration": 4.85706162, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 0s", "remaining_time": "7h 26m 43s", "loss_scale": 1.0, "consumed_samples": 1847552, "global_step/max_steps": "7217/12700"}
{"lm loss": 2.05899143, "grad_norm": 0.37016132, "learning_rate": 4.457e-05, "elapsed_time_per_iteration": 4.94193959, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 5s", "remaining_time": "7h 26m 38s", "loss_scale": 1.0, "consumed_samples": 1847808, "global_step/max_steps": "7218/12700"}
{"lm loss": 2.10596204, "grad_norm": 0.36579543, "learning_rate": 4.456e-05, "elapsed_time_per_iteration": 5.03598428, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 10s", "remaining_time": "7h 26m 34s", "loss_scale": 1.0, "consumed_samples": 1848064, "global_step/max_steps": "7219/12700"}
{"lm loss": 2.10293674, "grad_norm": 0.35853845, "learning_rate": 4.455e-05, "elapsed_time_per_iteration": 4.80473304, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 15s", "remaining_time": "7h 26m 29s", "loss_scale": 1.0, "consumed_samples": 1848320, "global_step/max_steps": "7220/12700"}
{"lm loss": 2.07845378, "grad_norm": 0.36939871, "learning_rate": 4.453e-05, "elapsed_time_per_iteration": 4.88624573, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 20s", "remaining_time": "7h 26m 24s", "loss_scale": 1.0, "consumed_samples": 1848576, "global_step/max_steps": "7221/12700"}
{"lm loss": 2.10378528, "grad_norm": 0.36992195, "learning_rate": 4.452e-05, "elapsed_time_per_iteration": 4.94632483, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 25s", "remaining_time": "7h 26m 19s", "loss_scale": 1.0, "consumed_samples": 1848832, "global_step/max_steps": "7222/12700"}
{"lm loss": 2.07269549, "grad_norm": 0.3343243, "learning_rate": 4.451e-05, "elapsed_time_per_iteration": 4.86597133, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 29s", "remaining_time": "7h 26m 14s", "loss_scale": 1.0, "consumed_samples": 1849088, "global_step/max_steps": "7223/12700"}
{"lm loss": 2.10730505, "grad_norm": 0.34566984, "learning_rate": 4.45e-05, "elapsed_time_per_iteration": 4.92854047, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 34s", "remaining_time": "7h 26m 9s", "loss_scale": 1.0, "consumed_samples": 1849344, "global_step/max_steps": "7224/12700"}
{"lm loss": 2.10001969, "grad_norm": 0.36388329, "learning_rate": 4.448e-05, "elapsed_time_per_iteration": 4.85991359, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 39s", "remaining_time": "7h 26m 4s", "loss_scale": 1.0, "consumed_samples": 1849600, "global_step/max_steps": "7225/12700"}
{"lm loss": 2.0525701, "grad_norm": 0.34985253, "learning_rate": 4.447e-05, "elapsed_time_per_iteration": 4.91070056, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 44s", "remaining_time": "7h 25m 59s", "loss_scale": 1.0, "consumed_samples": 1849856, "global_step/max_steps": "7226/12700"}
{"lm loss": 2.06277442, "grad_norm": 0.35297906, "learning_rate": 4.446e-05, "elapsed_time_per_iteration": 5.17883611, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 49s", "remaining_time": "7h 25m 55s", "loss_scale": 1.0, "consumed_samples": 1850112, "global_step/max_steps": "7227/12700"}
{"lm loss": 2.12347126, "grad_norm": 0.3455627, "learning_rate": 4.445e-05, "elapsed_time_per_iteration": 4.91184592, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 54s", "remaining_time": "7h 25m 50s", "loss_scale": 1.0, "consumed_samples": 1850368, "global_step/max_steps": "7228/12700"}
{"lm loss": 2.0930829, "grad_norm": 0.38580629, "learning_rate": 4.443e-05, "elapsed_time_per_iteration": 5.01693726, "memory(GiB)": 28.98, "elapsed_time": "9h 48m 59s", "remaining_time": "7h 25m 45s", "loss_scale": 1.0, "consumed_samples": 1850624, "global_step/max_steps": "7229/12700"}
{"lm loss": 2.08576727, "grad_norm": 0.34403151, "learning_rate": 4.442e-05, "elapsed_time_per_iteration": 4.94618535, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 4s", "remaining_time": "7h 25m 40s", "loss_scale": 1.0, "consumed_samples": 1850880, "global_step/max_steps": "7230/12700"}
{"lm loss": 2.121948, "grad_norm": 0.33648863, "learning_rate": 4.441e-05, "elapsed_time_per_iteration": 5.00752759, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 9s", "remaining_time": "7h 25m 35s", "loss_scale": 1.0, "consumed_samples": 1851136, "global_step/max_steps": "7231/12700"}
{"lm loss": 2.08105302, "grad_norm": 0.3557283, "learning_rate": 4.44e-05, "elapsed_time_per_iteration": 4.83455682, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 14s", "remaining_time": "7h 25m 30s", "loss_scale": 1.0, "consumed_samples": 1851392, "global_step/max_steps": "7232/12700"}
{"lm loss": 2.07832813, "grad_norm": 0.37777925, "learning_rate": 4.438e-05, "elapsed_time_per_iteration": 4.79044795, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 19s", "remaining_time": "7h 25m 26s", "loss_scale": 1.0, "consumed_samples": 1851648, "global_step/max_steps": "7233/12700"}
{"lm loss": 2.05710936, "grad_norm": 0.36124828, "learning_rate": 4.437e-05, "elapsed_time_per_iteration": 4.82707, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 24s", "remaining_time": "7h 25m 21s", "loss_scale": 1.0, "consumed_samples": 1851904, "global_step/max_steps": "7234/12700"}
{"lm loss": 2.14666486, "grad_norm": 0.36624229, "learning_rate": 4.436e-05, "elapsed_time_per_iteration": 5.0154922, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 29s", "remaining_time": "7h 25m 16s", "loss_scale": 1.0, "consumed_samples": 1852160, "global_step/max_steps": "7235/12700"}
{"lm loss": 2.06968665, "grad_norm": 0.34973955, "learning_rate": 4.435e-05, "elapsed_time_per_iteration": 4.91343474, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 34s", "remaining_time": "7h 25m 11s", "loss_scale": 1.0, "consumed_samples": 1852416, "global_step/max_steps": "7236/12700"}
{"lm loss": 2.08603358, "grad_norm": 0.36924556, "learning_rate": 4.433e-05, "elapsed_time_per_iteration": 4.95399332, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 38s", "remaining_time": "7h 25m 6s", "loss_scale": 1.0, "consumed_samples": 1852672, "global_step/max_steps": "7237/12700"}
{"lm loss": 2.09602046, "grad_norm": 0.36475244, "learning_rate": 4.432e-05, "elapsed_time_per_iteration": 4.82210898, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 43s", "remaining_time": "7h 25m 1s", "loss_scale": 1.0, "consumed_samples": 1852928, "global_step/max_steps": "7238/12700"}
{"lm loss": 2.09248376, "grad_norm": 0.37354672, "learning_rate": 4.431e-05, "elapsed_time_per_iteration": 4.86635947, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 48s", "remaining_time": "7h 24m 56s", "loss_scale": 1.0, "consumed_samples": 1853184, "global_step/max_steps": "7239/12700"}
{"lm loss": 2.09769058, "grad_norm": 0.35081849, "learning_rate": 4.43e-05, "elapsed_time_per_iteration": 4.91127253, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 53s", "remaining_time": "7h 24m 51s", "loss_scale": 1.0, "consumed_samples": 1853440, "global_step/max_steps": "7240/12700"}
{"lm loss": 2.055233, "grad_norm": 0.35326862, "learning_rate": 4.428e-05, "elapsed_time_per_iteration": 4.95244956, "memory(GiB)": 28.98, "elapsed_time": "9h 49m 58s", "remaining_time": "7h 24m 47s", "loss_scale": 1.0, "consumed_samples": 1853696, "global_step/max_steps": "7241/12700"}
{"lm loss": 2.06243682, "grad_norm": 0.34746397, "learning_rate": 4.427e-05, "elapsed_time_per_iteration": 4.95432305, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 3s", "remaining_time": "7h 24m 42s", "loss_scale": 1.0, "consumed_samples": 1853952, "global_step/max_steps": "7242/12700"}
{"lm loss": 2.0710566, "grad_norm": 0.37839657, "learning_rate": 4.426e-05, "elapsed_time_per_iteration": 5.05308628, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 8s", "remaining_time": "7h 24m 37s", "loss_scale": 1.0, "consumed_samples": 1854208, "global_step/max_steps": "7243/12700"}
{"lm loss": 2.05344319, "grad_norm": 0.34537879, "learning_rate": 4.425e-05, "elapsed_time_per_iteration": 5.00743985, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 13s", "remaining_time": "7h 24m 32s", "loss_scale": 1.0, "consumed_samples": 1854464, "global_step/max_steps": "7244/12700"}
{"lm loss": 2.05894136, "grad_norm": 0.34098423, "learning_rate": 4.423e-05, "elapsed_time_per_iteration": 4.82240796, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 18s", "remaining_time": "7h 24m 27s", "loss_scale": 1.0, "consumed_samples": 1854720, "global_step/max_steps": "7245/12700"}
{"lm loss": 2.08981633, "grad_norm": 0.34915248, "learning_rate": 4.422e-05, "elapsed_time_per_iteration": 4.78789139, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 23s", "remaining_time": "7h 24m 22s", "loss_scale": 1.0, "consumed_samples": 1854976, "global_step/max_steps": "7246/12700"}
{"lm loss": 2.10348463, "grad_norm": 0.36681449, "learning_rate": 4.421e-05, "elapsed_time_per_iteration": 4.85866857, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 28s", "remaining_time": "7h 24m 17s", "loss_scale": 1.0, "consumed_samples": 1855232, "global_step/max_steps": "7247/12700"}
{"lm loss": 2.05239177, "grad_norm": 0.36094207, "learning_rate": 4.42e-05, "elapsed_time_per_iteration": 5.05322099, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 33s", "remaining_time": "7h 24m 13s", "loss_scale": 1.0, "consumed_samples": 1855488, "global_step/max_steps": "7248/12700"}
{"lm loss": 2.06367755, "grad_norm": 0.37300441, "learning_rate": 4.418e-05, "elapsed_time_per_iteration": 5.00221896, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 38s", "remaining_time": "7h 24m 8s", "loss_scale": 1.0, "consumed_samples": 1855744, "global_step/max_steps": "7249/12700"}
{"lm loss": 2.06235194, "grad_norm": 0.35458046, "learning_rate": 4.417e-05, "elapsed_time_per_iteration": 4.91342449, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 43s", "remaining_time": "7h 24m 3s", "loss_scale": 1.0, "consumed_samples": 1856000, "global_step/max_steps": "7250/12700"}
{"lm loss": 2.09400916, "grad_norm": 0.38874301, "learning_rate": 4.416e-05, "elapsed_time_per_iteration": 4.80995107, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 47s", "remaining_time": "7h 23m 58s", "loss_scale": 1.0, "consumed_samples": 1856256, "global_step/max_steps": "7251/12700"}
{"lm loss": 2.05650234, "grad_norm": 0.36935651, "learning_rate": 4.415e-05, "elapsed_time_per_iteration": 4.92301154, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 52s", "remaining_time": "7h 23m 53s", "loss_scale": 1.0, "consumed_samples": 1856512, "global_step/max_steps": "7252/12700"}
{"lm loss": 2.09210658, "grad_norm": 0.36781114, "learning_rate": 4.413e-05, "elapsed_time_per_iteration": 4.94166279, "memory(GiB)": 28.98, "elapsed_time": "9h 50m 57s", "remaining_time": "7h 23m 48s", "loss_scale": 1.0, "consumed_samples": 1856768, "global_step/max_steps": "7253/12700"}
{"lm loss": 2.04683447, "grad_norm": 0.37753826, "learning_rate": 4.412e-05, "elapsed_time_per_iteration": 4.88711309, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 2s", "remaining_time": "7h 23m 43s", "loss_scale": 1.0, "consumed_samples": 1857024, "global_step/max_steps": "7254/12700"}
{"lm loss": 2.10120177, "grad_norm": 0.36112988, "learning_rate": 4.411e-05, "elapsed_time_per_iteration": 4.86164308, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 7s", "remaining_time": "7h 23m 38s", "loss_scale": 1.0, "consumed_samples": 1857280, "global_step/max_steps": "7255/12700"}
{"lm loss": 2.09663105, "grad_norm": 0.41252819, "learning_rate": 4.41e-05, "elapsed_time_per_iteration": 4.82733297, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 12s", "remaining_time": "7h 23m 33s", "loss_scale": 1.0, "consumed_samples": 1857536, "global_step/max_steps": "7256/12700"}
{"lm loss": 2.07383537, "grad_norm": 0.37155938, "learning_rate": 4.408e-05, "elapsed_time_per_iteration": 5.09032345, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 17s", "remaining_time": "7h 23m 29s", "loss_scale": 1.0, "consumed_samples": 1857792, "global_step/max_steps": "7257/12700"}
{"lm loss": 2.09379983, "grad_norm": 0.39590806, "learning_rate": 4.407e-05, "elapsed_time_per_iteration": 5.08001518, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 22s", "remaining_time": "7h 23m 24s", "loss_scale": 1.0, "consumed_samples": 1858048, "global_step/max_steps": "7258/12700"}
{"lm loss": 2.1110301, "grad_norm": 0.34828278, "learning_rate": 4.406e-05, "elapsed_time_per_iteration": 4.93612742, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 27s", "remaining_time": "7h 23m 19s", "loss_scale": 1.0, "consumed_samples": 1858304, "global_step/max_steps": "7259/12700"}
{"lm loss": 2.06374431, "grad_norm": 0.40185526, "learning_rate": 4.405e-05, "elapsed_time_per_iteration": 4.96867871, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 32s", "remaining_time": "7h 23m 14s", "loss_scale": 1.0, "consumed_samples": 1858560, "global_step/max_steps": "7260/12700"}
{"lm loss": 2.089818, "grad_norm": 0.36984506, "learning_rate": 4.403e-05, "elapsed_time_per_iteration": 4.98532796, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 37s", "remaining_time": "7h 23m 9s", "loss_scale": 1.0, "consumed_samples": 1858816, "global_step/max_steps": "7261/12700"}
{"lm loss": 2.09318376, "grad_norm": 0.33514738, "learning_rate": 4.402e-05, "elapsed_time_per_iteration": 4.93743181, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 42s", "remaining_time": "7h 23m 5s", "loss_scale": 1.0, "consumed_samples": 1859072, "global_step/max_steps": "7262/12700"}
{"lm loss": 2.07575655, "grad_norm": 0.3409647, "learning_rate": 4.401e-05, "elapsed_time_per_iteration": 4.83833218, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 47s", "remaining_time": "7h 23m 0s", "loss_scale": 1.0, "consumed_samples": 1859328, "global_step/max_steps": "7263/12700"}
{"lm loss": 2.08976364, "grad_norm": 0.36813942, "learning_rate": 4.4e-05, "elapsed_time_per_iteration": 4.88978934, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 51s", "remaining_time": "7h 22m 55s", "loss_scale": 1.0, "consumed_samples": 1859584, "global_step/max_steps": "7264/12700"}
{"lm loss": 2.04691052, "grad_norm": 0.3715789, "learning_rate": 4.398e-05, "elapsed_time_per_iteration": 4.8984561, "memory(GiB)": 28.98, "elapsed_time": "9h 51m 56s", "remaining_time": "7h 22m 50s", "loss_scale": 1.0, "consumed_samples": 1859840, "global_step/max_steps": "7265/12700"}
{"lm loss": 2.09561944, "grad_norm": 0.36166844, "learning_rate": 4.397e-05, "elapsed_time_per_iteration": 4.97656274, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 1s", "remaining_time": "7h 22m 45s", "loss_scale": 1.0, "consumed_samples": 1860096, "global_step/max_steps": "7266/12700"}
{"lm loss": 2.06082106, "grad_norm": 0.33589971, "learning_rate": 4.396e-05, "elapsed_time_per_iteration": 5.07887745, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 6s", "remaining_time": "7h 22m 40s", "loss_scale": 1.0, "consumed_samples": 1860352, "global_step/max_steps": "7267/12700"}
{"lm loss": 2.07134962, "grad_norm": 0.37696996, "learning_rate": 4.395e-05, "elapsed_time_per_iteration": 4.98979187, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 11s", "remaining_time": "7h 22m 36s", "loss_scale": 1.0, "consumed_samples": 1860608, "global_step/max_steps": "7268/12700"}
{"lm loss": 2.09212661, "grad_norm": 0.34877163, "learning_rate": 4.393e-05, "elapsed_time_per_iteration": 5.01745796, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 16s", "remaining_time": "7h 22m 31s", "loss_scale": 1.0, "consumed_samples": 1860864, "global_step/max_steps": "7269/12700"}
{"lm loss": 2.09514499, "grad_norm": 0.37150672, "learning_rate": 4.392e-05, "elapsed_time_per_iteration": 4.94441009, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 21s", "remaining_time": "7h 22m 26s", "loss_scale": 1.0, "consumed_samples": 1861120, "global_step/max_steps": "7270/12700"}
{"lm loss": 2.04596257, "grad_norm": 0.3518092, "learning_rate": 4.391e-05, "elapsed_time_per_iteration": 4.86145902, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 26s", "remaining_time": "7h 22m 21s", "loss_scale": 1.0, "consumed_samples": 1861376, "global_step/max_steps": "7271/12700"}
{"lm loss": 2.06010199, "grad_norm": 0.37767342, "learning_rate": 4.39e-05, "elapsed_time_per_iteration": 4.83817959, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 31s", "remaining_time": "7h 22m 16s", "loss_scale": 1.0, "consumed_samples": 1861632, "global_step/max_steps": "7272/12700"}
{"lm loss": 2.05533552, "grad_norm": 0.37179244, "learning_rate": 4.388e-05, "elapsed_time_per_iteration": 4.9154408, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 36s", "remaining_time": "7h 22m 11s", "loss_scale": 1.0, "consumed_samples": 1861888, "global_step/max_steps": "7273/12700"}
{"lm loss": 2.030478, "grad_norm": 0.3693127, "learning_rate": 4.387e-05, "elapsed_time_per_iteration": 4.90277195, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 41s", "remaining_time": "7h 22m 6s", "loss_scale": 1.0, "consumed_samples": 1862144, "global_step/max_steps": "7274/12700"}
{"lm loss": 2.07570386, "grad_norm": 0.37183195, "learning_rate": 4.386e-05, "elapsed_time_per_iteration": 4.92844582, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 46s", "remaining_time": "7h 22m 1s", "loss_scale": 1.0, "consumed_samples": 1862400, "global_step/max_steps": "7275/12700"}
{"lm loss": 2.07828069, "grad_norm": 0.35248056, "learning_rate": 4.385e-05, "elapsed_time_per_iteration": 4.90387249, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 51s", "remaining_time": "7h 21m 57s", "loss_scale": 1.0, "consumed_samples": 1862656, "global_step/max_steps": "7276/12700"}
{"lm loss": 2.10679293, "grad_norm": 0.37882385, "learning_rate": 4.383e-05, "elapsed_time_per_iteration": 4.96026015, "memory(GiB)": 28.98, "elapsed_time": "9h 52m 56s", "remaining_time": "7h 21m 52s", "loss_scale": 1.0, "consumed_samples": 1862912, "global_step/max_steps": "7277/12700"}
{"lm loss": 2.09890938, "grad_norm": 0.39590102, "learning_rate": 4.382e-05, "elapsed_time_per_iteration": 4.89557028, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 1s", "remaining_time": "7h 21m 47s", "loss_scale": 1.0, "consumed_samples": 1863168, "global_step/max_steps": "7278/12700"}
{"lm loss": 2.04892063, "grad_norm": 0.36301339, "learning_rate": 4.381e-05, "elapsed_time_per_iteration": 4.85724974, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 5s", "remaining_time": "7h 21m 42s", "loss_scale": 1.0, "consumed_samples": 1863424, "global_step/max_steps": "7279/12700"}
{"lm loss": 2.0892446, "grad_norm": 0.40191936, "learning_rate": 4.38e-05, "elapsed_time_per_iteration": 5.02832651, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 10s", "remaining_time": "7h 21m 37s", "loss_scale": 1.0, "consumed_samples": 1863680, "global_step/max_steps": "7280/12700"}
{"lm loss": 2.06004024, "grad_norm": 0.37666303, "learning_rate": 4.379e-05, "elapsed_time_per_iteration": 4.79266405, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 15s", "remaining_time": "7h 21m 32s", "loss_scale": 1.0, "consumed_samples": 1863936, "global_step/max_steps": "7281/12700"}
{"lm loss": 2.04371405, "grad_norm": 0.42212084, "learning_rate": 4.377e-05, "elapsed_time_per_iteration": 4.96164703, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 20s", "remaining_time": "7h 21m 27s", "loss_scale": 1.0, "consumed_samples": 1864192, "global_step/max_steps": "7282/12700"}
{"lm loss": 2.08104181, "grad_norm": 0.35812718, "learning_rate": 4.376e-05, "elapsed_time_per_iteration": 4.93254375, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 25s", "remaining_time": "7h 21m 23s", "loss_scale": 1.0, "consumed_samples": 1864448, "global_step/max_steps": "7283/12700"}
{"lm loss": 2.09503174, "grad_norm": 0.36858279, "learning_rate": 4.375e-05, "elapsed_time_per_iteration": 4.97420263, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 30s", "remaining_time": "7h 21m 18s", "loss_scale": 1.0, "consumed_samples": 1864704, "global_step/max_steps": "7284/12700"}
{"lm loss": 2.09105229, "grad_norm": 0.37328464, "learning_rate": 4.374e-05, "elapsed_time_per_iteration": 4.90591192, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 35s", "remaining_time": "7h 21m 13s", "loss_scale": 1.0, "consumed_samples": 1864960, "global_step/max_steps": "7285/12700"}
{"lm loss": 2.07948136, "grad_norm": 0.35764793, "learning_rate": 4.372e-05, "elapsed_time_per_iteration": 4.85549831, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 40s", "remaining_time": "7h 21m 8s", "loss_scale": 1.0, "consumed_samples": 1865216, "global_step/max_steps": "7286/12700"}
{"lm loss": 2.09829378, "grad_norm": 0.37844303, "learning_rate": 4.371e-05, "elapsed_time_per_iteration": 4.90430045, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 45s", "remaining_time": "7h 21m 3s", "loss_scale": 1.0, "consumed_samples": 1865472, "global_step/max_steps": "7287/12700"}
{"lm loss": 2.07943177, "grad_norm": 0.34586668, "learning_rate": 4.37e-05, "elapsed_time_per_iteration": 4.83006787, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 50s", "remaining_time": "7h 20m 58s", "loss_scale": 1.0, "consumed_samples": 1865728, "global_step/max_steps": "7288/12700"}
{"lm loss": 2.07183838, "grad_norm": 0.36152589, "learning_rate": 4.369e-05, "elapsed_time_per_iteration": 4.88395309, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 55s", "remaining_time": "7h 20m 53s", "loss_scale": 1.0, "consumed_samples": 1865984, "global_step/max_steps": "7289/12700"}
{"lm loss": 2.0784812, "grad_norm": 0.35581008, "learning_rate": 4.367e-05, "elapsed_time_per_iteration": 4.97443295, "memory(GiB)": 28.98, "elapsed_time": "9h 53m 59s", "remaining_time": "7h 20m 48s", "loss_scale": 1.0, "consumed_samples": 1866240, "global_step/max_steps": "7290/12700"}
{"lm loss": 2.06040812, "grad_norm": 0.38389066, "learning_rate": 4.366e-05, "elapsed_time_per_iteration": 4.91840506, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 4s", "remaining_time": "7h 20m 44s", "loss_scale": 1.0, "consumed_samples": 1866496, "global_step/max_steps": "7291/12700"}
{"lm loss": 2.09501147, "grad_norm": 0.37182909, "learning_rate": 4.365e-05, "elapsed_time_per_iteration": 4.89708972, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 9s", "remaining_time": "7h 20m 39s", "loss_scale": 1.0, "consumed_samples": 1866752, "global_step/max_steps": "7292/12700"}
{"lm loss": 2.07807207, "grad_norm": 0.38086209, "learning_rate": 4.364e-05, "elapsed_time_per_iteration": 4.88394403, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 14s", "remaining_time": "7h 20m 34s", "loss_scale": 1.0, "consumed_samples": 1867008, "global_step/max_steps": "7293/12700"}
{"lm loss": 2.10114956, "grad_norm": 0.40515366, "learning_rate": 4.362e-05, "elapsed_time_per_iteration": 4.89837313, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 19s", "remaining_time": "7h 20m 29s", "loss_scale": 1.0, "consumed_samples": 1867264, "global_step/max_steps": "7294/12700"}
{"lm loss": 2.07379198, "grad_norm": 0.34574813, "learning_rate": 4.361e-05, "elapsed_time_per_iteration": 4.95585752, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 24s", "remaining_time": "7h 20m 24s", "loss_scale": 1.0, "consumed_samples": 1867520, "global_step/max_steps": "7295/12700"}
{"lm loss": 2.08610129, "grad_norm": 0.37304637, "learning_rate": 4.36e-05, "elapsed_time_per_iteration": 4.8851223, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 29s", "remaining_time": "7h 20m 19s", "loss_scale": 1.0, "consumed_samples": 1867776, "global_step/max_steps": "7296/12700"}
{"lm loss": 2.09589577, "grad_norm": 0.33231321, "learning_rate": 4.359e-05, "elapsed_time_per_iteration": 4.86692286, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 34s", "remaining_time": "7h 20m 14s", "loss_scale": 1.0, "consumed_samples": 1868032, "global_step/max_steps": "7297/12700"}
{"lm loss": 2.07289791, "grad_norm": 0.35122567, "learning_rate": 4.357e-05, "elapsed_time_per_iteration": 4.77409434, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 39s", "remaining_time": "7h 20m 9s", "loss_scale": 1.0, "consumed_samples": 1868288, "global_step/max_steps": "7298/12700"}
{"lm loss": 2.11696982, "grad_norm": 0.36188975, "learning_rate": 4.356e-05, "elapsed_time_per_iteration": 4.84448934, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 43s", "remaining_time": "7h 20m 4s", "loss_scale": 1.0, "consumed_samples": 1868544, "global_step/max_steps": "7299/12700"}
{"lm loss": 2.06731915, "grad_norm": 0.35292545, "learning_rate": 4.355e-05, "elapsed_time_per_iteration": 4.8939178, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 48s", "remaining_time": "7h 19m 59s", "loss_scale": 1.0, "consumed_samples": 1868800, "global_step/max_steps": "7300/12700"}
{"lm loss": 2.0784111, "grad_norm": 0.36437443, "learning_rate": 4.354e-05, "elapsed_time_per_iteration": 4.9149704, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 53s", "remaining_time": "7h 19m 55s", "loss_scale": 1.0, "consumed_samples": 1869056, "global_step/max_steps": "7301/12700"}
{"lm loss": 2.09136534, "grad_norm": 0.33581042, "learning_rate": 4.352e-05, "elapsed_time_per_iteration": 4.94151974, "memory(GiB)": 28.98, "elapsed_time": "9h 54m 58s", "remaining_time": "7h 19m 50s", "loss_scale": 1.0, "consumed_samples": 1869312, "global_step/max_steps": "7302/12700"}
{"lm loss": 2.0767715, "grad_norm": 0.34840709, "learning_rate": 4.351e-05, "elapsed_time_per_iteration": 4.94565582, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 3s", "remaining_time": "7h 19m 45s", "loss_scale": 1.0, "consumed_samples": 1869568, "global_step/max_steps": "7303/12700"}
{"lm loss": 2.0824151, "grad_norm": 0.36747527, "learning_rate": 4.35e-05, "elapsed_time_per_iteration": 4.89211297, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 8s", "remaining_time": "7h 19m 40s", "loss_scale": 1.0, "consumed_samples": 1869824, "global_step/max_steps": "7304/12700"}
{"lm loss": 2.07606268, "grad_norm": 0.3516117, "learning_rate": 4.349e-05, "elapsed_time_per_iteration": 4.911587, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 13s", "remaining_time": "7h 19m 35s", "loss_scale": 1.0, "consumed_samples": 1870080, "global_step/max_steps": "7305/12700"}
{"lm loss": 2.05566978, "grad_norm": 0.35342863, "learning_rate": 4.347e-05, "elapsed_time_per_iteration": 4.93809152, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 18s", "remaining_time": "7h 19m 30s", "loss_scale": 1.0, "consumed_samples": 1870336, "global_step/max_steps": "7306/12700"}
{"lm loss": 2.08607864, "grad_norm": 0.35200965, "learning_rate": 4.346e-05, "elapsed_time_per_iteration": 4.88992262, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 23s", "remaining_time": "7h 19m 25s", "loss_scale": 1.0, "consumed_samples": 1870592, "global_step/max_steps": "7307/12700"}
{"lm loss": 2.06697965, "grad_norm": 0.35620078, "learning_rate": 4.345e-05, "elapsed_time_per_iteration": 4.85382509, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 28s", "remaining_time": "7h 19m 20s", "loss_scale": 1.0, "consumed_samples": 1870848, "global_step/max_steps": "7308/12700"}
{"lm loss": 2.04542971, "grad_norm": 0.33423707, "learning_rate": 4.344e-05, "elapsed_time_per_iteration": 4.92217517, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 33s", "remaining_time": "7h 19m 16s", "loss_scale": 1.0, "consumed_samples": 1871104, "global_step/max_steps": "7309/12700"}
{"lm loss": 2.08115959, "grad_norm": 0.34809196, "learning_rate": 4.342e-05, "elapsed_time_per_iteration": 4.97720528, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 37s", "remaining_time": "7h 19m 11s", "loss_scale": 1.0, "consumed_samples": 1871360, "global_step/max_steps": "7310/12700"}
{"lm loss": 2.08631754, "grad_norm": 0.3567293, "learning_rate": 4.341e-05, "elapsed_time_per_iteration": 4.99392104, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 42s", "remaining_time": "7h 19m 6s", "loss_scale": 1.0, "consumed_samples": 1871616, "global_step/max_steps": "7311/12700"}
{"lm loss": 2.05655742, "grad_norm": 0.40276814, "learning_rate": 4.34e-05, "elapsed_time_per_iteration": 4.97141242, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 47s", "remaining_time": "7h 19m 1s", "loss_scale": 1.0, "consumed_samples": 1871872, "global_step/max_steps": "7312/12700"}
{"lm loss": 2.06245971, "grad_norm": 0.35122088, "learning_rate": 4.339e-05, "elapsed_time_per_iteration": 4.93564296, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 52s", "remaining_time": "7h 18m 56s", "loss_scale": 1.0, "consumed_samples": 1872128, "global_step/max_steps": "7313/12700"}
{"lm loss": 2.09179497, "grad_norm": 0.38440862, "learning_rate": 4.337e-05, "elapsed_time_per_iteration": 4.81292152, "memory(GiB)": 28.98, "elapsed_time": "9h 55m 57s", "remaining_time": "7h 18m 51s", "loss_scale": 1.0, "consumed_samples": 1872384, "global_step/max_steps": "7314/12700"}
{"lm loss": 2.09875727, "grad_norm": 0.38528138, "learning_rate": 4.336e-05, "elapsed_time_per_iteration": 4.84764218, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 2s", "remaining_time": "7h 18m 46s", "loss_scale": 1.0, "consumed_samples": 1872640, "global_step/max_steps": "7315/12700"}
{"lm loss": 2.11852789, "grad_norm": 0.38093948, "learning_rate": 4.335e-05, "elapsed_time_per_iteration": 4.90490031, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 7s", "remaining_time": "7h 18m 42s", "loss_scale": 1.0, "consumed_samples": 1872896, "global_step/max_steps": "7316/12700"}
{"lm loss": 2.05965424, "grad_norm": 0.35331902, "learning_rate": 4.334e-05, "elapsed_time_per_iteration": 4.85225821, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 12s", "remaining_time": "7h 18m 37s", "loss_scale": 1.0, "consumed_samples": 1873152, "global_step/max_steps": "7317/12700"}
{"lm loss": 2.08962655, "grad_norm": 0.35235333, "learning_rate": 4.332e-05, "elapsed_time_per_iteration": 4.90764785, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 17s", "remaining_time": "7h 18m 32s", "loss_scale": 1.0, "consumed_samples": 1873408, "global_step/max_steps": "7318/12700"}
{"lm loss": 2.07166791, "grad_norm": 0.36418727, "learning_rate": 4.331e-05, "elapsed_time_per_iteration": 4.9569993, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 22s", "remaining_time": "7h 18m 27s", "loss_scale": 1.0, "consumed_samples": 1873664, "global_step/max_steps": "7319/12700"}
{"lm loss": 2.1223743, "grad_norm": 0.36185491, "learning_rate": 4.33e-05, "elapsed_time_per_iteration": 5.05225897, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 27s", "remaining_time": "7h 18m 22s", "loss_scale": 1.0, "consumed_samples": 1873920, "global_step/max_steps": "7320/12700"}
{"lm loss": 2.10368943, "grad_norm": 0.36918756, "learning_rate": 4.329e-05, "elapsed_time_per_iteration": 5.14433503, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 32s", "remaining_time": "7h 18m 17s", "loss_scale": 1.0, "consumed_samples": 1874176, "global_step/max_steps": "7321/12700"}
{"lm loss": 2.09593797, "grad_norm": 0.34399587, "learning_rate": 4.327e-05, "elapsed_time_per_iteration": 4.85831094, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 37s", "remaining_time": "7h 18m 13s", "loss_scale": 1.0, "consumed_samples": 1874432, "global_step/max_steps": "7322/12700"}
{"lm loss": 2.06164813, "grad_norm": 0.35544613, "learning_rate": 4.326e-05, "elapsed_time_per_iteration": 4.85584974, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 42s", "remaining_time": "7h 18m 8s", "loss_scale": 1.0, "consumed_samples": 1874688, "global_step/max_steps": "7323/12700"}
{"lm loss": 2.08669877, "grad_norm": 0.34148371, "learning_rate": 4.325e-05, "elapsed_time_per_iteration": 4.81411052, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 46s", "remaining_time": "7h 18m 3s", "loss_scale": 1.0, "consumed_samples": 1874944, "global_step/max_steps": "7324/12700"}
{"lm loss": 2.13148284, "grad_norm": 0.35901695, "learning_rate": 4.324e-05, "elapsed_time_per_iteration": 4.83577394, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 51s", "remaining_time": "7h 17m 58s", "loss_scale": 1.0, "consumed_samples": 1875200, "global_step/max_steps": "7325/12700"}
{"lm loss": 2.09806705, "grad_norm": 0.33470562, "learning_rate": 4.322e-05, "elapsed_time_per_iteration": 4.92513299, "memory(GiB)": 28.98, "elapsed_time": "9h 56m 56s", "remaining_time": "7h 17m 53s", "loss_scale": 1.0, "consumed_samples": 1875456, "global_step/max_steps": "7326/12700"}
{"lm loss": 2.05602574, "grad_norm": 0.36651951, "learning_rate": 4.321e-05, "elapsed_time_per_iteration": 4.88996863, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 1s", "remaining_time": "7h 17m 48s", "loss_scale": 1.0, "consumed_samples": 1875712, "global_step/max_steps": "7327/12700"}
{"lm loss": 2.04688311, "grad_norm": 0.35095644, "learning_rate": 4.32e-05, "elapsed_time_per_iteration": 4.85958433, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 6s", "remaining_time": "7h 17m 43s", "loss_scale": 1.0, "consumed_samples": 1875968, "global_step/max_steps": "7328/12700"}
{"lm loss": 2.08597946, "grad_norm": 0.37223485, "learning_rate": 4.319e-05, "elapsed_time_per_iteration": 5.06656194, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 11s", "remaining_time": "7h 17m 38s", "loss_scale": 1.0, "consumed_samples": 1876224, "global_step/max_steps": "7329/12700"}
{"lm loss": 2.08382082, "grad_norm": 0.34719211, "learning_rate": 4.317e-05, "elapsed_time_per_iteration": 4.93244624, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 16s", "remaining_time": "7h 17m 33s", "loss_scale": 1.0, "consumed_samples": 1876480, "global_step/max_steps": "7330/12700"}
{"lm loss": 2.07198977, "grad_norm": 0.35695133, "learning_rate": 4.316e-05, "elapsed_time_per_iteration": 4.96277833, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 21s", "remaining_time": "7h 17m 29s", "loss_scale": 1.0, "consumed_samples": 1876736, "global_step/max_steps": "7331/12700"}
{"lm loss": 2.10328913, "grad_norm": 0.3629638, "learning_rate": 4.315e-05, "elapsed_time_per_iteration": 4.90358067, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 26s", "remaining_time": "7h 17m 24s", "loss_scale": 1.0, "consumed_samples": 1876992, "global_step/max_steps": "7332/12700"}
{"lm loss": 2.07432961, "grad_norm": 0.34957102, "learning_rate": 4.314e-05, "elapsed_time_per_iteration": 4.8097477, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 31s", "remaining_time": "7h 17m 19s", "loss_scale": 1.0, "consumed_samples": 1877248, "global_step/max_steps": "7333/12700"}
{"lm loss": 2.07375479, "grad_norm": 0.35473981, "learning_rate": 4.313e-05, "elapsed_time_per_iteration": 4.92937732, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 36s", "remaining_time": "7h 17m 14s", "loss_scale": 1.0, "consumed_samples": 1877504, "global_step/max_steps": "7334/12700"}
{"lm loss": 2.07923818, "grad_norm": 0.3597489, "learning_rate": 4.311e-05, "elapsed_time_per_iteration": 4.96478057, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 40s", "remaining_time": "7h 17m 9s", "loss_scale": 1.0, "consumed_samples": 1877760, "global_step/max_steps": "7335/12700"}
{"lm loss": 2.06504893, "grad_norm": 0.35323778, "learning_rate": 4.31e-05, "elapsed_time_per_iteration": 4.91751647, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 45s", "remaining_time": "7h 17m 4s", "loss_scale": 1.0, "consumed_samples": 1878016, "global_step/max_steps": "7336/12700"}
{"lm loss": 2.07434154, "grad_norm": 0.33632904, "learning_rate": 4.309e-05, "elapsed_time_per_iteration": 4.93356371, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 50s", "remaining_time": "7h 16m 59s", "loss_scale": 1.0, "consumed_samples": 1878272, "global_step/max_steps": "7337/12700"}
{"lm loss": 2.08114958, "grad_norm": 0.36462465, "learning_rate": 4.308e-05, "elapsed_time_per_iteration": 4.82340574, "memory(GiB)": 28.98, "elapsed_time": "9h 57m 55s", "remaining_time": "7h 16m 54s", "loss_scale": 1.0, "consumed_samples": 1878528, "global_step/max_steps": "7338/12700"}
{"lm loss": 2.08410048, "grad_norm": 0.34104311, "learning_rate": 4.306e-05, "elapsed_time_per_iteration": 4.91677475, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 0s", "remaining_time": "7h 16m 50s", "loss_scale": 1.0, "consumed_samples": 1878784, "global_step/max_steps": "7339/12700"}
{"lm loss": 2.07981777, "grad_norm": 0.39158124, "learning_rate": 4.305e-05, "elapsed_time_per_iteration": 4.87203884, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 5s", "remaining_time": "7h 16m 45s", "loss_scale": 1.0, "consumed_samples": 1879040, "global_step/max_steps": "7340/12700"}
{"lm loss": 2.07210636, "grad_norm": 0.33235854, "learning_rate": 4.304e-05, "elapsed_time_per_iteration": 4.81930304, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 10s", "remaining_time": "7h 16m 40s", "loss_scale": 1.0, "consumed_samples": 1879296, "global_step/max_steps": "7341/12700"}
{"lm loss": 2.08811688, "grad_norm": 0.37783268, "learning_rate": 4.303e-05, "elapsed_time_per_iteration": 4.83706689, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 15s", "remaining_time": "7h 16m 35s", "loss_scale": 1.0, "consumed_samples": 1879552, "global_step/max_steps": "7342/12700"}
{"lm loss": 2.07822061, "grad_norm": 0.33771229, "learning_rate": 4.301e-05, "elapsed_time_per_iteration": 4.93754125, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 20s", "remaining_time": "7h 16m 30s", "loss_scale": 1.0, "consumed_samples": 1879808, "global_step/max_steps": "7343/12700"}
{"lm loss": 2.08665895, "grad_norm": 0.3752293, "learning_rate": 4.3e-05, "elapsed_time_per_iteration": 4.81648064, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 24s", "remaining_time": "7h 16m 25s", "loss_scale": 1.0, "consumed_samples": 1880064, "global_step/max_steps": "7344/12700"}
{"lm loss": 2.07539368, "grad_norm": 0.34970579, "learning_rate": 4.299e-05, "elapsed_time_per_iteration": 4.89722514, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 29s", "remaining_time": "7h 16m 20s", "loss_scale": 1.0, "consumed_samples": 1880320, "global_step/max_steps": "7345/12700"}
{"lm loss": 2.12233829, "grad_norm": 0.35726711, "learning_rate": 4.298e-05, "elapsed_time_per_iteration": 4.95506239, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 34s", "remaining_time": "7h 16m 15s", "loss_scale": 1.0, "consumed_samples": 1880576, "global_step/max_steps": "7346/12700"}
{"lm loss": 2.09185958, "grad_norm": 0.39338994, "learning_rate": 4.296e-05, "elapsed_time_per_iteration": 4.87761354, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 39s", "remaining_time": "7h 16m 10s", "loss_scale": 1.0, "consumed_samples": 1880832, "global_step/max_steps": "7347/12700"}
{"lm loss": 2.05891681, "grad_norm": 0.35587743, "learning_rate": 4.295e-05, "elapsed_time_per_iteration": 4.93756986, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 44s", "remaining_time": "7h 16m 6s", "loss_scale": 1.0, "consumed_samples": 1881088, "global_step/max_steps": "7348/12700"}
{"lm loss": 2.09310222, "grad_norm": 0.37332228, "learning_rate": 4.294e-05, "elapsed_time_per_iteration": 4.82458472, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 49s", "remaining_time": "7h 16m 1s", "loss_scale": 1.0, "consumed_samples": 1881344, "global_step/max_steps": "7349/12700"}
{"lm loss": 2.07257819, "grad_norm": 0.36142087, "learning_rate": 4.293e-05, "elapsed_time_per_iteration": 4.86329794, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 54s", "remaining_time": "7h 15m 56s", "loss_scale": 1.0, "consumed_samples": 1881600, "global_step/max_steps": "7350/12700"}
{"lm loss": 2.09451556, "grad_norm": 0.39883396, "learning_rate": 4.291e-05, "elapsed_time_per_iteration": 5.03510523, "memory(GiB)": 28.98, "elapsed_time": "9h 58m 59s", "remaining_time": "7h 15m 51s", "loss_scale": 1.0, "consumed_samples": 1881856, "global_step/max_steps": "7351/12700"}
{"lm loss": 2.04930568, "grad_norm": 0.34045127, "learning_rate": 4.29e-05, "elapsed_time_per_iteration": 5.10009742, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 4s", "remaining_time": "7h 15m 46s", "loss_scale": 1.0, "consumed_samples": 1882112, "global_step/max_steps": "7352/12700"}
{"lm loss": 2.14720893, "grad_norm": 0.37844434, "learning_rate": 4.289e-05, "elapsed_time_per_iteration": 5.09694529, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 9s", "remaining_time": "7h 15m 41s", "loss_scale": 1.0, "consumed_samples": 1882368, "global_step/max_steps": "7353/12700"}
{"lm loss": 2.12018132, "grad_norm": 0.38000858, "learning_rate": 4.288e-05, "elapsed_time_per_iteration": 5.19081831, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 14s", "remaining_time": "7h 15m 37s", "loss_scale": 1.0, "consumed_samples": 1882624, "global_step/max_steps": "7354/12700"}
{"lm loss": 2.06632924, "grad_norm": 0.33981752, "learning_rate": 4.286e-05, "elapsed_time_per_iteration": 4.91206884, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 19s", "remaining_time": "7h 15m 32s", "loss_scale": 1.0, "consumed_samples": 1882880, "global_step/max_steps": "7355/12700"}
{"lm loss": 2.04032326, "grad_norm": 0.36841807, "learning_rate": 4.285e-05, "elapsed_time_per_iteration": 4.90802646, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 24s", "remaining_time": "7h 15m 27s", "loss_scale": 1.0, "consumed_samples": 1883136, "global_step/max_steps": "7356/12700"}
{"lm loss": 2.12148786, "grad_norm": 0.34654367, "learning_rate": 4.284e-05, "elapsed_time_per_iteration": 5.03801346, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 29s", "remaining_time": "7h 15m 22s", "loss_scale": 1.0, "consumed_samples": 1883392, "global_step/max_steps": "7357/12700"}
{"lm loss": 2.06014252, "grad_norm": 0.34030303, "learning_rate": 4.283e-05, "elapsed_time_per_iteration": 5.028229, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 34s", "remaining_time": "7h 15m 17s", "loss_scale": 1.0, "consumed_samples": 1883648, "global_step/max_steps": "7358/12700"}
{"lm loss": 2.09281182, "grad_norm": 0.37949783, "learning_rate": 4.281e-05, "elapsed_time_per_iteration": 4.80261254, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 39s", "remaining_time": "7h 15m 13s", "loss_scale": 1.0, "consumed_samples": 1883904, "global_step/max_steps": "7359/12700"}
{"lm loss": 2.09067678, "grad_norm": 0.35988846, "learning_rate": 4.28e-05, "elapsed_time_per_iteration": 4.88561773, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 44s", "remaining_time": "7h 15m 8s", "loss_scale": 1.0, "consumed_samples": 1884160, "global_step/max_steps": "7360/12700"}
{"lm loss": 2.09942985, "grad_norm": 0.3490909, "learning_rate": 4.279e-05, "elapsed_time_per_iteration": 4.86853743, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 49s", "remaining_time": "7h 15m 3s", "loss_scale": 1.0, "consumed_samples": 1884416, "global_step/max_steps": "7361/12700"}
{"lm loss": 2.05813551, "grad_norm": 0.35862809, "learning_rate": 4.278e-05, "elapsed_time_per_iteration": 5.07102275, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 54s", "remaining_time": "7h 14m 58s", "loss_scale": 1.0, "consumed_samples": 1884672, "global_step/max_steps": "7362/12700"}
{"lm loss": 2.02036953, "grad_norm": 0.36166129, "learning_rate": 4.276e-05, "elapsed_time_per_iteration": 4.99042964, "memory(GiB)": 28.98, "elapsed_time": "9h 59m 59s", "remaining_time": "7h 14m 53s", "loss_scale": 1.0, "consumed_samples": 1884928, "global_step/max_steps": "7363/12700"}
{"lm loss": 2.07705784, "grad_norm": 0.36982414, "learning_rate": 4.275e-05, "elapsed_time_per_iteration": 4.88443685, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 4s", "remaining_time": "7h 14m 48s", "loss_scale": 1.0, "consumed_samples": 1885184, "global_step/max_steps": "7364/12700"}
{"lm loss": 2.05356765, "grad_norm": 0.34805834, "learning_rate": 4.274e-05, "elapsed_time_per_iteration": 4.81757069, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 8s", "remaining_time": "7h 14m 43s", "loss_scale": 1.0, "consumed_samples": 1885440, "global_step/max_steps": "7365/12700"}
{"lm loss": 2.07620645, "grad_norm": 0.36356112, "learning_rate": 4.273e-05, "elapsed_time_per_iteration": 4.88920164, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 13s", "remaining_time": "7h 14m 38s", "loss_scale": 1.0, "consumed_samples": 1885696, "global_step/max_steps": "7366/12700"}
{"lm loss": 2.09636188, "grad_norm": 0.35180631, "learning_rate": 4.271e-05, "elapsed_time_per_iteration": 4.89467406, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 18s", "remaining_time": "7h 14m 34s", "loss_scale": 1.0, "consumed_samples": 1885952, "global_step/max_steps": "7367/12700"}
{"lm loss": 2.11361933, "grad_norm": 0.36813849, "learning_rate": 4.27e-05, "elapsed_time_per_iteration": 4.8228519, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 23s", "remaining_time": "7h 14m 29s", "loss_scale": 1.0, "consumed_samples": 1886208, "global_step/max_steps": "7368/12700"}
{"lm loss": 2.08263564, "grad_norm": 0.38207835, "learning_rate": 4.269e-05, "elapsed_time_per_iteration": 4.84717965, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 28s", "remaining_time": "7h 14m 24s", "loss_scale": 1.0, "consumed_samples": 1886464, "global_step/max_steps": "7369/12700"}
{"lm loss": 2.09310198, "grad_norm": 0.36221659, "learning_rate": 4.268e-05, "elapsed_time_per_iteration": 4.88570309, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 33s", "remaining_time": "7h 14m 19s", "loss_scale": 1.0, "consumed_samples": 1886720, "global_step/max_steps": "7370/12700"}
{"lm loss": 2.07406473, "grad_norm": 0.35450414, "learning_rate": 4.267e-05, "elapsed_time_per_iteration": 5.17466784, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 38s", "remaining_time": "7h 14m 14s", "loss_scale": 1.0, "consumed_samples": 1886976, "global_step/max_steps": "7371/12700"}
{"lm loss": 2.05658436, "grad_norm": 0.36654085, "learning_rate": 4.265e-05, "elapsed_time_per_iteration": 5.06942415, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 43s", "remaining_time": "7h 14m 9s", "loss_scale": 1.0, "consumed_samples": 1887232, "global_step/max_steps": "7372/12700"}
{"lm loss": 2.07718658, "grad_norm": 0.3414984, "learning_rate": 4.264e-05, "elapsed_time_per_iteration": 4.82205105, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 48s", "remaining_time": "7h 14m 4s", "loss_scale": 1.0, "consumed_samples": 1887488, "global_step/max_steps": "7373/12700"}
{"lm loss": 2.05986047, "grad_norm": 0.35538611, "learning_rate": 4.263e-05, "elapsed_time_per_iteration": 4.82498574, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 53s", "remaining_time": "7h 13m 59s", "loss_scale": 1.0, "consumed_samples": 1887744, "global_step/max_steps": "7374/12700"}
{"lm loss": 2.09986019, "grad_norm": 0.3514249, "learning_rate": 4.262e-05, "elapsed_time_per_iteration": 4.85716987, "memory(GiB)": 28.98, "elapsed_time": "10h 0m 57s", "remaining_time": "7h 13m 55s", "loss_scale": 1.0, "consumed_samples": 1888000, "global_step/max_steps": "7375/12700"}
{"lm loss": 2.08174062, "grad_norm": 0.34712544, "learning_rate": 4.26e-05, "elapsed_time_per_iteration": 4.91093302, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 2s", "remaining_time": "7h 13m 50s", "loss_scale": 1.0, "consumed_samples": 1888256, "global_step/max_steps": "7376/12700"}
{"lm loss": 2.05147648, "grad_norm": 0.32269371, "learning_rate": 4.259e-05, "elapsed_time_per_iteration": 4.82443142, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 7s", "remaining_time": "7h 13m 45s", "loss_scale": 1.0, "consumed_samples": 1888512, "global_step/max_steps": "7377/12700"}
{"lm loss": 2.09746838, "grad_norm": 0.35858038, "learning_rate": 4.258e-05, "elapsed_time_per_iteration": 4.75338912, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 12s", "remaining_time": "7h 13m 40s", "loss_scale": 1.0, "consumed_samples": 1888768, "global_step/max_steps": "7378/12700"}
{"lm loss": 2.06251955, "grad_norm": 0.36626005, "learning_rate": 4.257e-05, "elapsed_time_per_iteration": 4.87972975, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 17s", "remaining_time": "7h 13m 35s", "loss_scale": 1.0, "consumed_samples": 1889024, "global_step/max_steps": "7379/12700"}
{"lm loss": 2.06139159, "grad_norm": 0.3506152, "learning_rate": 4.255e-05, "elapsed_time_per_iteration": 4.94561267, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 22s", "remaining_time": "7h 13m 30s", "loss_scale": 1.0, "consumed_samples": 1889280, "global_step/max_steps": "7380/12700"}
{"lm loss": 2.04665089, "grad_norm": 0.38915306, "learning_rate": 4.254e-05, "elapsed_time_per_iteration": 5.04236674, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 27s", "remaining_time": "7h 13m 25s", "loss_scale": 1.0, "consumed_samples": 1889536, "global_step/max_steps": "7381/12700"}
{"lm loss": 2.07488227, "grad_norm": 0.3833189, "learning_rate": 4.253e-05, "elapsed_time_per_iteration": 4.81772399, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 32s", "remaining_time": "7h 13m 20s", "loss_scale": 1.0, "consumed_samples": 1889792, "global_step/max_steps": "7382/12700"}
{"lm loss": 2.08923578, "grad_norm": 0.38862339, "learning_rate": 4.252e-05, "elapsed_time_per_iteration": 4.86607552, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 36s", "remaining_time": "7h 13m 15s", "loss_scale": 1.0, "consumed_samples": 1890048, "global_step/max_steps": "7383/12700"}
{"lm loss": 2.05343223, "grad_norm": 0.37149107, "learning_rate": 4.25e-05, "elapsed_time_per_iteration": 4.92398953, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 41s", "remaining_time": "7h 13m 11s", "loss_scale": 1.0, "consumed_samples": 1890304, "global_step/max_steps": "7384/12700"}
{"lm loss": 2.04383945, "grad_norm": 0.36066309, "learning_rate": 4.249e-05, "elapsed_time_per_iteration": 4.99778271, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 46s", "remaining_time": "7h 13m 6s", "loss_scale": 1.0, "consumed_samples": 1890560, "global_step/max_steps": "7385/12700"}
{"lm loss": 2.03696156, "grad_norm": 0.35820317, "learning_rate": 4.248e-05, "elapsed_time_per_iteration": 5.07328296, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 51s", "remaining_time": "7h 13m 1s", "loss_scale": 1.0, "consumed_samples": 1890816, "global_step/max_steps": "7386/12700"}
{"lm loss": 2.08662415, "grad_norm": 0.36515051, "learning_rate": 4.247e-05, "elapsed_time_per_iteration": 4.82962251, "memory(GiB)": 28.98, "elapsed_time": "10h 1m 56s", "remaining_time": "7h 12m 56s", "loss_scale": 1.0, "consumed_samples": 1891072, "global_step/max_steps": "7387/12700"}
{"lm loss": 2.06142926, "grad_norm": 0.37076011, "learning_rate": 4.245e-05, "elapsed_time_per_iteration": 4.98396063, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 1s", "remaining_time": "7h 12m 51s", "loss_scale": 1.0, "consumed_samples": 1891328, "global_step/max_steps": "7388/12700"}
{"lm loss": 2.09109545, "grad_norm": 0.37074602, "learning_rate": 4.244e-05, "elapsed_time_per_iteration": 4.98996377, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 6s", "remaining_time": "7h 12m 46s", "loss_scale": 1.0, "consumed_samples": 1891584, "global_step/max_steps": "7389/12700"}
{"lm loss": 2.11379552, "grad_norm": 0.3689926, "learning_rate": 4.243e-05, "elapsed_time_per_iteration": 4.81472087, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 11s", "remaining_time": "7h 12m 41s", "loss_scale": 1.0, "consumed_samples": 1891840, "global_step/max_steps": "7390/12700"}
{"lm loss": 2.07044888, "grad_norm": 0.35656857, "learning_rate": 4.242e-05, "elapsed_time_per_iteration": 4.92828274, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 16s", "remaining_time": "7h 12m 37s", "loss_scale": 1.0, "consumed_samples": 1892096, "global_step/max_steps": "7391/12700"}
{"lm loss": 2.08322072, "grad_norm": 0.36127174, "learning_rate": 4.24e-05, "elapsed_time_per_iteration": 4.82299066, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 21s", "remaining_time": "7h 12m 32s", "loss_scale": 1.0, "consumed_samples": 1892352, "global_step/max_steps": "7392/12700"}
{"lm loss": 2.05286074, "grad_norm": 0.38228488, "learning_rate": 4.239e-05, "elapsed_time_per_iteration": 4.97350264, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 26s", "remaining_time": "7h 12m 27s", "loss_scale": 1.0, "consumed_samples": 1892608, "global_step/max_steps": "7393/12700"}
{"lm loss": 2.07679319, "grad_norm": 0.35475901, "learning_rate": 4.238e-05, "elapsed_time_per_iteration": 4.9776001, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 31s", "remaining_time": "7h 12m 22s", "loss_scale": 1.0, "consumed_samples": 1892864, "global_step/max_steps": "7394/12700"}
{"lm loss": 2.09154034, "grad_norm": 0.36386785, "learning_rate": 4.237e-05, "elapsed_time_per_iteration": 4.93105745, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 36s", "remaining_time": "7h 12m 17s", "loss_scale": 1.0, "consumed_samples": 1893120, "global_step/max_steps": "7395/12700"}
{"lm loss": 2.05376506, "grad_norm": 0.36772278, "learning_rate": 4.235e-05, "elapsed_time_per_iteration": 4.83007288, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 41s", "remaining_time": "7h 12m 12s", "loss_scale": 1.0, "consumed_samples": 1893376, "global_step/max_steps": "7396/12700"}
{"lm loss": 2.06772733, "grad_norm": 0.37427405, "learning_rate": 4.234e-05, "elapsed_time_per_iteration": 4.8303473, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 45s", "remaining_time": "7h 12m 7s", "loss_scale": 1.0, "consumed_samples": 1893632, "global_step/max_steps": "7397/12700"}
{"lm loss": 2.07333159, "grad_norm": 0.36142135, "learning_rate": 4.233e-05, "elapsed_time_per_iteration": 4.92545366, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 50s", "remaining_time": "7h 12m 2s", "loss_scale": 1.0, "consumed_samples": 1893888, "global_step/max_steps": "7398/12700"}
{"lm loss": 2.09832263, "grad_norm": 0.37463155, "learning_rate": 4.232e-05, "elapsed_time_per_iteration": 4.84510255, "memory(GiB)": 28.98, "elapsed_time": "10h 2m 55s", "remaining_time": "7h 11m 57s", "loss_scale": 1.0, "consumed_samples": 1894144, "global_step/max_steps": "7399/12700"}
{"lm loss": 2.05758595, "grad_norm": 0.34652799, "learning_rate": 4.231e-05, "elapsed_time_per_iteration": 4.91013336, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 0s", "remaining_time": "7h 11m 53s", "loss_scale": 1.0, "consumed_samples": 1894400, "global_step/max_steps": "7400/12700"}
{"lm loss": 2.10991836, "grad_norm": 0.3651576, "learning_rate": 4.229e-05, "elapsed_time_per_iteration": 5.09834862, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 5s", "remaining_time": "7h 11m 48s", "loss_scale": 1.0, "consumed_samples": 1894656, "global_step/max_steps": "7401/12700"}
{"lm loss": 2.0883925, "grad_norm": 0.36825338, "learning_rate": 4.228e-05, "elapsed_time_per_iteration": 5.24727106, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 10s", "remaining_time": "7h 11m 43s", "loss_scale": 1.0, "consumed_samples": 1894912, "global_step/max_steps": "7402/12700"}
{"lm loss": 2.09498644, "grad_norm": 0.33739802, "learning_rate": 4.227e-05, "elapsed_time_per_iteration": 5.7155683, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 16s", "remaining_time": "7h 11m 39s", "loss_scale": 1.0, "consumed_samples": 1895168, "global_step/max_steps": "7403/12700"}
{"lm loss": 2.0963099, "grad_norm": 0.38334024, "learning_rate": 4.226e-05, "elapsed_time_per_iteration": 4.86277485, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 21s", "remaining_time": "7h 11m 34s", "loss_scale": 1.0, "consumed_samples": 1895424, "global_step/max_steps": "7404/12700"}
{"lm loss": 2.04450321, "grad_norm": 0.34106711, "learning_rate": 4.224e-05, "elapsed_time_per_iteration": 4.94425774, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 26s", "remaining_time": "7h 11m 29s", "loss_scale": 1.0, "consumed_samples": 1895680, "global_step/max_steps": "7405/12700"}
{"lm loss": 2.10424066, "grad_norm": 0.33810547, "learning_rate": 4.223e-05, "elapsed_time_per_iteration": 4.93634677, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 31s", "remaining_time": "7h 11m 24s", "loss_scale": 1.0, "consumed_samples": 1895936, "global_step/max_steps": "7406/12700"}
{"lm loss": 2.08147788, "grad_norm": 0.36785504, "learning_rate": 4.222e-05, "elapsed_time_per_iteration": 4.85634971, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 36s", "remaining_time": "7h 11m 19s", "loss_scale": 1.0, "consumed_samples": 1896192, "global_step/max_steps": "7407/12700"}
{"lm loss": 2.10281467, "grad_norm": 0.3638922, "learning_rate": 4.221e-05, "elapsed_time_per_iteration": 4.83257341, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 41s", "remaining_time": "7h 11m 14s", "loss_scale": 1.0, "consumed_samples": 1896448, "global_step/max_steps": "7408/12700"}
{"lm loss": 2.08618021, "grad_norm": 0.34922114, "learning_rate": 4.219e-05, "elapsed_time_per_iteration": 4.83245111, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 45s", "remaining_time": "7h 11m 10s", "loss_scale": 1.0, "consumed_samples": 1896704, "global_step/max_steps": "7409/12700"}
{"lm loss": 2.09029913, "grad_norm": 0.39107573, "learning_rate": 4.218e-05, "elapsed_time_per_iteration": 5.07589126, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 50s", "remaining_time": "7h 11m 5s", "loss_scale": 1.0, "consumed_samples": 1896960, "global_step/max_steps": "7410/12700"}
{"lm loss": 2.07176614, "grad_norm": 0.36450738, "learning_rate": 4.217e-05, "elapsed_time_per_iteration": 5.18275928, "memory(GiB)": 28.98, "elapsed_time": "10h 3m 56s", "remaining_time": "7h 11m 0s", "loss_scale": 1.0, "consumed_samples": 1897216, "global_step/max_steps": "7411/12700"}
{"lm loss": 2.08418584, "grad_norm": 0.39792275, "learning_rate": 4.216e-05, "elapsed_time_per_iteration": 4.92782521, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 1s", "remaining_time": "7h 10m 55s", "loss_scale": 1.0, "consumed_samples": 1897472, "global_step/max_steps": "7412/12700"}
{"lm loss": 2.07885408, "grad_norm": 0.38483301, "learning_rate": 4.214e-05, "elapsed_time_per_iteration": 4.92412019, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 5s", "remaining_time": "7h 10m 50s", "loss_scale": 1.0, "consumed_samples": 1897728, "global_step/max_steps": "7413/12700"}
{"lm loss": 2.09790993, "grad_norm": 0.44287094, "learning_rate": 4.213e-05, "elapsed_time_per_iteration": 5.0379715, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 11s", "remaining_time": "7h 10m 46s", "loss_scale": 1.0, "consumed_samples": 1897984, "global_step/max_steps": "7414/12700"}
{"lm loss": 2.08653903, "grad_norm": 0.34920052, "learning_rate": 4.212e-05, "elapsed_time_per_iteration": 4.97966814, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 16s", "remaining_time": "7h 10m 41s", "loss_scale": 1.0, "consumed_samples": 1898240, "global_step/max_steps": "7415/12700"}
{"lm loss": 2.07510877, "grad_norm": 0.39724112, "learning_rate": 4.211e-05, "elapsed_time_per_iteration": 4.8795588, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 20s", "remaining_time": "7h 10m 36s", "loss_scale": 1.0, "consumed_samples": 1898496, "global_step/max_steps": "7416/12700"}
{"lm loss": 2.05016589, "grad_norm": 0.37773922, "learning_rate": 4.209e-05, "elapsed_time_per_iteration": 4.91245723, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 25s", "remaining_time": "7h 10m 31s", "loss_scale": 1.0, "consumed_samples": 1898752, "global_step/max_steps": "7417/12700"}
{"lm loss": 2.08680058, "grad_norm": 0.38941693, "learning_rate": 4.208e-05, "elapsed_time_per_iteration": 4.8922286, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 30s", "remaining_time": "7h 10m 26s", "loss_scale": 1.0, "consumed_samples": 1899008, "global_step/max_steps": "7418/12700"}
{"lm loss": 2.0926609, "grad_norm": 0.38580033, "learning_rate": 4.207e-05, "elapsed_time_per_iteration": 4.90508246, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 35s", "remaining_time": "7h 10m 21s", "loss_scale": 1.0, "consumed_samples": 1899264, "global_step/max_steps": "7419/12700"}
{"lm loss": 2.09276605, "grad_norm": 0.36640969, "learning_rate": 4.206e-05, "elapsed_time_per_iteration": 4.86920524, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 40s", "remaining_time": "7h 10m 16s", "loss_scale": 1.0, "consumed_samples": 1899520, "global_step/max_steps": "7420/12700"}
{"lm loss": 2.10517526, "grad_norm": 0.41163874, "learning_rate": 4.205e-05, "elapsed_time_per_iteration": 4.92512274, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 45s", "remaining_time": "7h 10m 11s", "loss_scale": 1.0, "consumed_samples": 1899776, "global_step/max_steps": "7421/12700"}
{"lm loss": 2.08695245, "grad_norm": 0.34609449, "learning_rate": 4.203e-05, "elapsed_time_per_iteration": 4.90330744, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 50s", "remaining_time": "7h 10m 7s", "loss_scale": 1.0, "consumed_samples": 1900032, "global_step/max_steps": "7422/12700"}
{"lm loss": 2.12809467, "grad_norm": 0.36390498, "learning_rate": 4.202e-05, "elapsed_time_per_iteration": 4.90287662, "memory(GiB)": 28.98, "elapsed_time": "10h 4m 55s", "remaining_time": "7h 10m 2s", "loss_scale": 1.0, "consumed_samples": 1900288, "global_step/max_steps": "7423/12700"}
{"lm loss": 2.09464574, "grad_norm": 0.4006632, "learning_rate": 4.201e-05, "elapsed_time_per_iteration": 4.83505797, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 0s", "remaining_time": "7h 9m 57s", "loss_scale": 1.0, "consumed_samples": 1900544, "global_step/max_steps": "7424/12700"}
{"lm loss": 2.06107855, "grad_norm": 0.35337564, "learning_rate": 4.2e-05, "elapsed_time_per_iteration": 4.85557103, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 4s", "remaining_time": "7h 9m 52s", "loss_scale": 1.0, "consumed_samples": 1900800, "global_step/max_steps": "7425/12700"}
{"lm loss": 2.079597, "grad_norm": 0.37709543, "learning_rate": 4.198e-05, "elapsed_time_per_iteration": 4.79240656, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 9s", "remaining_time": "7h 9m 47s", "loss_scale": 1.0, "consumed_samples": 1901056, "global_step/max_steps": "7426/12700"}
{"lm loss": 2.09758615, "grad_norm": 0.35367942, "learning_rate": 4.197e-05, "elapsed_time_per_iteration": 4.8233273, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 14s", "remaining_time": "7h 9m 42s", "loss_scale": 1.0, "consumed_samples": 1901312, "global_step/max_steps": "7427/12700"}
{"lm loss": 2.06405449, "grad_norm": 0.37139279, "learning_rate": 4.196e-05, "elapsed_time_per_iteration": 4.83134246, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 19s", "remaining_time": "7h 9m 37s", "loss_scale": 1.0, "consumed_samples": 1901568, "global_step/max_steps": "7428/12700"}
{"lm loss": 2.08282018, "grad_norm": 0.39870781, "learning_rate": 4.195e-05, "elapsed_time_per_iteration": 4.97178459, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 24s", "remaining_time": "7h 9m 32s", "loss_scale": 1.0, "consumed_samples": 1901824, "global_step/max_steps": "7429/12700"}
{"lm loss": 2.04393744, "grad_norm": 0.34105551, "learning_rate": 4.193e-05, "elapsed_time_per_iteration": 5.14206553, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 29s", "remaining_time": "7h 9m 27s", "loss_scale": 1.0, "consumed_samples": 1902080, "global_step/max_steps": "7430/12700"}
{"lm loss": 2.07476258, "grad_norm": 0.37773171, "learning_rate": 4.192e-05, "elapsed_time_per_iteration": 5.08490801, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 34s", "remaining_time": "7h 9m 23s", "loss_scale": 1.0, "consumed_samples": 1902336, "global_step/max_steps": "7431/12700"}
{"lm loss": 2.07102323, "grad_norm": 0.38430142, "learning_rate": 4.191e-05, "elapsed_time_per_iteration": 5.15176368, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 39s", "remaining_time": "7h 9m 18s", "loss_scale": 1.0, "consumed_samples": 1902592, "global_step/max_steps": "7432/12700"}
{"lm loss": 2.08941746, "grad_norm": 0.33207166, "learning_rate": 4.19e-05, "elapsed_time_per_iteration": 4.84335303, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 44s", "remaining_time": "7h 9m 13s", "loss_scale": 1.0, "consumed_samples": 1902848, "global_step/max_steps": "7433/12700"}
{"lm loss": 2.07340145, "grad_norm": 0.39685255, "learning_rate": 4.188e-05, "elapsed_time_per_iteration": 4.83694863, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 49s", "remaining_time": "7h 9m 8s", "loss_scale": 1.0, "consumed_samples": 1903104, "global_step/max_steps": "7434/12700"}
{"lm loss": 2.07672334, "grad_norm": 0.37997782, "learning_rate": 4.187e-05, "elapsed_time_per_iteration": 4.88928533, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 54s", "remaining_time": "7h 9m 3s", "loss_scale": 1.0, "consumed_samples": 1903360, "global_step/max_steps": "7435/12700"}
{"lm loss": 2.07041669, "grad_norm": 0.33846691, "learning_rate": 4.186e-05, "elapsed_time_per_iteration": 5.00315452, "memory(GiB)": 28.98, "elapsed_time": "10h 5m 59s", "remaining_time": "7h 8m 58s", "loss_scale": 1.0, "consumed_samples": 1903616, "global_step/max_steps": "7436/12700"}
{"lm loss": 2.10738993, "grad_norm": 0.35256201, "learning_rate": 4.185e-05, "elapsed_time_per_iteration": 4.87357569, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 4s", "remaining_time": "7h 8m 54s", "loss_scale": 1.0, "consumed_samples": 1903872, "global_step/max_steps": "7437/12700"}
{"lm loss": 2.05504823, "grad_norm": 0.33642736, "learning_rate": 4.183e-05, "elapsed_time_per_iteration": 5.05053115, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 9s", "remaining_time": "7h 8m 49s", "loss_scale": 1.0, "consumed_samples": 1904128, "global_step/max_steps": "7438/12700"}
{"lm loss": 2.0606811, "grad_norm": 0.35199264, "learning_rate": 4.182e-05, "elapsed_time_per_iteration": 5.05046988, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 14s", "remaining_time": "7h 8m 44s", "loss_scale": 1.0, "consumed_samples": 1904384, "global_step/max_steps": "7439/12700"}
{"lm loss": 2.1092546, "grad_norm": 0.36097336, "learning_rate": 4.181e-05, "elapsed_time_per_iteration": 5.01949906, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 19s", "remaining_time": "7h 8m 39s", "loss_scale": 1.0, "consumed_samples": 1904640, "global_step/max_steps": "7440/12700"}
{"lm loss": 2.09037447, "grad_norm": 0.33416104, "learning_rate": 4.18e-05, "elapsed_time_per_iteration": 4.84095669, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 24s", "remaining_time": "7h 8m 34s", "loss_scale": 1.0, "consumed_samples": 1904896, "global_step/max_steps": "7441/12700"}
{"lm loss": 2.10515189, "grad_norm": 0.34236032, "learning_rate": 4.179e-05, "elapsed_time_per_iteration": 4.82593393, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 28s", "remaining_time": "7h 8m 29s", "loss_scale": 1.0, "consumed_samples": 1905152, "global_step/max_steps": "7442/12700"}
{"lm loss": 2.08049488, "grad_norm": 0.36694983, "learning_rate": 4.177e-05, "elapsed_time_per_iteration": 4.8484261, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 33s", "remaining_time": "7h 8m 24s", "loss_scale": 1.0, "consumed_samples": 1905408, "global_step/max_steps": "7443/12700"}
{"lm loss": 2.07306647, "grad_norm": 0.34505576, "learning_rate": 4.176e-05, "elapsed_time_per_iteration": 4.88158512, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 38s", "remaining_time": "7h 8m 20s", "loss_scale": 1.0, "consumed_samples": 1905664, "global_step/max_steps": "7444/12700"}
{"lm loss": 2.07626319, "grad_norm": 0.37026834, "learning_rate": 4.175e-05, "elapsed_time_per_iteration": 4.85753775, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 43s", "remaining_time": "7h 8m 15s", "loss_scale": 1.0, "consumed_samples": 1905920, "global_step/max_steps": "7445/12700"}
{"lm loss": 2.13363314, "grad_norm": 0.35121769, "learning_rate": 4.174e-05, "elapsed_time_per_iteration": 4.91157055, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 48s", "remaining_time": "7h 8m 10s", "loss_scale": 1.0, "consumed_samples": 1906176, "global_step/max_steps": "7446/12700"}
{"lm loss": 2.11670637, "grad_norm": 0.3823207, "learning_rate": 4.172e-05, "elapsed_time_per_iteration": 4.88341665, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 53s", "remaining_time": "7h 8m 5s", "loss_scale": 1.0, "consumed_samples": 1906432, "global_step/max_steps": "7447/12700"}
{"lm loss": 2.07993555, "grad_norm": 0.36653832, "learning_rate": 4.171e-05, "elapsed_time_per_iteration": 5.0161407, "memory(GiB)": 28.98, "elapsed_time": "10h 6m 58s", "remaining_time": "7h 8m 0s", "loss_scale": 1.0, "consumed_samples": 1906688, "global_step/max_steps": "7448/12700"}
{"lm loss": 2.04592013, "grad_norm": 0.3536652, "learning_rate": 4.17e-05, "elapsed_time_per_iteration": 5.0299921, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 3s", "remaining_time": "7h 7m 55s", "loss_scale": 1.0, "consumed_samples": 1906944, "global_step/max_steps": "7449/12700"}
{"lm loss": 2.07745361, "grad_norm": 0.37659678, "learning_rate": 4.169e-05, "elapsed_time_per_iteration": 4.85161042, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 8s", "remaining_time": "7h 7m 50s", "loss_scale": 1.0, "consumed_samples": 1907200, "global_step/max_steps": "7450/12700"}
{"lm loss": 2.08060884, "grad_norm": 0.35958073, "learning_rate": 4.167e-05, "elapsed_time_per_iteration": 4.97113109, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 13s", "remaining_time": "7h 7m 46s", "loss_scale": 1.0, "consumed_samples": 1907456, "global_step/max_steps": "7451/12700"}
{"lm loss": 2.08386803, "grad_norm": 0.37570205, "learning_rate": 4.166e-05, "elapsed_time_per_iteration": 4.88048792, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 18s", "remaining_time": "7h 7m 41s", "loss_scale": 1.0, "consumed_samples": 1907712, "global_step/max_steps": "7452/12700"}
{"lm loss": 2.07210803, "grad_norm": 0.34968862, "learning_rate": 4.165e-05, "elapsed_time_per_iteration": 4.85953522, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 22s", "remaining_time": "7h 7m 36s", "loss_scale": 1.0, "consumed_samples": 1907968, "global_step/max_steps": "7453/12700"}
{"lm loss": 2.0783782, "grad_norm": 0.36386314, "learning_rate": 4.164e-05, "elapsed_time_per_iteration": 4.95388603, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 27s", "remaining_time": "7h 7m 31s", "loss_scale": 1.0, "consumed_samples": 1908224, "global_step/max_steps": "7454/12700"}
{"lm loss": 2.05470037, "grad_norm": 0.39650509, "learning_rate": 4.162e-05, "elapsed_time_per_iteration": 4.94718695, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 32s", "remaining_time": "7h 7m 26s", "loss_scale": 1.0, "consumed_samples": 1908480, "global_step/max_steps": "7455/12700"}
{"lm loss": 2.0869894, "grad_norm": 0.35644242, "learning_rate": 4.161e-05, "elapsed_time_per_iteration": 5.21055722, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 38s", "remaining_time": "7h 7m 21s", "loss_scale": 1.0, "consumed_samples": 1908736, "global_step/max_steps": "7456/12700"}
{"lm loss": 2.08430648, "grad_norm": 0.37603691, "learning_rate": 4.16e-05, "elapsed_time_per_iteration": 5.06289053, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 43s", "remaining_time": "7h 7m 17s", "loss_scale": 1.0, "consumed_samples": 1908992, "global_step/max_steps": "7457/12700"}
{"lm loss": 2.09526467, "grad_norm": 0.35530838, "learning_rate": 4.159e-05, "elapsed_time_per_iteration": 4.99545836, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 48s", "remaining_time": "7h 7m 12s", "loss_scale": 1.0, "consumed_samples": 1909248, "global_step/max_steps": "7458/12700"}
{"lm loss": 2.07629681, "grad_norm": 0.35783651, "learning_rate": 4.157e-05, "elapsed_time_per_iteration": 4.96573591, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 53s", "remaining_time": "7h 7m 7s", "loss_scale": 1.0, "consumed_samples": 1909504, "global_step/max_steps": "7459/12700"}
{"lm loss": 2.0953846, "grad_norm": 0.38299772, "learning_rate": 4.156e-05, "elapsed_time_per_iteration": 4.99846148, "memory(GiB)": 28.98, "elapsed_time": "10h 7m 58s", "remaining_time": "7h 7m 2s", "loss_scale": 1.0, "consumed_samples": 1909760, "global_step/max_steps": "7460/12700"}
{"lm loss": 2.07789826, "grad_norm": 0.39390373, "learning_rate": 4.155e-05, "elapsed_time_per_iteration": 4.85331464, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 2s", "remaining_time": "7h 6m 57s", "loss_scale": 1.0, "consumed_samples": 1910016, "global_step/max_steps": "7461/12700"}
{"lm loss": 2.09043097, "grad_norm": 0.36836284, "learning_rate": 4.154e-05, "elapsed_time_per_iteration": 4.86105132, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 7s", "remaining_time": "7h 6m 52s", "loss_scale": 1.0, "consumed_samples": 1910272, "global_step/max_steps": "7462/12700"}
{"lm loss": 2.11271715, "grad_norm": 0.40600759, "learning_rate": 4.153e-05, "elapsed_time_per_iteration": 4.78589177, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 12s", "remaining_time": "7h 6m 47s", "loss_scale": 1.0, "consumed_samples": 1910528, "global_step/max_steps": "7463/12700"}
{"lm loss": 2.11572766, "grad_norm": 0.39918172, "learning_rate": 4.151e-05, "elapsed_time_per_iteration": 4.9332366, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 17s", "remaining_time": "7h 6m 43s", "loss_scale": 1.0, "consumed_samples": 1910784, "global_step/max_steps": "7464/12700"}
{"lm loss": 2.08407879, "grad_norm": 0.34957439, "learning_rate": 4.15e-05, "elapsed_time_per_iteration": 5.13372445, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 22s", "remaining_time": "7h 6m 38s", "loss_scale": 1.0, "consumed_samples": 1911040, "global_step/max_steps": "7465/12700"}
{"lm loss": 2.06790185, "grad_norm": 0.3879998, "learning_rate": 4.149e-05, "elapsed_time_per_iteration": 5.08638597, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 27s", "remaining_time": "7h 6m 33s", "loss_scale": 1.0, "consumed_samples": 1911296, "global_step/max_steps": "7466/12700"}
{"lm loss": 2.06432843, "grad_norm": 0.41794026, "learning_rate": 4.148e-05, "elapsed_time_per_iteration": 4.91723466, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 32s", "remaining_time": "7h 6m 28s", "loss_scale": 1.0, "consumed_samples": 1911552, "global_step/max_steps": "7467/12700"}
{"lm loss": 2.07722735, "grad_norm": 0.34380379, "learning_rate": 4.146e-05, "elapsed_time_per_iteration": 4.9279232, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 37s", "remaining_time": "7h 6m 23s", "loss_scale": 1.0, "consumed_samples": 1911808, "global_step/max_steps": "7468/12700"}
{"lm loss": 2.10356212, "grad_norm": 0.35277221, "learning_rate": 4.145e-05, "elapsed_time_per_iteration": 4.82627439, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 42s", "remaining_time": "7h 6m 18s", "loss_scale": 1.0, "consumed_samples": 1912064, "global_step/max_steps": "7469/12700"}
{"lm loss": 2.05117106, "grad_norm": 0.37951601, "learning_rate": 4.144e-05, "elapsed_time_per_iteration": 4.94669962, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 47s", "remaining_time": "7h 6m 14s", "loss_scale": 1.0, "consumed_samples": 1912320, "global_step/max_steps": "7470/12700"}
{"lm loss": 2.07522178, "grad_norm": 0.39900076, "learning_rate": 4.143e-05, "elapsed_time_per_iteration": 4.82569504, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 52s", "remaining_time": "7h 6m 9s", "loss_scale": 1.0, "consumed_samples": 1912576, "global_step/max_steps": "7471/12700"}
{"lm loss": 2.09693766, "grad_norm": 0.34823713, "learning_rate": 4.141e-05, "elapsed_time_per_iteration": 4.85265875, "memory(GiB)": 28.98, "elapsed_time": "10h 8m 56s", "remaining_time": "7h 6m 4s", "loss_scale": 1.0, "consumed_samples": 1912832, "global_step/max_steps": "7472/12700"}
{"lm loss": 2.07309008, "grad_norm": 0.35696533, "learning_rate": 4.14e-05, "elapsed_time_per_iteration": 5.11188054, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 2s", "remaining_time": "7h 5m 59s", "loss_scale": 1.0, "consumed_samples": 1913088, "global_step/max_steps": "7473/12700"}
{"lm loss": 2.09831023, "grad_norm": 0.35963801, "learning_rate": 4.139e-05, "elapsed_time_per_iteration": 4.98306799, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 7s", "remaining_time": "7h 5m 54s", "loss_scale": 1.0, "consumed_samples": 1913344, "global_step/max_steps": "7474/12700"}
{"lm loss": 2.0729773, "grad_norm": 0.3930842, "learning_rate": 4.138e-05, "elapsed_time_per_iteration": 4.97821736, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 12s", "remaining_time": "7h 5m 49s", "loss_scale": 1.0, "consumed_samples": 1913600, "global_step/max_steps": "7475/12700"}
{"lm loss": 2.08569622, "grad_norm": 0.37616614, "learning_rate": 4.136e-05, "elapsed_time_per_iteration": 4.93177056, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 17s", "remaining_time": "7h 5m 44s", "loss_scale": 1.0, "consumed_samples": 1913856, "global_step/max_steps": "7476/12700"}
{"lm loss": 2.09343863, "grad_norm": 0.33166426, "learning_rate": 4.135e-05, "elapsed_time_per_iteration": 5.0126729, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 22s", "remaining_time": "7h 5m 40s", "loss_scale": 1.0, "consumed_samples": 1914112, "global_step/max_steps": "7477/12700"}
{"lm loss": 2.09072828, "grad_norm": 0.39249012, "learning_rate": 4.134e-05, "elapsed_time_per_iteration": 4.89739132, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 26s", "remaining_time": "7h 5m 35s", "loss_scale": 1.0, "consumed_samples": 1914368, "global_step/max_steps": "7478/12700"}
{"lm loss": 2.04898858, "grad_norm": 0.37000254, "learning_rate": 4.133e-05, "elapsed_time_per_iteration": 4.85156631, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 31s", "remaining_time": "7h 5m 30s", "loss_scale": 1.0, "consumed_samples": 1914624, "global_step/max_steps": "7479/12700"}
{"lm loss": 2.07899404, "grad_norm": 0.39581096, "learning_rate": 4.132e-05, "elapsed_time_per_iteration": 4.79512501, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 36s", "remaining_time": "7h 5m 25s", "loss_scale": 1.0, "consumed_samples": 1914880, "global_step/max_steps": "7480/12700"}
{"lm loss": 2.09911275, "grad_norm": 0.34062248, "learning_rate": 4.13e-05, "elapsed_time_per_iteration": 4.83391857, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 41s", "remaining_time": "7h 5m 20s", "loss_scale": 1.0, "consumed_samples": 1915136, "global_step/max_steps": "7481/12700"}
{"lm loss": 2.04869771, "grad_norm": 0.3695572, "learning_rate": 4.129e-05, "elapsed_time_per_iteration": 4.95128942, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 46s", "remaining_time": "7h 5m 15s", "loss_scale": 1.0, "consumed_samples": 1915392, "global_step/max_steps": "7482/12700"}
{"lm loss": 2.06095266, "grad_norm": 0.36983234, "learning_rate": 4.128e-05, "elapsed_time_per_iteration": 4.94038153, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 51s", "remaining_time": "7h 5m 10s", "loss_scale": 1.0, "consumed_samples": 1915648, "global_step/max_steps": "7483/12700"}
{"lm loss": 2.08578563, "grad_norm": 0.383306, "learning_rate": 4.127e-05, "elapsed_time_per_iteration": 4.90304112, "memory(GiB)": 28.98, "elapsed_time": "10h 9m 56s", "remaining_time": "7h 5m 5s", "loss_scale": 1.0, "consumed_samples": 1915904, "global_step/max_steps": "7484/12700"}
{"lm loss": 2.04756951, "grad_norm": 0.33777386, "learning_rate": 4.125e-05, "elapsed_time_per_iteration": 4.99741936, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 1s", "remaining_time": "7h 5m 1s", "loss_scale": 1.0, "consumed_samples": 1916160, "global_step/max_steps": "7485/12700"}
{"lm loss": 2.06736875, "grad_norm": 0.41508758, "learning_rate": 4.124e-05, "elapsed_time_per_iteration": 5.01569319, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 6s", "remaining_time": "7h 4m 56s", "loss_scale": 1.0, "consumed_samples": 1916416, "global_step/max_steps": "7486/12700"}
{"lm loss": 2.05642128, "grad_norm": 0.3564494, "learning_rate": 4.123e-05, "elapsed_time_per_iteration": 4.84617972, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 11s", "remaining_time": "7h 4m 51s", "loss_scale": 1.0, "consumed_samples": 1916672, "global_step/max_steps": "7487/12700"}
{"lm loss": 2.09266996, "grad_norm": 0.38770095, "learning_rate": 4.122e-05, "elapsed_time_per_iteration": 4.86422515, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 15s", "remaining_time": "7h 4m 46s", "loss_scale": 1.0, "consumed_samples": 1916928, "global_step/max_steps": "7488/12700"}
{"lm loss": 2.06797814, "grad_norm": 0.36576805, "learning_rate": 4.12e-05, "elapsed_time_per_iteration": 4.91979885, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 20s", "remaining_time": "7h 4m 41s", "loss_scale": 1.0, "consumed_samples": 1917184, "global_step/max_steps": "7489/12700"}
{"lm loss": 2.05461359, "grad_norm": 0.34721148, "learning_rate": 4.119e-05, "elapsed_time_per_iteration": 5.00435376, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 25s", "remaining_time": "7h 4m 36s", "loss_scale": 1.0, "consumed_samples": 1917440, "global_step/max_steps": "7490/12700"}
{"lm loss": 2.06325746, "grad_norm": 0.38666195, "learning_rate": 4.118e-05, "elapsed_time_per_iteration": 5.01020908, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 30s", "remaining_time": "7h 4m 31s", "loss_scale": 1.0, "consumed_samples": 1917696, "global_step/max_steps": "7491/12700"}
{"lm loss": 2.08420944, "grad_norm": 0.35401535, "learning_rate": 4.117e-05, "elapsed_time_per_iteration": 4.92541885, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 35s", "remaining_time": "7h 4m 27s", "loss_scale": 1.0, "consumed_samples": 1917952, "global_step/max_steps": "7492/12700"}
{"lm loss": 2.10832143, "grad_norm": 0.38518789, "learning_rate": 4.115e-05, "elapsed_time_per_iteration": 4.78465986, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 40s", "remaining_time": "7h 4m 22s", "loss_scale": 1.0, "consumed_samples": 1918208, "global_step/max_steps": "7493/12700"}
{"lm loss": 2.06996799, "grad_norm": 0.34783182, "learning_rate": 4.114e-05, "elapsed_time_per_iteration": 4.94845819, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 45s", "remaining_time": "7h 4m 17s", "loss_scale": 1.0, "consumed_samples": 1918464, "global_step/max_steps": "7494/12700"}
{"lm loss": 2.11434364, "grad_norm": 0.36298931, "learning_rate": 4.113e-05, "elapsed_time_per_iteration": 4.87108207, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 50s", "remaining_time": "7h 4m 12s", "loss_scale": 1.0, "consumed_samples": 1918720, "global_step/max_steps": "7495/12700"}
{"lm loss": 2.08068657, "grad_norm": 0.37315759, "learning_rate": 4.112e-05, "elapsed_time_per_iteration": 4.91325641, "memory(GiB)": 28.98, "elapsed_time": "10h 10m 55s", "remaining_time": "7h 4m 7s", "loss_scale": 1.0, "consumed_samples": 1918976, "global_step/max_steps": "7496/12700"}
{"lm loss": 2.0524013, "grad_norm": 0.3928321, "learning_rate": 4.111e-05, "elapsed_time_per_iteration": 4.8422904, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 0s", "remaining_time": "7h 4m 2s", "loss_scale": 1.0, "consumed_samples": 1919232, "global_step/max_steps": "7497/12700"}
{"lm loss": 2.07486224, "grad_norm": 0.35480803, "learning_rate": 4.109e-05, "elapsed_time_per_iteration": 4.98746967, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 5s", "remaining_time": "7h 3m 57s", "loss_scale": 1.0, "consumed_samples": 1919488, "global_step/max_steps": "7498/12700"}
{"lm loss": 2.13098836, "grad_norm": 0.38892379, "learning_rate": 4.108e-05, "elapsed_time_per_iteration": 5.04213834, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 10s", "remaining_time": "7h 3m 52s", "loss_scale": 1.0, "consumed_samples": 1919744, "global_step/max_steps": "7499/12700"}
{"lm loss": 2.10311222, "grad_norm": 0.38257977, "learning_rate": 4.107e-05, "elapsed_time_per_iteration": 5.0747292, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 15s", "remaining_time": "7h 3m 48s", "loss_scale": 1.0, "consumed_samples": 1920000, "global_step/max_steps": "7500/12700"}
{"lm loss": 2.06993389, "grad_norm": 0.35930151, "learning_rate": 4.106e-05, "elapsed_time_per_iteration": 4.91336203, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 20s", "remaining_time": "7h 3m 43s", "loss_scale": 1.0, "consumed_samples": 1920256, "global_step/max_steps": "7501/12700"}
{"lm loss": 2.08629298, "grad_norm": 0.36276987, "learning_rate": 4.104e-05, "elapsed_time_per_iteration": 4.96808648, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 25s", "remaining_time": "7h 3m 38s", "loss_scale": 1.0, "consumed_samples": 1920512, "global_step/max_steps": "7502/12700"}
{"lm loss": 2.09970999, "grad_norm": 0.38431117, "learning_rate": 4.103e-05, "elapsed_time_per_iteration": 4.94333839, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 30s", "remaining_time": "7h 3m 33s", "loss_scale": 1.0, "consumed_samples": 1920768, "global_step/max_steps": "7503/12700"}
{"lm loss": 2.06315804, "grad_norm": 0.40099025, "learning_rate": 4.102e-05, "elapsed_time_per_iteration": 4.89702606, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 34s", "remaining_time": "7h 3m 28s", "loss_scale": 1.0, "consumed_samples": 1921024, "global_step/max_steps": "7504/12700"}
{"lm loss": 2.08389235, "grad_norm": 0.37038726, "learning_rate": 4.101e-05, "elapsed_time_per_iteration": 4.94726229, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 39s", "remaining_time": "7h 3m 23s", "loss_scale": 1.0, "consumed_samples": 1921280, "global_step/max_steps": "7505/12700"}
{"lm loss": 2.08014941, "grad_norm": 0.34086451, "learning_rate": 4.099e-05, "elapsed_time_per_iteration": 4.75982833, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 44s", "remaining_time": "7h 3m 18s", "loss_scale": 1.0, "consumed_samples": 1921536, "global_step/max_steps": "7506/12700"}
{"lm loss": 2.05063272, "grad_norm": 0.36701956, "learning_rate": 4.098e-05, "elapsed_time_per_iteration": 4.93995285, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 49s", "remaining_time": "7h 3m 14s", "loss_scale": 1.0, "consumed_samples": 1921792, "global_step/max_steps": "7507/12700"}
{"lm loss": 2.08871126, "grad_norm": 0.35624778, "learning_rate": 4.097e-05, "elapsed_time_per_iteration": 4.86936474, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 54s", "remaining_time": "7h 3m 9s", "loss_scale": 1.0, "consumed_samples": 1922048, "global_step/max_steps": "7508/12700"}
{"lm loss": 2.08449244, "grad_norm": 0.36219209, "learning_rate": 4.096e-05, "elapsed_time_per_iteration": 4.90074086, "memory(GiB)": 28.98, "elapsed_time": "10h 11m 59s", "remaining_time": "7h 3m 4s", "loss_scale": 1.0, "consumed_samples": 1922304, "global_step/max_steps": "7509/12700"}
{"lm loss": 2.0806427, "grad_norm": 0.35167933, "learning_rate": 4.095e-05, "elapsed_time_per_iteration": 4.83330774, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 4s", "remaining_time": "7h 2m 59s", "loss_scale": 1.0, "consumed_samples": 1922560, "global_step/max_steps": "7510/12700"}
{"lm loss": 2.07239008, "grad_norm": 0.34983993, "learning_rate": 4.093e-05, "elapsed_time_per_iteration": 4.95329094, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 9s", "remaining_time": "7h 2m 54s", "loss_scale": 1.0, "consumed_samples": 1922816, "global_step/max_steps": "7511/12700"}
{"lm loss": 2.0699091, "grad_norm": 0.36763257, "learning_rate": 4.092e-05, "elapsed_time_per_iteration": 5.04409313, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 14s", "remaining_time": "7h 2m 49s", "loss_scale": 1.0, "consumed_samples": 1923072, "global_step/max_steps": "7512/12700"}
{"lm loss": 2.08349705, "grad_norm": 0.34584835, "learning_rate": 4.091e-05, "elapsed_time_per_iteration": 5.00025964, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 19s", "remaining_time": "7h 2m 44s", "loss_scale": 1.0, "consumed_samples": 1923328, "global_step/max_steps": "7513/12700"}
{"lm loss": 2.10304594, "grad_norm": 0.37529543, "learning_rate": 4.09e-05, "elapsed_time_per_iteration": 4.93864131, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 24s", "remaining_time": "7h 2m 40s", "loss_scale": 1.0, "consumed_samples": 1923584, "global_step/max_steps": "7514/12700"}
{"lm loss": 2.05304384, "grad_norm": 0.3528007, "learning_rate": 4.088e-05, "elapsed_time_per_iteration": 4.84013987, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 28s", "remaining_time": "7h 2m 35s", "loss_scale": 1.0, "consumed_samples": 1923840, "global_step/max_steps": "7515/12700"}
{"lm loss": 2.07459116, "grad_norm": 0.35976854, "learning_rate": 4.087e-05, "elapsed_time_per_iteration": 4.94589281, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 33s", "remaining_time": "7h 2m 30s", "loss_scale": 1.0, "consumed_samples": 1924096, "global_step/max_steps": "7516/12700"}
{"lm loss": 2.04565406, "grad_norm": 0.35966384, "learning_rate": 4.086e-05, "elapsed_time_per_iteration": 4.97172403, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 38s", "remaining_time": "7h 2m 25s", "loss_scale": 1.0, "consumed_samples": 1924352, "global_step/max_steps": "7517/12700"}
{"lm loss": 2.10199046, "grad_norm": 0.33993801, "learning_rate": 4.085e-05, "elapsed_time_per_iteration": 4.80946016, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 43s", "remaining_time": "7h 2m 20s", "loss_scale": 1.0, "consumed_samples": 1924608, "global_step/max_steps": "7518/12700"}
{"lm loss": 2.0699482, "grad_norm": 0.35729638, "learning_rate": 4.083e-05, "elapsed_time_per_iteration": 4.92042303, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 48s", "remaining_time": "7h 2m 15s", "loss_scale": 1.0, "consumed_samples": 1924864, "global_step/max_steps": "7519/12700"}
{"lm loss": 2.06621861, "grad_norm": 0.35827899, "learning_rate": 4.082e-05, "elapsed_time_per_iteration": 5.02395654, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 53s", "remaining_time": "7h 2m 10s", "loss_scale": 1.0, "consumed_samples": 1925120, "global_step/max_steps": "7520/12700"}
{"lm loss": 2.07170916, "grad_norm": 0.3561784, "learning_rate": 4.081e-05, "elapsed_time_per_iteration": 5.00572586, "memory(GiB)": 28.98, "elapsed_time": "10h 12m 58s", "remaining_time": "7h 2m 5s", "loss_scale": 1.0, "consumed_samples": 1925376, "global_step/max_steps": "7521/12700"}
{"lm loss": 2.10333943, "grad_norm": 0.36005282, "learning_rate": 4.08e-05, "elapsed_time_per_iteration": 4.91538954, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 3s", "remaining_time": "7h 2m 1s", "loss_scale": 1.0, "consumed_samples": 1925632, "global_step/max_steps": "7522/12700"}
{"lm loss": 2.09073782, "grad_norm": 0.35652202, "learning_rate": 4.079e-05, "elapsed_time_per_iteration": 5.13148999, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 8s", "remaining_time": "7h 1m 56s", "loss_scale": 1.0, "consumed_samples": 1925888, "global_step/max_steps": "7523/12700"}
{"lm loss": 2.07331729, "grad_norm": 0.34508687, "learning_rate": 4.077e-05, "elapsed_time_per_iteration": 5.21067452, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 13s", "remaining_time": "7h 1m 51s", "loss_scale": 1.0, "consumed_samples": 1926144, "global_step/max_steps": "7524/12700"}
{"lm loss": 2.06289339, "grad_norm": 0.36484647, "learning_rate": 4.076e-05, "elapsed_time_per_iteration": 4.8501935, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 18s", "remaining_time": "7h 1m 46s", "loss_scale": 1.0, "consumed_samples": 1926400, "global_step/max_steps": "7525/12700"}
{"lm loss": 2.08291411, "grad_norm": 0.35392252, "learning_rate": 4.075e-05, "elapsed_time_per_iteration": 4.80045557, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 23s", "remaining_time": "7h 1m 41s", "loss_scale": 1.0, "consumed_samples": 1926656, "global_step/max_steps": "7526/12700"}
{"lm loss": 2.07548666, "grad_norm": 0.3707104, "learning_rate": 4.074e-05, "elapsed_time_per_iteration": 4.80796766, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 28s", "remaining_time": "7h 1m 36s", "loss_scale": 1.0, "consumed_samples": 1926912, "global_step/max_steps": "7527/12700"}
{"lm loss": 2.09605765, "grad_norm": 0.32607704, "learning_rate": 4.072e-05, "elapsed_time_per_iteration": 4.87434387, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 33s", "remaining_time": "7h 1m 31s", "loss_scale": 1.0, "consumed_samples": 1927168, "global_step/max_steps": "7528/12700"}
{"lm loss": 2.08034635, "grad_norm": 0.35151061, "learning_rate": 4.071e-05, "elapsed_time_per_iteration": 4.93321395, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 38s", "remaining_time": "7h 1m 27s", "loss_scale": 1.0, "consumed_samples": 1927424, "global_step/max_steps": "7529/12700"}
{"lm loss": 2.10527301, "grad_norm": 0.38446945, "learning_rate": 4.07e-05, "elapsed_time_per_iteration": 4.90024018, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 43s", "remaining_time": "7h 1m 22s", "loss_scale": 1.0, "consumed_samples": 1927680, "global_step/max_steps": "7530/12700"}
{"lm loss": 2.09971571, "grad_norm": 0.33625004, "learning_rate": 4.069e-05, "elapsed_time_per_iteration": 4.90548944, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 47s", "remaining_time": "7h 1m 17s", "loss_scale": 1.0, "consumed_samples": 1927936, "global_step/max_steps": "7531/12700"}
{"lm loss": 2.09778953, "grad_norm": 0.38368356, "learning_rate": 4.067e-05, "elapsed_time_per_iteration": 4.98528814, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 52s", "remaining_time": "7h 1m 12s", "loss_scale": 1.0, "consumed_samples": 1928192, "global_step/max_steps": "7532/12700"}
{"lm loss": 2.09683657, "grad_norm": 0.34119979, "learning_rate": 4.066e-05, "elapsed_time_per_iteration": 4.89812255, "memory(GiB)": 28.98, "elapsed_time": "10h 13m 57s", "remaining_time": "7h 1m 7s", "loss_scale": 1.0, "consumed_samples": 1928448, "global_step/max_steps": "7533/12700"}
{"lm loss": 2.05938029, "grad_norm": 0.37113878, "learning_rate": 4.065e-05, "elapsed_time_per_iteration": 5.11905479, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 2s", "remaining_time": "7h 1m 2s", "loss_scale": 1.0, "consumed_samples": 1928704, "global_step/max_steps": "7534/12700"}
{"lm loss": 2.06776643, "grad_norm": 0.35518759, "learning_rate": 4.064e-05, "elapsed_time_per_iteration": 4.91599202, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 7s", "remaining_time": "7h 0m 58s", "loss_scale": 1.0, "consumed_samples": 1928960, "global_step/max_steps": "7535/12700"}
{"lm loss": 2.06648088, "grad_norm": 0.37857282, "learning_rate": 4.063e-05, "elapsed_time_per_iteration": 4.89022851, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 12s", "remaining_time": "7h 0m 53s", "loss_scale": 1.0, "consumed_samples": 1929216, "global_step/max_steps": "7536/12700"}
{"lm loss": 2.10323572, "grad_norm": 0.34435198, "learning_rate": 4.061e-05, "elapsed_time_per_iteration": 4.96313667, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 17s", "remaining_time": "7h 0m 48s", "loss_scale": 1.0, "consumed_samples": 1929472, "global_step/max_steps": "7537/12700"}
{"lm loss": 2.06761885, "grad_norm": 0.35244024, "learning_rate": 4.06e-05, "elapsed_time_per_iteration": 4.87497783, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 22s", "remaining_time": "7h 0m 43s", "loss_scale": 1.0, "consumed_samples": 1929728, "global_step/max_steps": "7538/12700"}
{"lm loss": 2.09550333, "grad_norm": 0.35690421, "learning_rate": 4.059e-05, "elapsed_time_per_iteration": 4.91791058, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 27s", "remaining_time": "7h 0m 38s", "loss_scale": 1.0, "consumed_samples": 1929984, "global_step/max_steps": "7539/12700"}
{"lm loss": 2.04645681, "grad_norm": 0.37697935, "learning_rate": 4.058e-05, "elapsed_time_per_iteration": 4.8981421, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 32s", "remaining_time": "7h 0m 33s", "loss_scale": 1.0, "consumed_samples": 1930240, "global_step/max_steps": "7540/12700"}
{"lm loss": 2.0818944, "grad_norm": 0.34926331, "learning_rate": 4.056e-05, "elapsed_time_per_iteration": 4.92520905, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 37s", "remaining_time": "7h 0m 28s", "loss_scale": 1.0, "consumed_samples": 1930496, "global_step/max_steps": "7541/12700"}
{"lm loss": 2.07461619, "grad_norm": 0.33705485, "learning_rate": 4.055e-05, "elapsed_time_per_iteration": 4.98054504, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 42s", "remaining_time": "7h 0m 23s", "loss_scale": 1.0, "consumed_samples": 1930752, "global_step/max_steps": "7542/12700"}
{"lm loss": 2.10790396, "grad_norm": 0.37264431, "learning_rate": 4.054e-05, "elapsed_time_per_iteration": 4.95980954, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 47s", "remaining_time": "7h 0m 19s", "loss_scale": 1.0, "consumed_samples": 1931008, "global_step/max_steps": "7543/12700"}
{"lm loss": 2.09901428, "grad_norm": 0.34241778, "learning_rate": 4.053e-05, "elapsed_time_per_iteration": 5.03262496, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 52s", "remaining_time": "7h 0m 14s", "loss_scale": 1.0, "consumed_samples": 1931264, "global_step/max_steps": "7544/12700"}
{"lm loss": 2.11115623, "grad_norm": 0.3532348, "learning_rate": 4.051e-05, "elapsed_time_per_iteration": 4.86023211, "memory(GiB)": 28.98, "elapsed_time": "10h 14m 57s", "remaining_time": "7h 0m 9s", "loss_scale": 1.0, "consumed_samples": 1931520, "global_step/max_steps": "7545/12700"}
{"lm loss": 2.11674857, "grad_norm": 0.37228122, "learning_rate": 4.05e-05, "elapsed_time_per_iteration": 4.80196881, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 2s", "remaining_time": "7h 0m 4s", "loss_scale": 1.0, "consumed_samples": 1931776, "global_step/max_steps": "7546/12700"}
{"lm loss": 2.08059835, "grad_norm": 0.34010944, "learning_rate": 4.049e-05, "elapsed_time_per_iteration": 5.04091263, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 7s", "remaining_time": "6h 59m 59s", "loss_scale": 1.0, "consumed_samples": 1932032, "global_step/max_steps": "7547/12700"}
{"lm loss": 2.07875896, "grad_norm": 0.36584315, "learning_rate": 4.048e-05, "elapsed_time_per_iteration": 4.93783975, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 11s", "remaining_time": "6h 59m 54s", "loss_scale": 1.0, "consumed_samples": 1932288, "global_step/max_steps": "7548/12700"}
{"lm loss": 2.04988098, "grad_norm": 0.35089314, "learning_rate": 4.047e-05, "elapsed_time_per_iteration": 4.91119242, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 16s", "remaining_time": "6h 59m 49s", "loss_scale": 1.0, "consumed_samples": 1932544, "global_step/max_steps": "7549/12700"}
{"lm loss": 2.0669651, "grad_norm": 0.3738617, "learning_rate": 4.045e-05, "elapsed_time_per_iteration": 4.84449768, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 21s", "remaining_time": "6h 59m 45s", "loss_scale": 1.0, "consumed_samples": 1932800, "global_step/max_steps": "7550/12700"}
{"lm loss": 2.10775018, "grad_norm": 0.38519871, "learning_rate": 4.044e-05, "elapsed_time_per_iteration": 5.07228112, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 26s", "remaining_time": "6h 59m 40s", "loss_scale": 1.0, "consumed_samples": 1933056, "global_step/max_steps": "7551/12700"}
{"lm loss": 2.04430199, "grad_norm": 0.3520214, "learning_rate": 4.043e-05, "elapsed_time_per_iteration": 5.00426507, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 31s", "remaining_time": "6h 59m 35s", "loss_scale": 1.0, "consumed_samples": 1933312, "global_step/max_steps": "7552/12700"}
{"lm loss": 2.06010389, "grad_norm": 0.39190653, "learning_rate": 4.042e-05, "elapsed_time_per_iteration": 5.09952903, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 36s", "remaining_time": "6h 59m 30s", "loss_scale": 1.0, "consumed_samples": 1933568, "global_step/max_steps": "7553/12700"}
{"lm loss": 2.10592723, "grad_norm": 0.35809922, "learning_rate": 4.04e-05, "elapsed_time_per_iteration": 4.95931029, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 41s", "remaining_time": "6h 59m 25s", "loss_scale": 1.0, "consumed_samples": 1933824, "global_step/max_steps": "7554/12700"}
{"lm loss": 2.07098913, "grad_norm": 0.39307752, "learning_rate": 4.039e-05, "elapsed_time_per_iteration": 4.93861961, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 46s", "remaining_time": "6h 59m 21s", "loss_scale": 1.0, "consumed_samples": 1934080, "global_step/max_steps": "7555/12700"}
{"lm loss": 2.05886316, "grad_norm": 0.33020353, "learning_rate": 4.038e-05, "elapsed_time_per_iteration": 5.07885098, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 51s", "remaining_time": "6h 59m 16s", "loss_scale": 1.0, "consumed_samples": 1934336, "global_step/max_steps": "7556/12700"}
{"lm loss": 2.05204678, "grad_norm": 0.37658069, "learning_rate": 4.037e-05, "elapsed_time_per_iteration": 5.04419565, "memory(GiB)": 28.98, "elapsed_time": "10h 15m 56s", "remaining_time": "6h 59m 11s", "loss_scale": 1.0, "consumed_samples": 1934592, "global_step/max_steps": "7557/12700"}
{"lm loss": 2.04261923, "grad_norm": 0.35386351, "learning_rate": 4.035e-05, "elapsed_time_per_iteration": 5.0256815, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 1s", "remaining_time": "6h 59m 6s", "loss_scale": 1.0, "consumed_samples": 1934848, "global_step/max_steps": "7558/12700"}
{"lm loss": 2.03684306, "grad_norm": 0.38068348, "learning_rate": 4.034e-05, "elapsed_time_per_iteration": 4.88909388, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 6s", "remaining_time": "6h 59m 1s", "loss_scale": 1.0, "consumed_samples": 1935104, "global_step/max_steps": "7559/12700"}
{"lm loss": 2.08568048, "grad_norm": 0.33944735, "learning_rate": 4.033e-05, "elapsed_time_per_iteration": 4.80204821, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 11s", "remaining_time": "6h 58m 56s", "loss_scale": 1.0, "consumed_samples": 1935360, "global_step/max_steps": "7560/12700"}
{"lm loss": 2.07490873, "grad_norm": 0.38860971, "learning_rate": 4.032e-05, "elapsed_time_per_iteration": 4.98054552, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 16s", "remaining_time": "6h 58m 51s", "loss_scale": 1.0, "consumed_samples": 1935616, "global_step/max_steps": "7561/12700"}
{"lm loss": 2.10202074, "grad_norm": 0.34775773, "learning_rate": 4.031e-05, "elapsed_time_per_iteration": 4.93021488, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 21s", "remaining_time": "6h 58m 47s", "loss_scale": 1.0, "consumed_samples": 1935872, "global_step/max_steps": "7562/12700"}
{"lm loss": 2.09534669, "grad_norm": 0.36444333, "learning_rate": 4.029e-05, "elapsed_time_per_iteration": 4.95563269, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 26s", "remaining_time": "6h 58m 42s", "loss_scale": 1.0, "consumed_samples": 1936128, "global_step/max_steps": "7563/12700"}
{"lm loss": 2.080827, "grad_norm": 0.36056921, "learning_rate": 4.028e-05, "elapsed_time_per_iteration": 4.87155557, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 31s", "remaining_time": "6h 58m 37s", "loss_scale": 1.0, "consumed_samples": 1936384, "global_step/max_steps": "7564/12700"}
{"lm loss": 2.06242967, "grad_norm": 0.37727046, "learning_rate": 4.027e-05, "elapsed_time_per_iteration": 5.01852655, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 36s", "remaining_time": "6h 58m 32s", "loss_scale": 1.0, "consumed_samples": 1936640, "global_step/max_steps": "7565/12700"}
{"lm loss": 2.11102271, "grad_norm": 0.37169942, "learning_rate": 4.026e-05, "elapsed_time_per_iteration": 4.95736909, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 41s", "remaining_time": "6h 58m 27s", "loss_scale": 1.0, "consumed_samples": 1936896, "global_step/max_steps": "7566/12700"}
{"lm loss": 2.06899667, "grad_norm": 0.381506, "learning_rate": 4.024e-05, "elapsed_time_per_iteration": 4.85936832, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 46s", "remaining_time": "6h 58m 22s", "loss_scale": 1.0, "consumed_samples": 1937152, "global_step/max_steps": "7567/12700"}
{"lm loss": 2.07496786, "grad_norm": 0.35245574, "learning_rate": 4.023e-05, "elapsed_time_per_iteration": 4.81470442, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 51s", "remaining_time": "6h 58m 17s", "loss_scale": 1.0, "consumed_samples": 1937408, "global_step/max_steps": "7568/12700"}
{"lm loss": 2.1046989, "grad_norm": 0.3904255, "learning_rate": 4.022e-05, "elapsed_time_per_iteration": 4.86041474, "memory(GiB)": 28.98, "elapsed_time": "10h 16m 55s", "remaining_time": "6h 58m 12s", "loss_scale": 1.0, "consumed_samples": 1937664, "global_step/max_steps": "7569/12700"}
{"lm loss": 2.05732727, "grad_norm": 0.36763963, "learning_rate": 4.021e-05, "elapsed_time_per_iteration": 4.82685876, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 0s", "remaining_time": "6h 58m 8s", "loss_scale": 1.0, "consumed_samples": 1937920, "global_step/max_steps": "7570/12700"}
{"lm loss": 2.08561635, "grad_norm": 0.37401572, "learning_rate": 4.019e-05, "elapsed_time_per_iteration": 5.07296157, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 5s", "remaining_time": "6h 58m 3s", "loss_scale": 1.0, "consumed_samples": 1938176, "global_step/max_steps": "7571/12700"}
{"lm loss": 2.13296318, "grad_norm": 0.36648095, "learning_rate": 4.018e-05, "elapsed_time_per_iteration": 5.08187079, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 10s", "remaining_time": "6h 57m 58s", "loss_scale": 1.0, "consumed_samples": 1938432, "global_step/max_steps": "7572/12700"}
{"lm loss": 2.10445428, "grad_norm": 0.3435241, "learning_rate": 4.017e-05, "elapsed_time_per_iteration": 4.88335347, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 15s", "remaining_time": "6h 57m 53s", "loss_scale": 1.0, "consumed_samples": 1938688, "global_step/max_steps": "7573/12700"}
{"lm loss": 2.04538202, "grad_norm": 0.40009251, "learning_rate": 4.016e-05, "elapsed_time_per_iteration": 5.05101633, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 20s", "remaining_time": "6h 57m 48s", "loss_scale": 1.0, "consumed_samples": 1938944, "global_step/max_steps": "7574/12700"}
{"lm loss": 2.07164645, "grad_norm": 0.35558829, "learning_rate": 4.015e-05, "elapsed_time_per_iteration": 5.19149351, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 26s", "remaining_time": "6h 57m 44s", "loss_scale": 1.0, "consumed_samples": 1939200, "global_step/max_steps": "7575/12700"}
{"lm loss": 2.13165045, "grad_norm": 0.39634639, "learning_rate": 4.013e-05, "elapsed_time_per_iteration": 4.98174524, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 31s", "remaining_time": "6h 57m 39s", "loss_scale": 1.0, "consumed_samples": 1939456, "global_step/max_steps": "7576/12700"}
{"lm loss": 2.10290885, "grad_norm": 0.34967348, "learning_rate": 4.012e-05, "elapsed_time_per_iteration": 4.78613925, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 35s", "remaining_time": "6h 57m 34s", "loss_scale": 1.0, "consumed_samples": 1939712, "global_step/max_steps": "7577/12700"}
{"lm loss": 2.07730007, "grad_norm": 0.37712154, "learning_rate": 4.011e-05, "elapsed_time_per_iteration": 4.9508152, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 40s", "remaining_time": "6h 57m 29s", "loss_scale": 1.0, "consumed_samples": 1939968, "global_step/max_steps": "7578/12700"}
{"lm loss": 2.08475542, "grad_norm": 0.36380407, "learning_rate": 4.01e-05, "elapsed_time_per_iteration": 4.92621183, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 45s", "remaining_time": "6h 57m 24s", "loss_scale": 1.0, "consumed_samples": 1940224, "global_step/max_steps": "7579/12700"}
{"lm loss": 2.04553103, "grad_norm": 0.34934404, "learning_rate": 4.008e-05, "elapsed_time_per_iteration": 5.00690365, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 50s", "remaining_time": "6h 57m 19s", "loss_scale": 1.0, "consumed_samples": 1940480, "global_step/max_steps": "7580/12700"}
{"lm loss": 2.09082675, "grad_norm": 0.35350722, "learning_rate": 4.007e-05, "elapsed_time_per_iteration": 5.1198051, "memory(GiB)": 28.98, "elapsed_time": "10h 17m 55s", "remaining_time": "6h 57m 15s", "loss_scale": 1.0, "consumed_samples": 1940736, "global_step/max_steps": "7581/12700"}
{"lm loss": 2.07017303, "grad_norm": 0.36997926, "learning_rate": 4.006e-05, "elapsed_time_per_iteration": 5.19634223, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 0s", "remaining_time": "6h 57m 10s", "loss_scale": 1.0, "consumed_samples": 1940992, "global_step/max_steps": "7582/12700"}
{"lm loss": 2.08569312, "grad_norm": 0.34292433, "learning_rate": 4.005e-05, "elapsed_time_per_iteration": 5.14302611, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 6s", "remaining_time": "6h 57m 5s", "loss_scale": 1.0, "consumed_samples": 1941248, "global_step/max_steps": "7583/12700"}
{"lm loss": 2.07635736, "grad_norm": 0.36656806, "learning_rate": 4.004e-05, "elapsed_time_per_iteration": 4.83116174, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 10s", "remaining_time": "6h 57m 0s", "loss_scale": 1.0, "consumed_samples": 1941504, "global_step/max_steps": "7584/12700"}
{"lm loss": 2.08150554, "grad_norm": 0.34690103, "learning_rate": 4.002e-05, "elapsed_time_per_iteration": 5.08417606, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 16s", "remaining_time": "6h 56m 55s", "loss_scale": 1.0, "consumed_samples": 1941760, "global_step/max_steps": "7585/12700"}
{"lm loss": 2.07249928, "grad_norm": 0.35721675, "learning_rate": 4.001e-05, "elapsed_time_per_iteration": 4.86624455, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 20s", "remaining_time": "6h 56m 51s", "loss_scale": 1.0, "consumed_samples": 1942016, "global_step/max_steps": "7586/12700"}
{"lm loss": 2.09051394, "grad_norm": 0.35412315, "learning_rate": 4e-05, "elapsed_time_per_iteration": 4.82944345, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 25s", "remaining_time": "6h 56m 46s", "loss_scale": 1.0, "consumed_samples": 1942272, "global_step/max_steps": "7587/12700"}
{"lm loss": 2.09272695, "grad_norm": 0.3800956, "learning_rate": 3.999e-05, "elapsed_time_per_iteration": 4.88017368, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 30s", "remaining_time": "6h 56m 41s", "loss_scale": 1.0, "consumed_samples": 1942528, "global_step/max_steps": "7588/12700"}
{"lm loss": 2.06839275, "grad_norm": 0.35063002, "learning_rate": 3.997e-05, "elapsed_time_per_iteration": 4.89554906, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 35s", "remaining_time": "6h 56m 36s", "loss_scale": 1.0, "consumed_samples": 1942784, "global_step/max_steps": "7589/12700"}
{"lm loss": 2.10867286, "grad_norm": 0.3615571, "learning_rate": 3.996e-05, "elapsed_time_per_iteration": 4.91025257, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 40s", "remaining_time": "6h 56m 31s", "loss_scale": 1.0, "consumed_samples": 1943040, "global_step/max_steps": "7590/12700"}
{"lm loss": 2.05942082, "grad_norm": 0.35741824, "learning_rate": 3.995e-05, "elapsed_time_per_iteration": 4.90359759, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 45s", "remaining_time": "6h 56m 26s", "loss_scale": 1.0, "consumed_samples": 1943296, "global_step/max_steps": "7591/12700"}
{"lm loss": 2.13959527, "grad_norm": 0.40295085, "learning_rate": 3.994e-05, "elapsed_time_per_iteration": 4.8848033, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 50s", "remaining_time": "6h 56m 21s", "loss_scale": 1.0, "consumed_samples": 1943552, "global_step/max_steps": "7592/12700"}
{"lm loss": 2.10073733, "grad_norm": 0.37544206, "learning_rate": 3.992e-05, "elapsed_time_per_iteration": 4.97920084, "memory(GiB)": 28.98, "elapsed_time": "10h 18m 55s", "remaining_time": "6h 56m 16s", "loss_scale": 1.0, "consumed_samples": 1943808, "global_step/max_steps": "7593/12700"}
{"lm loss": 2.08672452, "grad_norm": 0.36739579, "learning_rate": 3.991e-05, "elapsed_time_per_iteration": 4.91578531, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 0s", "remaining_time": "6h 56m 12s", "loss_scale": 1.0, "consumed_samples": 1944064, "global_step/max_steps": "7594/12700"}
{"lm loss": 2.07361269, "grad_norm": 0.37630171, "learning_rate": 3.99e-05, "elapsed_time_per_iteration": 4.91067553, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 5s", "remaining_time": "6h 56m 7s", "loss_scale": 1.0, "consumed_samples": 1944320, "global_step/max_steps": "7595/12700"}
{"lm loss": 2.10227799, "grad_norm": 0.38382217, "learning_rate": 3.989e-05, "elapsed_time_per_iteration": 4.82261205, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 9s", "remaining_time": "6h 56m 2s", "loss_scale": 1.0, "consumed_samples": 1944576, "global_step/max_steps": "7596/12700"}
{"lm loss": 2.07943034, "grad_norm": 0.394106, "learning_rate": 3.988e-05, "elapsed_time_per_iteration": 4.83407688, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 14s", "remaining_time": "6h 55m 57s", "loss_scale": 1.0, "consumed_samples": 1944832, "global_step/max_steps": "7597/12700"}
{"lm loss": 2.0658555, "grad_norm": 0.37966657, "learning_rate": 3.986e-05, "elapsed_time_per_iteration": 4.84420061, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 19s", "remaining_time": "6h 55m 52s", "loss_scale": 1.0, "consumed_samples": 1945088, "global_step/max_steps": "7598/12700"}
{"lm loss": 2.08191466, "grad_norm": 0.37925696, "learning_rate": 3.985e-05, "elapsed_time_per_iteration": 4.84774351, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 24s", "remaining_time": "6h 55m 47s", "loss_scale": 1.0, "consumed_samples": 1945344, "global_step/max_steps": "7599/12700"}
{"lm loss": 2.07072449, "grad_norm": 0.36564049, "learning_rate": 3.984e-05, "elapsed_time_per_iteration": 5.18070173, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 29s", "remaining_time": "6h 55m 42s", "loss_scale": 1.0, "consumed_samples": 1945600, "global_step/max_steps": "7600/12700"}
{"lm loss": 2.11882401, "grad_norm": 0.35291871, "learning_rate": 3.983e-05, "elapsed_time_per_iteration": 4.94125128, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 34s", "remaining_time": "6h 55m 37s", "loss_scale": 1.0, "consumed_samples": 1945856, "global_step/max_steps": "7601/12700"}
{"lm loss": 2.05484033, "grad_norm": 0.3713685, "learning_rate": 3.981e-05, "elapsed_time_per_iteration": 5.00277686, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 39s", "remaining_time": "6h 55m 33s", "loss_scale": 1.0, "consumed_samples": 1946112, "global_step/max_steps": "7602/12700"}
{"lm loss": 2.11731195, "grad_norm": 0.36162668, "learning_rate": 3.98e-05, "elapsed_time_per_iteration": 5.10258055, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 44s", "remaining_time": "6h 55m 28s", "loss_scale": 1.0, "consumed_samples": 1946368, "global_step/max_steps": "7603/12700"}
{"lm loss": 2.07841516, "grad_norm": 0.33106816, "learning_rate": 3.979e-05, "elapsed_time_per_iteration": 5.01011944, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 49s", "remaining_time": "6h 55m 23s", "loss_scale": 1.0, "consumed_samples": 1946624, "global_step/max_steps": "7604/12700"}
{"lm loss": 2.08693624, "grad_norm": 0.36276379, "learning_rate": 3.978e-05, "elapsed_time_per_iteration": 5.00990963, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 54s", "remaining_time": "6h 55m 18s", "loss_scale": 1.0, "consumed_samples": 1946880, "global_step/max_steps": "7605/12700"}
{"lm loss": 2.07060623, "grad_norm": 0.35283664, "learning_rate": 3.977e-05, "elapsed_time_per_iteration": 4.91891026, "memory(GiB)": 28.98, "elapsed_time": "10h 19m 59s", "remaining_time": "6h 55m 13s", "loss_scale": 1.0, "consumed_samples": 1947136, "global_step/max_steps": "7606/12700"}
{"lm loss": 2.07463646, "grad_norm": 0.34094158, "learning_rate": 3.975e-05, "elapsed_time_per_iteration": 4.82482982, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 4s", "remaining_time": "6h 55m 8s", "loss_scale": 1.0, "consumed_samples": 1947392, "global_step/max_steps": "7607/12700"}
{"lm loss": 2.06421804, "grad_norm": 0.34388661, "learning_rate": 3.974e-05, "elapsed_time_per_iteration": 4.87526321, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 9s", "remaining_time": "6h 55m 3s", "loss_scale": 1.0, "consumed_samples": 1947648, "global_step/max_steps": "7608/12700"}
{"lm loss": 2.09350467, "grad_norm": 0.35843506, "learning_rate": 3.973e-05, "elapsed_time_per_iteration": 4.87291098, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 14s", "remaining_time": "6h 54m 59s", "loss_scale": 1.0, "consumed_samples": 1947904, "global_step/max_steps": "7609/12700"}
{"lm loss": 2.09379745, "grad_norm": 0.36311632, "learning_rate": 3.972e-05, "elapsed_time_per_iteration": 4.98577738, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 19s", "remaining_time": "6h 54m 54s", "loss_scale": 1.0, "consumed_samples": 1948160, "global_step/max_steps": "7610/12700"}
{"lm loss": 2.08961391, "grad_norm": 0.35015693, "learning_rate": 3.97e-05, "elapsed_time_per_iteration": 4.99207616, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 24s", "remaining_time": "6h 54m 49s", "loss_scale": 1.0, "consumed_samples": 1948416, "global_step/max_steps": "7611/12700"}
{"lm loss": 2.09741092, "grad_norm": 0.33937541, "learning_rate": 3.969e-05, "elapsed_time_per_iteration": 5.027982, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 29s", "remaining_time": "6h 54m 44s", "loss_scale": 1.0, "consumed_samples": 1948672, "global_step/max_steps": "7612/12700"}
{"lm loss": 2.06065893, "grad_norm": 0.34153983, "learning_rate": 3.968e-05, "elapsed_time_per_iteration": 5.02810049, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 34s", "remaining_time": "6h 54m 39s", "loss_scale": 1.0, "consumed_samples": 1948928, "global_step/max_steps": "7613/12700"}
{"lm loss": 2.09610271, "grad_norm": 0.34279132, "learning_rate": 3.967e-05, "elapsed_time_per_iteration": 4.8655715, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 39s", "remaining_time": "6h 54m 34s", "loss_scale": 1.0, "consumed_samples": 1949184, "global_step/max_steps": "7614/12700"}
{"lm loss": 2.07029772, "grad_norm": 0.34367073, "learning_rate": 3.966e-05, "elapsed_time_per_iteration": 4.86470199, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 43s", "remaining_time": "6h 54m 30s", "loss_scale": 1.0, "consumed_samples": 1949440, "global_step/max_steps": "7615/12700"}
{"lm loss": 2.07464242, "grad_norm": 0.34786746, "learning_rate": 3.964e-05, "elapsed_time_per_iteration": 4.82036257, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 48s", "remaining_time": "6h 54m 25s", "loss_scale": 1.0, "consumed_samples": 1949696, "global_step/max_steps": "7616/12700"}
{"lm loss": 2.06352258, "grad_norm": 0.3476086, "learning_rate": 3.963e-05, "elapsed_time_per_iteration": 4.81148028, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 53s", "remaining_time": "6h 54m 20s", "loss_scale": 1.0, "consumed_samples": 1949952, "global_step/max_steps": "7617/12700"}
{"lm loss": 2.12157869, "grad_norm": 0.35411185, "learning_rate": 3.962e-05, "elapsed_time_per_iteration": 4.82988882, "memory(GiB)": 28.98, "elapsed_time": "10h 20m 58s", "remaining_time": "6h 54m 15s", "loss_scale": 1.0, "consumed_samples": 1950208, "global_step/max_steps": "7618/12700"}
{"lm loss": 2.06762314, "grad_norm": 0.3566747, "learning_rate": 3.961e-05, "elapsed_time_per_iteration": 4.85992074, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 3s", "remaining_time": "6h 54m 10s", "loss_scale": 1.0, "consumed_samples": 1950464, "global_step/max_steps": "7619/12700"}
{"lm loss": 2.06735396, "grad_norm": 0.34975034, "learning_rate": 3.959e-05, "elapsed_time_per_iteration": 4.86634994, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 8s", "remaining_time": "6h 54m 5s", "loss_scale": 1.0, "consumed_samples": 1950720, "global_step/max_steps": "7620/12700"}
{"lm loss": 2.11855817, "grad_norm": 0.35904476, "learning_rate": 3.958e-05, "elapsed_time_per_iteration": 5.17476916, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 13s", "remaining_time": "6h 54m 0s", "loss_scale": 1.0, "consumed_samples": 1950976, "global_step/max_steps": "7621/12700"}
{"lm loss": 2.07453203, "grad_norm": 0.34341234, "learning_rate": 3.957e-05, "elapsed_time_per_iteration": 4.91247082, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 18s", "remaining_time": "6h 53m 55s", "loss_scale": 1.0, "consumed_samples": 1951232, "global_step/max_steps": "7622/12700"}
{"lm loss": 2.10709548, "grad_norm": 0.34923065, "learning_rate": 3.956e-05, "elapsed_time_per_iteration": 4.82989359, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 22s", "remaining_time": "6h 53m 50s", "loss_scale": 1.0, "consumed_samples": 1951488, "global_step/max_steps": "7623/12700"}
{"lm loss": 2.0573597, "grad_norm": 0.36253217, "learning_rate": 3.954e-05, "elapsed_time_per_iteration": 4.89105153, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 27s", "remaining_time": "6h 53m 45s", "loss_scale": 1.0, "consumed_samples": 1951744, "global_step/max_steps": "7624/12700"}
{"lm loss": 2.06843472, "grad_norm": 0.35257635, "learning_rate": 3.953e-05, "elapsed_time_per_iteration": 5.15652657, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 33s", "remaining_time": "6h 53m 41s", "loss_scale": 1.0, "consumed_samples": 1952000, "global_step/max_steps": "7625/12700"}
{"lm loss": 2.07878709, "grad_norm": 0.34965265, "learning_rate": 3.952e-05, "elapsed_time_per_iteration": 4.84537506, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 37s", "remaining_time": "6h 53m 36s", "loss_scale": 1.0, "consumed_samples": 1952256, "global_step/max_steps": "7626/12700"}
{"lm loss": 2.10207558, "grad_norm": 0.35165167, "learning_rate": 3.951e-05, "elapsed_time_per_iteration": 4.83736897, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 42s", "remaining_time": "6h 53m 31s", "loss_scale": 1.0, "consumed_samples": 1952512, "global_step/max_steps": "7627/12700"}
{"lm loss": 2.06944704, "grad_norm": 0.37023669, "learning_rate": 3.95e-05, "elapsed_time_per_iteration": 4.84847736, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 47s", "remaining_time": "6h 53m 26s", "loss_scale": 1.0, "consumed_samples": 1952768, "global_step/max_steps": "7628/12700"}
{"lm loss": 2.05811787, "grad_norm": 0.36298355, "learning_rate": 3.948e-05, "elapsed_time_per_iteration": 4.94238091, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 52s", "remaining_time": "6h 53m 21s", "loss_scale": 1.0, "consumed_samples": 1953024, "global_step/max_steps": "7629/12700"}
{"lm loss": 2.08973765, "grad_norm": 0.33454785, "learning_rate": 3.947e-05, "elapsed_time_per_iteration": 4.93649912, "memory(GiB)": 28.98, "elapsed_time": "10h 21m 57s", "remaining_time": "6h 53m 16s", "loss_scale": 1.0, "consumed_samples": 1953280, "global_step/max_steps": "7630/12700"}
{"lm loss": 2.09253931, "grad_norm": 0.36185795, "learning_rate": 3.946e-05, "elapsed_time_per_iteration": 4.93227506, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 2s", "remaining_time": "6h 53m 11s", "loss_scale": 1.0, "consumed_samples": 1953536, "global_step/max_steps": "7631/12700"}
{"lm loss": 2.06383038, "grad_norm": 0.35505378, "learning_rate": 3.945e-05, "elapsed_time_per_iteration": 4.83051896, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 7s", "remaining_time": "6h 53m 6s", "loss_scale": 1.0, "consumed_samples": 1953792, "global_step/max_steps": "7632/12700"}
{"lm loss": 2.02358222, "grad_norm": 0.349538, "learning_rate": 3.943e-05, "elapsed_time_per_iteration": 4.87027287, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 12s", "remaining_time": "6h 53m 2s", "loss_scale": 1.0, "consumed_samples": 1954048, "global_step/max_steps": "7633/12700"}
{"lm loss": 2.09068966, "grad_norm": 0.33965784, "learning_rate": 3.942e-05, "elapsed_time_per_iteration": 4.82966828, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 16s", "remaining_time": "6h 52m 57s", "loss_scale": 1.0, "consumed_samples": 1954304, "global_step/max_steps": "7634/12700"}
{"lm loss": 2.13209987, "grad_norm": 0.35697308, "learning_rate": 3.941e-05, "elapsed_time_per_iteration": 4.85228848, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 21s", "remaining_time": "6h 52m 52s", "loss_scale": 1.0, "consumed_samples": 1954560, "global_step/max_steps": "7635/12700"}
{"lm loss": 2.06773782, "grad_norm": 0.37076354, "learning_rate": 3.94e-05, "elapsed_time_per_iteration": 4.89209127, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 26s", "remaining_time": "6h 52m 47s", "loss_scale": 1.0, "consumed_samples": 1954816, "global_step/max_steps": "7636/12700"}
{"lm loss": 2.07550764, "grad_norm": 0.3539421, "learning_rate": 3.939e-05, "elapsed_time_per_iteration": 4.77566743, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 31s", "remaining_time": "6h 52m 42s", "loss_scale": 1.0, "consumed_samples": 1955072, "global_step/max_steps": "7637/12700"}
{"lm loss": 2.0742836, "grad_norm": 0.349053, "learning_rate": 3.937e-05, "elapsed_time_per_iteration": 4.91542816, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 36s", "remaining_time": "6h 52m 37s", "loss_scale": 1.0, "consumed_samples": 1955328, "global_step/max_steps": "7638/12700"}
{"lm loss": 2.09639263, "grad_norm": 0.3806577, "learning_rate": 3.936e-05, "elapsed_time_per_iteration": 4.83485675, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 41s", "remaining_time": "6h 52m 32s", "loss_scale": 1.0, "consumed_samples": 1955584, "global_step/max_steps": "7639/12700"}
{"lm loss": 2.07402611, "grad_norm": 0.38733009, "learning_rate": 3.935e-05, "elapsed_time_per_iteration": 4.97116065, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 46s", "remaining_time": "6h 52m 27s", "loss_scale": 1.0, "consumed_samples": 1955840, "global_step/max_steps": "7640/12700"}
{"lm loss": 2.09844422, "grad_norm": 0.36835191, "learning_rate": 3.934e-05, "elapsed_time_per_iteration": 4.81744742, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 50s", "remaining_time": "6h 52m 22s", "loss_scale": 1.0, "consumed_samples": 1956096, "global_step/max_steps": "7641/12700"}
{"lm loss": 2.09312153, "grad_norm": 0.38970536, "learning_rate": 3.932e-05, "elapsed_time_per_iteration": 4.84865403, "memory(GiB)": 28.98, "elapsed_time": "10h 22m 55s", "remaining_time": "6h 52m 17s", "loss_scale": 1.0, "consumed_samples": 1956352, "global_step/max_steps": "7642/12700"}
{"lm loss": 2.0849061, "grad_norm": 0.35722274, "learning_rate": 3.931e-05, "elapsed_time_per_iteration": 4.95340848, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 0s", "remaining_time": "6h 52m 13s", "loss_scale": 1.0, "consumed_samples": 1956608, "global_step/max_steps": "7643/12700"}
{"lm loss": 2.0685935, "grad_norm": 0.38889802, "learning_rate": 3.93e-05, "elapsed_time_per_iteration": 4.87457633, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 5s", "remaining_time": "6h 52m 8s", "loss_scale": 1.0, "consumed_samples": 1956864, "global_step/max_steps": "7644/12700"}
{"lm loss": 2.06681585, "grad_norm": 0.37722036, "learning_rate": 3.929e-05, "elapsed_time_per_iteration": 4.8735795, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 10s", "remaining_time": "6h 52m 3s", "loss_scale": 1.0, "consumed_samples": 1957120, "global_step/max_steps": "7645/12700"}
{"lm loss": 2.07068825, "grad_norm": 0.37429297, "learning_rate": 3.928e-05, "elapsed_time_per_iteration": 4.92546511, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 15s", "remaining_time": "6h 51m 58s", "loss_scale": 1.0, "consumed_samples": 1957376, "global_step/max_steps": "7646/12700"}
{"lm loss": 2.08742213, "grad_norm": 0.36341673, "learning_rate": 3.926e-05, "elapsed_time_per_iteration": 4.94554663, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 20s", "remaining_time": "6h 51m 53s", "loss_scale": 1.0, "consumed_samples": 1957632, "global_step/max_steps": "7647/12700"}
{"lm loss": 2.05480576, "grad_norm": 0.39784861, "learning_rate": 3.925e-05, "elapsed_time_per_iteration": 4.96372223, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 25s", "remaining_time": "6h 51m 48s", "loss_scale": 1.0, "consumed_samples": 1957888, "global_step/max_steps": "7648/12700"}
{"lm loss": 2.09003735, "grad_norm": 0.37398049, "learning_rate": 3.924e-05, "elapsed_time_per_iteration": 5.15555358, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 30s", "remaining_time": "6h 51m 43s", "loss_scale": 1.0, "consumed_samples": 1958144, "global_step/max_steps": "7649/12700"}
{"lm loss": 2.03948736, "grad_norm": 0.36210114, "learning_rate": 3.923e-05, "elapsed_time_per_iteration": 5.07400274, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 35s", "remaining_time": "6h 51m 39s", "loss_scale": 1.0, "consumed_samples": 1958400, "global_step/max_steps": "7650/12700"}
{"lm loss": 2.05812621, "grad_norm": 0.3378427, "learning_rate": 3.921e-05, "elapsed_time_per_iteration": 4.91764498, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 40s", "remaining_time": "6h 51m 34s", "loss_scale": 1.0, "consumed_samples": 1958656, "global_step/max_steps": "7651/12700"}
{"lm loss": 2.09178233, "grad_norm": 0.36634681, "learning_rate": 3.92e-05, "elapsed_time_per_iteration": 4.80037832, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 45s", "remaining_time": "6h 51m 29s", "loss_scale": 1.0, "consumed_samples": 1958912, "global_step/max_steps": "7652/12700"}
{"lm loss": 2.05902743, "grad_norm": 0.34716013, "learning_rate": 3.919e-05, "elapsed_time_per_iteration": 4.93572807, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 50s", "remaining_time": "6h 51m 24s", "loss_scale": 1.0, "consumed_samples": 1959168, "global_step/max_steps": "7653/12700"}
{"lm loss": 2.08092499, "grad_norm": 0.35346985, "learning_rate": 3.918e-05, "elapsed_time_per_iteration": 4.81445932, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 55s", "remaining_time": "6h 51m 19s", "loss_scale": 1.0, "consumed_samples": 1959424, "global_step/max_steps": "7654/12700"}
{"lm loss": 2.09552693, "grad_norm": 0.3638576, "learning_rate": 3.917e-05, "elapsed_time_per_iteration": 4.8382988, "memory(GiB)": 28.98, "elapsed_time": "10h 23m 59s", "remaining_time": "6h 51m 14s", "loss_scale": 1.0, "consumed_samples": 1959680, "global_step/max_steps": "7655/12700"}
{"lm loss": 2.09258699, "grad_norm": 0.33819741, "learning_rate": 3.915e-05, "elapsed_time_per_iteration": 4.89760709, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 4s", "remaining_time": "6h 51m 9s", "loss_scale": 1.0, "consumed_samples": 1959936, "global_step/max_steps": "7656/12700"}
{"lm loss": 2.08346772, "grad_norm": 0.34994537, "learning_rate": 3.914e-05, "elapsed_time_per_iteration": 4.98860717, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 9s", "remaining_time": "6h 51m 4s", "loss_scale": 1.0, "consumed_samples": 1960192, "global_step/max_steps": "7657/12700"}
{"lm loss": 2.06084156, "grad_norm": 0.3497712, "learning_rate": 3.913e-05, "elapsed_time_per_iteration": 5.18494821, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 14s", "remaining_time": "6h 51m 0s", "loss_scale": 1.0, "consumed_samples": 1960448, "global_step/max_steps": "7658/12700"}
{"lm loss": 2.05729222, "grad_norm": 0.33698249, "learning_rate": 3.912e-05, "elapsed_time_per_iteration": 5.15816069, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 20s", "remaining_time": "6h 50m 55s", "loss_scale": 1.0, "consumed_samples": 1960704, "global_step/max_steps": "7659/12700"}
{"lm loss": 2.0960567, "grad_norm": 0.3616558, "learning_rate": 3.91e-05, "elapsed_time_per_iteration": 5.00008273, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 25s", "remaining_time": "6h 50m 50s", "loss_scale": 1.0, "consumed_samples": 1960960, "global_step/max_steps": "7660/12700"}
{"lm loss": 2.07289386, "grad_norm": 0.35532528, "learning_rate": 3.909e-05, "elapsed_time_per_iteration": 4.84159136, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 29s", "remaining_time": "6h 50m 45s", "loss_scale": 1.0, "consumed_samples": 1961216, "global_step/max_steps": "7661/12700"}
{"lm loss": 2.04688835, "grad_norm": 0.34593853, "learning_rate": 3.908e-05, "elapsed_time_per_iteration": 4.96245503, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 34s", "remaining_time": "6h 50m 40s", "loss_scale": 1.0, "consumed_samples": 1961472, "global_step/max_steps": "7662/12700"}
{"lm loss": 2.06519794, "grad_norm": 0.36127755, "learning_rate": 3.907e-05, "elapsed_time_per_iteration": 5.07326746, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 39s", "remaining_time": "6h 50m 36s", "loss_scale": 1.0, "consumed_samples": 1961728, "global_step/max_steps": "7663/12700"}
{"lm loss": 2.10177183, "grad_norm": 0.34455144, "learning_rate": 3.906e-05, "elapsed_time_per_iteration": 5.12800097, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 45s", "remaining_time": "6h 50m 31s", "loss_scale": 1.0, "consumed_samples": 1961984, "global_step/max_steps": "7664/12700"}
{"lm loss": 2.07698274, "grad_norm": 0.36931688, "learning_rate": 3.904e-05, "elapsed_time_per_iteration": 4.98916912, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 50s", "remaining_time": "6h 50m 26s", "loss_scale": 1.0, "consumed_samples": 1962240, "global_step/max_steps": "7665/12700"}
{"lm loss": 2.06680298, "grad_norm": 0.36450809, "learning_rate": 3.903e-05, "elapsed_time_per_iteration": 4.87689018, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 54s", "remaining_time": "6h 50m 21s", "loss_scale": 1.0, "consumed_samples": 1962496, "global_step/max_steps": "7666/12700"}
{"lm loss": 2.08553219, "grad_norm": 0.35803592, "learning_rate": 3.902e-05, "elapsed_time_per_iteration": 4.8927784, "memory(GiB)": 28.98, "elapsed_time": "10h 24m 59s", "remaining_time": "6h 50m 16s", "loss_scale": 1.0, "consumed_samples": 1962752, "global_step/max_steps": "7667/12700"}
{"lm loss": 2.05660129, "grad_norm": 0.35383323, "learning_rate": 3.901e-05, "elapsed_time_per_iteration": 4.95329332, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 4s", "remaining_time": "6h 50m 11s", "loss_scale": 1.0, "consumed_samples": 1963008, "global_step/max_steps": "7668/12700"}
{"lm loss": 2.08687353, "grad_norm": 0.36913738, "learning_rate": 3.9e-05, "elapsed_time_per_iteration": 5.05988526, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 9s", "remaining_time": "6h 50m 7s", "loss_scale": 1.0, "consumed_samples": 1963264, "global_step/max_steps": "7669/12700"}
{"lm loss": 2.10292721, "grad_norm": 0.35327193, "learning_rate": 3.898e-05, "elapsed_time_per_iteration": 4.90803432, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 14s", "remaining_time": "6h 50m 2s", "loss_scale": 1.0, "consumed_samples": 1963520, "global_step/max_steps": "7670/12700"}
{"lm loss": 2.06444621, "grad_norm": 0.34224707, "learning_rate": 3.897e-05, "elapsed_time_per_iteration": 4.84839153, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 19s", "remaining_time": "6h 49m 57s", "loss_scale": 1.0, "consumed_samples": 1963776, "global_step/max_steps": "7671/12700"}
{"lm loss": 2.06541395, "grad_norm": 0.35023725, "learning_rate": 3.896e-05, "elapsed_time_per_iteration": 4.88002563, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 24s", "remaining_time": "6h 49m 52s", "loss_scale": 1.0, "consumed_samples": 1964032, "global_step/max_steps": "7672/12700"}
{"lm loss": 2.06825829, "grad_norm": 0.34719428, "learning_rate": 3.895e-05, "elapsed_time_per_iteration": 4.97733235, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 29s", "remaining_time": "6h 49m 47s", "loss_scale": 1.0, "consumed_samples": 1964288, "global_step/max_steps": "7673/12700"}
{"lm loss": 2.0699048, "grad_norm": 0.35953015, "learning_rate": 3.893e-05, "elapsed_time_per_iteration": 4.99292016, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 34s", "remaining_time": "6h 49m 42s", "loss_scale": 1.0, "consumed_samples": 1964544, "global_step/max_steps": "7674/12700"}
{"lm loss": 2.05821228, "grad_norm": 0.34629756, "learning_rate": 3.892e-05, "elapsed_time_per_iteration": 5.01758456, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 39s", "remaining_time": "6h 49m 37s", "loss_scale": 1.0, "consumed_samples": 1964800, "global_step/max_steps": "7675/12700"}
{"lm loss": 2.06665015, "grad_norm": 0.36271003, "learning_rate": 3.891e-05, "elapsed_time_per_iteration": 4.98494673, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 44s", "remaining_time": "6h 49m 33s", "loss_scale": 1.0, "consumed_samples": 1965056, "global_step/max_steps": "7676/12700"}
{"lm loss": 2.05860114, "grad_norm": 0.33094341, "learning_rate": 3.89e-05, "elapsed_time_per_iteration": 4.88574839, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 49s", "remaining_time": "6h 49m 28s", "loss_scale": 1.0, "consumed_samples": 1965312, "global_step/max_steps": "7677/12700"}
{"lm loss": 2.07847619, "grad_norm": 0.33412185, "learning_rate": 3.889e-05, "elapsed_time_per_iteration": 4.95614266, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 54s", "remaining_time": "6h 49m 23s", "loss_scale": 1.0, "consumed_samples": 1965568, "global_step/max_steps": "7678/12700"}
{"lm loss": 2.06235194, "grad_norm": 0.3468819, "learning_rate": 3.887e-05, "elapsed_time_per_iteration": 4.88614678, "memory(GiB)": 28.98, "elapsed_time": "10h 25m 59s", "remaining_time": "6h 49m 18s", "loss_scale": 1.0, "consumed_samples": 1965824, "global_step/max_steps": "7679/12700"}
{"lm loss": 2.08440614, "grad_norm": 0.34955567, "learning_rate": 3.886e-05, "elapsed_time_per_iteration": 4.84036374, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 4s", "remaining_time": "6h 49m 13s", "loss_scale": 1.0, "consumed_samples": 1966080, "global_step/max_steps": "7680/12700"}
{"lm loss": 2.06468773, "grad_norm": 0.34532499, "learning_rate": 3.885e-05, "elapsed_time_per_iteration": 4.88655233, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 8s", "remaining_time": "6h 49m 8s", "loss_scale": 1.0, "consumed_samples": 1966336, "global_step/max_steps": "7681/12700"}
{"lm loss": 2.08183956, "grad_norm": 0.35264543, "learning_rate": 3.884e-05, "elapsed_time_per_iteration": 4.93427372, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 13s", "remaining_time": "6h 49m 3s", "loss_scale": 1.0, "consumed_samples": 1966592, "global_step/max_steps": "7682/12700"}
{"lm loss": 2.10501933, "grad_norm": 0.3385708, "learning_rate": 3.882e-05, "elapsed_time_per_iteration": 4.85977674, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 18s", "remaining_time": "6h 48m 58s", "loss_scale": 1.0, "consumed_samples": 1966848, "global_step/max_steps": "7683/12700"}
{"lm loss": 2.06852579, "grad_norm": 0.34257683, "learning_rate": 3.881e-05, "elapsed_time_per_iteration": 4.9531889, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 23s", "remaining_time": "6h 48m 54s", "loss_scale": 1.0, "consumed_samples": 1967104, "global_step/max_steps": "7684/12700"}
{"lm loss": 2.07902193, "grad_norm": 0.35947245, "learning_rate": 3.88e-05, "elapsed_time_per_iteration": 4.95599365, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 28s", "remaining_time": "6h 48m 49s", "loss_scale": 1.0, "consumed_samples": 1967360, "global_step/max_steps": "7685/12700"}
{"lm loss": 2.09656644, "grad_norm": 0.36585587, "learning_rate": 3.879e-05, "elapsed_time_per_iteration": 5.00823069, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 33s", "remaining_time": "6h 48m 44s", "loss_scale": 1.0, "consumed_samples": 1967616, "global_step/max_steps": "7686/12700"}
{"lm loss": 2.09295726, "grad_norm": 0.34019861, "learning_rate": 3.878e-05, "elapsed_time_per_iteration": 4.86625123, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 38s", "remaining_time": "6h 48m 39s", "loss_scale": 1.0, "consumed_samples": 1967872, "global_step/max_steps": "7687/12700"}
{"lm loss": 2.09134007, "grad_norm": 0.35738838, "learning_rate": 3.876e-05, "elapsed_time_per_iteration": 5.02212381, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 43s", "remaining_time": "6h 48m 34s", "loss_scale": 1.0, "consumed_samples": 1968128, "global_step/max_steps": "7688/12700"}
{"lm loss": 2.09019971, "grad_norm": 0.33333844, "learning_rate": 3.875e-05, "elapsed_time_per_iteration": 4.82569361, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 48s", "remaining_time": "6h 48m 29s", "loss_scale": 1.0, "consumed_samples": 1968384, "global_step/max_steps": "7689/12700"}
{"lm loss": 2.09373331, "grad_norm": 0.34107894, "learning_rate": 3.874e-05, "elapsed_time_per_iteration": 4.92846489, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 53s", "remaining_time": "6h 48m 24s", "loss_scale": 1.0, "consumed_samples": 1968640, "global_step/max_steps": "7690/12700"}
{"lm loss": 2.06779838, "grad_norm": 0.36676279, "learning_rate": 3.873e-05, "elapsed_time_per_iteration": 4.84644055, "memory(GiB)": 28.98, "elapsed_time": "10h 26m 58s", "remaining_time": "6h 48m 19s", "loss_scale": 1.0, "consumed_samples": 1968896, "global_step/max_steps": "7691/12700"}
{"lm loss": 2.10492516, "grad_norm": 0.34931207, "learning_rate": 3.871e-05, "elapsed_time_per_iteration": 4.89583969, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 3s", "remaining_time": "6h 48m 15s", "loss_scale": 1.0, "consumed_samples": 1969152, "global_step/max_steps": "7692/12700"}
{"lm loss": 2.05409813, "grad_norm": 0.33457914, "learning_rate": 3.87e-05, "elapsed_time_per_iteration": 4.90460253, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 7s", "remaining_time": "6h 48m 10s", "loss_scale": 1.0, "consumed_samples": 1969408, "global_step/max_steps": "7693/12700"}
{"lm loss": 2.07095408, "grad_norm": 0.36128181, "learning_rate": 3.869e-05, "elapsed_time_per_iteration": 4.85869598, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 12s", "remaining_time": "6h 48m 5s", "loss_scale": 1.0, "consumed_samples": 1969664, "global_step/max_steps": "7694/12700"}
{"lm loss": 2.0520916, "grad_norm": 0.35043171, "learning_rate": 3.868e-05, "elapsed_time_per_iteration": 4.88658619, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 17s", "remaining_time": "6h 48m 0s", "loss_scale": 1.0, "consumed_samples": 1969920, "global_step/max_steps": "7695/12700"}
{"lm loss": 2.08494902, "grad_norm": 0.3602134, "learning_rate": 3.867e-05, "elapsed_time_per_iteration": 4.9430182, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 22s", "remaining_time": "6h 47m 55s", "loss_scale": 1.0, "consumed_samples": 1970176, "global_step/max_steps": "7696/12700"}
{"lm loss": 2.07435417, "grad_norm": 0.35735559, "learning_rate": 3.865e-05, "elapsed_time_per_iteration": 4.92522502, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 27s", "remaining_time": "6h 47m 50s", "loss_scale": 1.0, "consumed_samples": 1970432, "global_step/max_steps": "7697/12700"}
{"lm loss": 2.04950023, "grad_norm": 0.34762797, "learning_rate": 3.864e-05, "elapsed_time_per_iteration": 5.04119372, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 32s", "remaining_time": "6h 47m 45s", "loss_scale": 1.0, "consumed_samples": 1970688, "global_step/max_steps": "7698/12700"}
{"lm loss": 2.087327, "grad_norm": 0.38190669, "learning_rate": 3.863e-05, "elapsed_time_per_iteration": 4.84982514, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 37s", "remaining_time": "6h 47m 40s", "loss_scale": 1.0, "consumed_samples": 1970944, "global_step/max_steps": "7699/12700"}
{"lm loss": 2.09090877, "grad_norm": 0.34740639, "learning_rate": 3.862e-05, "elapsed_time_per_iteration": 4.77921462, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 42s", "remaining_time": "6h 47m 35s", "loss_scale": 1.0, "consumed_samples": 1971200, "global_step/max_steps": "7700/12700"}
{"lm loss": 2.06655383, "grad_norm": 0.35953277, "learning_rate": 3.861e-05, "elapsed_time_per_iteration": 5.12644386, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 47s", "remaining_time": "6h 47m 31s", "loss_scale": 1.0, "consumed_samples": 1971456, "global_step/max_steps": "7701/12700"}
{"lm loss": 2.059793, "grad_norm": 0.32024354, "learning_rate": 3.859e-05, "elapsed_time_per_iteration": 5.08987761, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 52s", "remaining_time": "6h 47m 26s", "loss_scale": 1.0, "consumed_samples": 1971712, "global_step/max_steps": "7702/12700"}
{"lm loss": 2.08541393, "grad_norm": 0.36245608, "learning_rate": 3.858e-05, "elapsed_time_per_iteration": 4.92640114, "memory(GiB)": 28.98, "elapsed_time": "10h 27m 57s", "remaining_time": "6h 47m 21s", "loss_scale": 1.0, "consumed_samples": 1971968, "global_step/max_steps": "7703/12700"}
{"lm loss": 2.08207536, "grad_norm": 0.35482517, "learning_rate": 3.857e-05, "elapsed_time_per_iteration": 4.90347528, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 2s", "remaining_time": "6h 47m 16s", "loss_scale": 1.0, "consumed_samples": 1972224, "global_step/max_steps": "7704/12700"}
{"lm loss": 2.04564333, "grad_norm": 0.37600026, "learning_rate": 3.856e-05, "elapsed_time_per_iteration": 5.01262951, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 7s", "remaining_time": "6h 47m 11s", "loss_scale": 1.0, "consumed_samples": 1972480, "global_step/max_steps": "7705/12700"}
{"lm loss": 2.09695458, "grad_norm": 0.36716732, "learning_rate": 3.854e-05, "elapsed_time_per_iteration": 4.83687758, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 12s", "remaining_time": "6h 47m 7s", "loss_scale": 1.0, "consumed_samples": 1972736, "global_step/max_steps": "7706/12700"}
{"lm loss": 2.07516885, "grad_norm": 0.34315798, "learning_rate": 3.853e-05, "elapsed_time_per_iteration": 4.79610014, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 16s", "remaining_time": "6h 47m 2s", "loss_scale": 1.0, "consumed_samples": 1972992, "global_step/max_steps": "7707/12700"}
{"lm loss": 2.06342888, "grad_norm": 0.35704345, "learning_rate": 3.852e-05, "elapsed_time_per_iteration": 4.96696949, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 21s", "remaining_time": "6h 46m 57s", "loss_scale": 1.0, "consumed_samples": 1973248, "global_step/max_steps": "7708/12700"}
{"lm loss": 2.11602378, "grad_norm": 0.36124286, "learning_rate": 3.851e-05, "elapsed_time_per_iteration": 4.88232327, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 26s", "remaining_time": "6h 46m 52s", "loss_scale": 1.0, "consumed_samples": 1973504, "global_step/max_steps": "7709/12700"}
{"lm loss": 2.02801776, "grad_norm": 0.39402157, "learning_rate": 3.85e-05, "elapsed_time_per_iteration": 4.89618683, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 31s", "remaining_time": "6h 46m 47s", "loss_scale": 1.0, "consumed_samples": 1973760, "global_step/max_steps": "7710/12700"}
{"lm loss": 2.08086729, "grad_norm": 0.38562295, "learning_rate": 3.848e-05, "elapsed_time_per_iteration": 4.90062094, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 36s", "remaining_time": "6h 46m 42s", "loss_scale": 1.0, "consumed_samples": 1974016, "global_step/max_steps": "7711/12700"}
{"lm loss": 2.09636617, "grad_norm": 0.39280969, "learning_rate": 3.847e-05, "elapsed_time_per_iteration": 4.8763895, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 41s", "remaining_time": "6h 46m 37s", "loss_scale": 1.0, "consumed_samples": 1974272, "global_step/max_steps": "7712/12700"}
{"lm loss": 2.06848836, "grad_norm": 0.37265182, "learning_rate": 3.846e-05, "elapsed_time_per_iteration": 4.90658164, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 46s", "remaining_time": "6h 46m 32s", "loss_scale": 1.0, "consumed_samples": 1974528, "global_step/max_steps": "7713/12700"}
{"lm loss": 2.0634203, "grad_norm": 0.35750616, "learning_rate": 3.845e-05, "elapsed_time_per_iteration": 5.03941345, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 51s", "remaining_time": "6h 46m 27s", "loss_scale": 1.0, "consumed_samples": 1974784, "global_step/max_steps": "7714/12700"}
{"lm loss": 2.04217601, "grad_norm": 0.36679521, "learning_rate": 3.843e-05, "elapsed_time_per_iteration": 4.91432166, "memory(GiB)": 28.98, "elapsed_time": "10h 28m 56s", "remaining_time": "6h 46m 23s", "loss_scale": 1.0, "consumed_samples": 1975040, "global_step/max_steps": "7715/12700"}
{"lm loss": 2.03793406, "grad_norm": 0.3674393, "learning_rate": 3.842e-05, "elapsed_time_per_iteration": 5.21046591, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 1s", "remaining_time": "6h 46m 18s", "loss_scale": 1.0, "consumed_samples": 1975296, "global_step/max_steps": "7716/12700"}
{"lm loss": 2.10089231, "grad_norm": 0.37468594, "learning_rate": 3.841e-05, "elapsed_time_per_iteration": 4.8747716, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 6s", "remaining_time": "6h 46m 13s", "loss_scale": 1.0, "consumed_samples": 1975552, "global_step/max_steps": "7717/12700"}
{"lm loss": 2.08171821, "grad_norm": 0.35609084, "learning_rate": 3.84e-05, "elapsed_time_per_iteration": 4.80689526, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 11s", "remaining_time": "6h 46m 8s", "loss_scale": 1.0, "consumed_samples": 1975808, "global_step/max_steps": "7718/12700"}
{"lm loss": 2.08955169, "grad_norm": 0.37632227, "learning_rate": 3.839e-05, "elapsed_time_per_iteration": 4.8807497, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 16s", "remaining_time": "6h 46m 3s", "loss_scale": 1.0, "consumed_samples": 1976064, "global_step/max_steps": "7719/12700"}
{"lm loss": 2.06277061, "grad_norm": 0.38222897, "learning_rate": 3.837e-05, "elapsed_time_per_iteration": 4.83324504, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 20s", "remaining_time": "6h 45m 58s", "loss_scale": 1.0, "consumed_samples": 1976320, "global_step/max_steps": "7720/12700"}
{"lm loss": 2.08359933, "grad_norm": 0.37182474, "learning_rate": 3.836e-05, "elapsed_time_per_iteration": 4.90209198, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 25s", "remaining_time": "6h 45m 53s", "loss_scale": 1.0, "consumed_samples": 1976576, "global_step/max_steps": "7721/12700"}
{"lm loss": 2.03716159, "grad_norm": 0.36403558, "learning_rate": 3.835e-05, "elapsed_time_per_iteration": 4.93868852, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 30s", "remaining_time": "6h 45m 48s", "loss_scale": 1.0, "consumed_samples": 1976832, "global_step/max_steps": "7722/12700"}
{"lm loss": 2.08875465, "grad_norm": 0.37922198, "learning_rate": 3.834e-05, "elapsed_time_per_iteration": 4.86028004, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 35s", "remaining_time": "6h 45m 44s", "loss_scale": 1.0, "consumed_samples": 1977088, "global_step/max_steps": "7723/12700"}
{"lm loss": 2.04471326, "grad_norm": 0.33961803, "learning_rate": 3.833e-05, "elapsed_time_per_iteration": 4.82120872, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 40s", "remaining_time": "6h 45m 39s", "loss_scale": 1.0, "consumed_samples": 1977344, "global_step/max_steps": "7724/12700"}
{"lm loss": 2.0942347, "grad_norm": 0.35490501, "learning_rate": 3.831e-05, "elapsed_time_per_iteration": 4.89088106, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 45s", "remaining_time": "6h 45m 34s", "loss_scale": 1.0, "consumed_samples": 1977600, "global_step/max_steps": "7725/12700"}
{"lm loss": 2.101403, "grad_norm": 0.35729867, "learning_rate": 3.83e-05, "elapsed_time_per_iteration": 4.93784499, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 50s", "remaining_time": "6h 45m 29s", "loss_scale": 1.0, "consumed_samples": 1977856, "global_step/max_steps": "7726/12700"}
{"lm loss": 2.0830102, "grad_norm": 0.3442232, "learning_rate": 3.829e-05, "elapsed_time_per_iteration": 5.00621748, "memory(GiB)": 28.98, "elapsed_time": "10h 29m 55s", "remaining_time": "6h 45m 24s", "loss_scale": 1.0, "consumed_samples": 1978112, "global_step/max_steps": "7727/12700"}
{"lm loss": 2.08446312, "grad_norm": 0.37040147, "learning_rate": 3.828e-05, "elapsed_time_per_iteration": 4.91714168, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 0s", "remaining_time": "6h 45m 19s", "loss_scale": 1.0, "consumed_samples": 1978368, "global_step/max_steps": "7728/12700"}
{"lm loss": 2.02863717, "grad_norm": 0.34735805, "learning_rate": 3.826e-05, "elapsed_time_per_iteration": 4.88719392, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 5s", "remaining_time": "6h 45m 14s", "loss_scale": 1.0, "consumed_samples": 1978624, "global_step/max_steps": "7729/12700"}
{"lm loss": 2.09354115, "grad_norm": 0.37545344, "learning_rate": 3.825e-05, "elapsed_time_per_iteration": 4.91556859, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 9s", "remaining_time": "6h 45m 9s", "loss_scale": 1.0, "consumed_samples": 1978880, "global_step/max_steps": "7730/12700"}
{"lm loss": 2.07029223, "grad_norm": 0.36147866, "learning_rate": 3.824e-05, "elapsed_time_per_iteration": 5.01498103, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 15s", "remaining_time": "6h 45m 5s", "loss_scale": 1.0, "consumed_samples": 1979136, "global_step/max_steps": "7731/12700"}
{"lm loss": 2.06581235, "grad_norm": 0.33334792, "learning_rate": 3.823e-05, "elapsed_time_per_iteration": 4.8568337, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 19s", "remaining_time": "6h 45m 0s", "loss_scale": 1.0, "consumed_samples": 1979392, "global_step/max_steps": "7732/12700"}
{"lm loss": 2.08524871, "grad_norm": 0.35994154, "learning_rate": 3.822e-05, "elapsed_time_per_iteration": 4.89961672, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 24s", "remaining_time": "6h 44m 55s", "loss_scale": 1.0, "consumed_samples": 1979648, "global_step/max_steps": "7733/12700"}
{"lm loss": 2.06676412, "grad_norm": 0.33661315, "learning_rate": 3.82e-05, "elapsed_time_per_iteration": 4.80120516, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 29s", "remaining_time": "6h 44m 50s", "loss_scale": 1.0, "consumed_samples": 1979904, "global_step/max_steps": "7734/12700"}
{"lm loss": 2.06211877, "grad_norm": 0.34689859, "learning_rate": 3.819e-05, "elapsed_time_per_iteration": 5.03719354, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 34s", "remaining_time": "6h 44m 45s", "loss_scale": 1.0, "consumed_samples": 1980160, "global_step/max_steps": "7735/12700"}
{"lm loss": 2.10162544, "grad_norm": 0.33953252, "learning_rate": 3.818e-05, "elapsed_time_per_iteration": 4.82291532, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 39s", "remaining_time": "6h 44m 40s", "loss_scale": 1.0, "consumed_samples": 1980416, "global_step/max_steps": "7736/12700"}
{"lm loss": 2.07631564, "grad_norm": 0.3642678, "learning_rate": 3.817e-05, "elapsed_time_per_iteration": 4.80512524, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 44s", "remaining_time": "6h 44m 35s", "loss_scale": 1.0, "consumed_samples": 1980672, "global_step/max_steps": "7737/12700"}
{"lm loss": 2.05852079, "grad_norm": 0.35539624, "learning_rate": 3.816e-05, "elapsed_time_per_iteration": 5.0378561, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 49s", "remaining_time": "6h 44m 30s", "loss_scale": 1.0, "consumed_samples": 1980928, "global_step/max_steps": "7738/12700"}
{"lm loss": 2.06384492, "grad_norm": 0.35328397, "learning_rate": 3.814e-05, "elapsed_time_per_iteration": 4.95978403, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 54s", "remaining_time": "6h 44m 26s", "loss_scale": 1.0, "consumed_samples": 1981184, "global_step/max_steps": "7739/12700"}
{"lm loss": 2.09842205, "grad_norm": 0.34640524, "learning_rate": 3.813e-05, "elapsed_time_per_iteration": 4.97069263, "memory(GiB)": 28.98, "elapsed_time": "10h 30m 59s", "remaining_time": "6h 44m 21s", "loss_scale": 1.0, "consumed_samples": 1981440, "global_step/max_steps": "7740/12700"}
{"lm loss": 2.05843472, "grad_norm": 0.34274459, "learning_rate": 3.812e-05, "elapsed_time_per_iteration": 5.0217154, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 4s", "remaining_time": "6h 44m 16s", "loss_scale": 1.0, "consumed_samples": 1981696, "global_step/max_steps": "7741/12700"}
{"lm loss": 2.09601283, "grad_norm": 0.34968266, "learning_rate": 3.811e-05, "elapsed_time_per_iteration": 4.89573383, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 9s", "remaining_time": "6h 44m 11s", "loss_scale": 1.0, "consumed_samples": 1981952, "global_step/max_steps": "7742/12700"}
{"lm loss": 2.08281326, "grad_norm": 0.33373144, "learning_rate": 3.809e-05, "elapsed_time_per_iteration": 4.83888578, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 13s", "remaining_time": "6h 44m 6s", "loss_scale": 1.0, "consumed_samples": 1982208, "global_step/max_steps": "7743/12700"}
{"lm loss": 2.12969208, "grad_norm": 0.33932957, "learning_rate": 3.808e-05, "elapsed_time_per_iteration": 4.84377575, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 18s", "remaining_time": "6h 44m 1s", "loss_scale": 1.0, "consumed_samples": 1982464, "global_step/max_steps": "7744/12700"}
{"lm loss": 2.09364963, "grad_norm": 0.33732161, "learning_rate": 3.807e-05, "elapsed_time_per_iteration": 4.90187836, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 23s", "remaining_time": "6h 43m 56s", "loss_scale": 1.0, "consumed_samples": 1982720, "global_step/max_steps": "7745/12700"}
{"lm loss": 2.08874393, "grad_norm": 0.35335496, "learning_rate": 3.806e-05, "elapsed_time_per_iteration": 4.88920856, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 28s", "remaining_time": "6h 43m 51s", "loss_scale": 1.0, "consumed_samples": 1982976, "global_step/max_steps": "7746/12700"}
{"lm loss": 2.08157253, "grad_norm": 0.33190313, "learning_rate": 3.805e-05, "elapsed_time_per_iteration": 4.98988795, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 33s", "remaining_time": "6h 43m 47s", "loss_scale": 1.0, "consumed_samples": 1983232, "global_step/max_steps": "7747/12700"}
{"lm loss": 2.08761716, "grad_norm": 0.33100763, "learning_rate": 3.803e-05, "elapsed_time_per_iteration": 5.01460004, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 38s", "remaining_time": "6h 43m 42s", "loss_scale": 1.0, "consumed_samples": 1983488, "global_step/max_steps": "7748/12700"}
{"lm loss": 2.05640006, "grad_norm": 0.3661074, "learning_rate": 3.802e-05, "elapsed_time_per_iteration": 5.05686092, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 43s", "remaining_time": "6h 43m 37s", "loss_scale": 1.0, "consumed_samples": 1983744, "global_step/max_steps": "7749/12700"}
{"lm loss": 2.04001427, "grad_norm": 0.33789712, "learning_rate": 3.801e-05, "elapsed_time_per_iteration": 5.26872587, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 48s", "remaining_time": "6h 43m 32s", "loss_scale": 1.0, "consumed_samples": 1984000, "global_step/max_steps": "7750/12700"}
{"lm loss": 2.07665443, "grad_norm": 0.37788305, "learning_rate": 3.8e-05, "elapsed_time_per_iteration": 4.79501653, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 53s", "remaining_time": "6h 43m 27s", "loss_scale": 1.0, "consumed_samples": 1984256, "global_step/max_steps": "7751/12700"}
{"lm loss": 2.06288123, "grad_norm": 0.33158228, "learning_rate": 3.799e-05, "elapsed_time_per_iteration": 4.84635234, "memory(GiB)": 28.98, "elapsed_time": "10h 31m 58s", "remaining_time": "6h 43m 22s", "loss_scale": 1.0, "consumed_samples": 1984512, "global_step/max_steps": "7752/12700"}
{"lm loss": 2.04177952, "grad_norm": 0.35027647, "learning_rate": 3.797e-05, "elapsed_time_per_iteration": 4.83363891, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 3s", "remaining_time": "6h 43m 17s", "loss_scale": 1.0, "consumed_samples": 1984768, "global_step/max_steps": "7753/12700"}
{"lm loss": 2.09835839, "grad_norm": 0.33481893, "learning_rate": 3.796e-05, "elapsed_time_per_iteration": 4.85628057, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 8s", "remaining_time": "6h 43m 13s", "loss_scale": 1.0, "consumed_samples": 1985024, "global_step/max_steps": "7754/12700"}
{"lm loss": 2.08299875, "grad_norm": 0.37557584, "learning_rate": 3.795e-05, "elapsed_time_per_iteration": 4.94585991, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 13s", "remaining_time": "6h 43m 8s", "loss_scale": 1.0, "consumed_samples": 1985280, "global_step/max_steps": "7755/12700"}
{"lm loss": 2.07845211, "grad_norm": 0.34450138, "learning_rate": 3.794e-05, "elapsed_time_per_iteration": 4.97410941, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 18s", "remaining_time": "6h 43m 3s", "loss_scale": 1.0, "consumed_samples": 1985536, "global_step/max_steps": "7756/12700"}
{"lm loss": 2.10013247, "grad_norm": 0.34325916, "learning_rate": 3.792e-05, "elapsed_time_per_iteration": 5.04054189, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 23s", "remaining_time": "6h 42m 58s", "loss_scale": 1.0, "consumed_samples": 1985792, "global_step/max_steps": "7757/12700"}
{"lm loss": 2.08153224, "grad_norm": 0.33369595, "learning_rate": 3.791e-05, "elapsed_time_per_iteration": 5.04529071, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 28s", "remaining_time": "6h 42m 53s", "loss_scale": 1.0, "consumed_samples": 1986048, "global_step/max_steps": "7758/12700"}
{"lm loss": 2.06377029, "grad_norm": 0.3623994, "learning_rate": 3.79e-05, "elapsed_time_per_iteration": 5.00805736, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 33s", "remaining_time": "6h 42m 48s", "loss_scale": 1.0, "consumed_samples": 1986304, "global_step/max_steps": "7759/12700"}
{"lm loss": 2.1065383, "grad_norm": 0.33665308, "learning_rate": 3.789e-05, "elapsed_time_per_iteration": 4.84298444, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 38s", "remaining_time": "6h 42m 44s", "loss_scale": 1.0, "consumed_samples": 1986560, "global_step/max_steps": "7760/12700"}
{"lm loss": 2.05928588, "grad_norm": 0.36182946, "learning_rate": 3.788e-05, "elapsed_time_per_iteration": 4.90566111, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 43s", "remaining_time": "6h 42m 39s", "loss_scale": 1.0, "consumed_samples": 1986816, "global_step/max_steps": "7761/12700"}
{"lm loss": 2.09774613, "grad_norm": 0.32768074, "learning_rate": 3.786e-05, "elapsed_time_per_iteration": 4.88170886, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 47s", "remaining_time": "6h 42m 34s", "loss_scale": 1.0, "consumed_samples": 1987072, "global_step/max_steps": "7762/12700"}
{"lm loss": 2.07716846, "grad_norm": 0.34277114, "learning_rate": 3.785e-05, "elapsed_time_per_iteration": 4.95549107, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 52s", "remaining_time": "6h 42m 29s", "loss_scale": 1.0, "consumed_samples": 1987328, "global_step/max_steps": "7763/12700"}
{"lm loss": 2.04719019, "grad_norm": 0.31446451, "learning_rate": 3.784e-05, "elapsed_time_per_iteration": 5.01723742, "memory(GiB)": 28.98, "elapsed_time": "10h 32m 57s", "remaining_time": "6h 42m 24s", "loss_scale": 1.0, "consumed_samples": 1987584, "global_step/max_steps": "7764/12700"}
{"lm loss": 2.08747125, "grad_norm": 0.3807286, "learning_rate": 3.783e-05, "elapsed_time_per_iteration": 4.99137807, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 2s", "remaining_time": "6h 42m 19s", "loss_scale": 1.0, "consumed_samples": 1987840, "global_step/max_steps": "7765/12700"}
{"lm loss": 2.08083248, "grad_norm": 0.33173183, "learning_rate": 3.782e-05, "elapsed_time_per_iteration": 5.07002687, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 7s", "remaining_time": "6h 42m 15s", "loss_scale": 1.0, "consumed_samples": 1988096, "global_step/max_steps": "7766/12700"}
{"lm loss": 2.07740331, "grad_norm": 0.37365654, "learning_rate": 3.78e-05, "elapsed_time_per_iteration": 5.06289053, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 12s", "remaining_time": "6h 42m 10s", "loss_scale": 1.0, "consumed_samples": 1988352, "global_step/max_steps": "7767/12700"}
{"lm loss": 2.0547204, "grad_norm": 0.36518839, "learning_rate": 3.779e-05, "elapsed_time_per_iteration": 4.96556282, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 17s", "remaining_time": "6h 42m 5s", "loss_scale": 1.0, "consumed_samples": 1988608, "global_step/max_steps": "7768/12700"}
{"lm loss": 2.08493996, "grad_norm": 0.37105078, "learning_rate": 3.778e-05, "elapsed_time_per_iteration": 4.86670041, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 22s", "remaining_time": "6h 42m 0s", "loss_scale": 1.0, "consumed_samples": 1988864, "global_step/max_steps": "7769/12700"}
{"lm loss": 2.09762859, "grad_norm": 0.33884069, "learning_rate": 3.777e-05, "elapsed_time_per_iteration": 4.8373735, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 27s", "remaining_time": "6h 41m 55s", "loss_scale": 1.0, "consumed_samples": 1989120, "global_step/max_steps": "7770/12700"}
{"lm loss": 2.05947948, "grad_norm": 0.37050897, "learning_rate": 3.776e-05, "elapsed_time_per_iteration": 4.82728601, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 32s", "remaining_time": "6h 41m 50s", "loss_scale": 1.0, "consumed_samples": 1989376, "global_step/max_steps": "7771/12700"}
{"lm loss": 2.09286165, "grad_norm": 0.37895313, "learning_rate": 3.774e-05, "elapsed_time_per_iteration": 4.79961705, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 37s", "remaining_time": "6h 41m 45s", "loss_scale": 1.0, "consumed_samples": 1989632, "global_step/max_steps": "7772/12700"}
{"lm loss": 2.10244012, "grad_norm": 0.34535164, "learning_rate": 3.773e-05, "elapsed_time_per_iteration": 4.90276313, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 42s", "remaining_time": "6h 41m 40s", "loss_scale": 1.0, "consumed_samples": 1989888, "global_step/max_steps": "7773/12700"}
{"lm loss": 2.03517342, "grad_norm": 0.35683155, "learning_rate": 3.772e-05, "elapsed_time_per_iteration": 4.98677707, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 47s", "remaining_time": "6h 41m 35s", "loss_scale": 1.0, "consumed_samples": 1990144, "global_step/max_steps": "7774/12700"}
{"lm loss": 2.05541277, "grad_norm": 0.34810978, "learning_rate": 3.771e-05, "elapsed_time_per_iteration": 4.93301201, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 52s", "remaining_time": "6h 41m 31s", "loss_scale": 1.0, "consumed_samples": 1990400, "global_step/max_steps": "7775/12700"}
{"lm loss": 2.06666112, "grad_norm": 0.33968386, "learning_rate": 3.769e-05, "elapsed_time_per_iteration": 5.03073859, "memory(GiB)": 28.98, "elapsed_time": "10h 33m 57s", "remaining_time": "6h 41m 26s", "loss_scale": 1.0, "consumed_samples": 1990656, "global_step/max_steps": "7776/12700"}
{"lm loss": 2.05477738, "grad_norm": 0.333505, "learning_rate": 3.768e-05, "elapsed_time_per_iteration": 4.9388063, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 2s", "remaining_time": "6h 41m 21s", "loss_scale": 1.0, "consumed_samples": 1990912, "global_step/max_steps": "7777/12700"}
{"lm loss": 2.04360414, "grad_norm": 0.33736408, "learning_rate": 3.767e-05, "elapsed_time_per_iteration": 4.95590425, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 7s", "remaining_time": "6h 41m 16s", "loss_scale": 1.0, "consumed_samples": 1991168, "global_step/max_steps": "7778/12700"}
{"lm loss": 2.07950115, "grad_norm": 0.33805802, "learning_rate": 3.766e-05, "elapsed_time_per_iteration": 5.04218507, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 12s", "remaining_time": "6h 41m 11s", "loss_scale": 1.0, "consumed_samples": 1991424, "global_step/max_steps": "7779/12700"}
{"lm loss": 2.0773387, "grad_norm": 0.34180713, "learning_rate": 3.765e-05, "elapsed_time_per_iteration": 4.84025264, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 16s", "remaining_time": "6h 41m 6s", "loss_scale": 1.0, "consumed_samples": 1991680, "global_step/max_steps": "7780/12700"}
{"lm loss": 2.07932305, "grad_norm": 0.34884438, "learning_rate": 3.763e-05, "elapsed_time_per_iteration": 4.75840831, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 21s", "remaining_time": "6h 41m 1s", "loss_scale": 1.0, "consumed_samples": 1991936, "global_step/max_steps": "7781/12700"}
{"lm loss": 2.07691598, "grad_norm": 0.34233156, "learning_rate": 3.762e-05, "elapsed_time_per_iteration": 4.84589171, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 26s", "remaining_time": "6h 40m 56s", "loss_scale": 1.0, "consumed_samples": 1992192, "global_step/max_steps": "7782/12700"}
{"lm loss": 2.09990668, "grad_norm": 0.35178676, "learning_rate": 3.761e-05, "elapsed_time_per_iteration": 4.79657173, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 31s", "remaining_time": "6h 40m 51s", "loss_scale": 1.0, "consumed_samples": 1992448, "global_step/max_steps": "7783/12700"}
{"lm loss": 2.05583572, "grad_norm": 0.33786723, "learning_rate": 3.76e-05, "elapsed_time_per_iteration": 4.88824224, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 36s", "remaining_time": "6h 40m 47s", "loss_scale": 1.0, "consumed_samples": 1992704, "global_step/max_steps": "7784/12700"}
{"lm loss": 2.07446551, "grad_norm": 0.33787686, "learning_rate": 3.759e-05, "elapsed_time_per_iteration": 5.00488448, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 41s", "remaining_time": "6h 40m 42s", "loss_scale": 1.0, "consumed_samples": 1992960, "global_step/max_steps": "7785/12700"}
{"lm loss": 2.10682201, "grad_norm": 0.34895819, "learning_rate": 3.757e-05, "elapsed_time_per_iteration": 5.06573796, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 46s", "remaining_time": "6h 40m 37s", "loss_scale": 1.0, "consumed_samples": 1993216, "global_step/max_steps": "7786/12700"}
{"lm loss": 2.08254409, "grad_norm": 0.36151093, "learning_rate": 3.756e-05, "elapsed_time_per_iteration": 4.98608971, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 51s", "remaining_time": "6h 40m 32s", "loss_scale": 1.0, "consumed_samples": 1993472, "global_step/max_steps": "7787/12700"}
{"lm loss": 2.10312152, "grad_norm": 0.32858813, "learning_rate": 3.755e-05, "elapsed_time_per_iteration": 5.06567359, "memory(GiB)": 28.98, "elapsed_time": "10h 34m 56s", "remaining_time": "6h 40m 27s", "loss_scale": 1.0, "consumed_samples": 1993728, "global_step/max_steps": "7788/12700"}
{"lm loss": 2.10031366, "grad_norm": 0.36190078, "learning_rate": 3.754e-05, "elapsed_time_per_iteration": 5.07205224, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 1s", "remaining_time": "6h 40m 23s", "loss_scale": 1.0, "consumed_samples": 1993984, "global_step/max_steps": "7789/12700"}
{"lm loss": 2.0678308, "grad_norm": 0.35108384, "learning_rate": 3.753e-05, "elapsed_time_per_iteration": 4.83549523, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 6s", "remaining_time": "6h 40m 18s", "loss_scale": 1.0, "consumed_samples": 1994240, "global_step/max_steps": "7790/12700"}
{"lm loss": 2.09813619, "grad_norm": 0.33439881, "learning_rate": 3.751e-05, "elapsed_time_per_iteration": 4.8918345, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 11s", "remaining_time": "6h 40m 13s", "loss_scale": 1.0, "consumed_samples": 1994496, "global_step/max_steps": "7791/12700"}
{"lm loss": 2.10207081, "grad_norm": 0.34263694, "learning_rate": 3.75e-05, "elapsed_time_per_iteration": 4.82293797, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 15s", "remaining_time": "6h 40m 8s", "loss_scale": 1.0, "consumed_samples": 1994752, "global_step/max_steps": "7792/12700"}
{"lm loss": 2.08985782, "grad_norm": 0.34507123, "learning_rate": 3.749e-05, "elapsed_time_per_iteration": 4.96246862, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 20s", "remaining_time": "6h 40m 3s", "loss_scale": 1.0, "consumed_samples": 1995008, "global_step/max_steps": "7793/12700"}
{"lm loss": 2.07151747, "grad_norm": 0.36186117, "learning_rate": 3.748e-05, "elapsed_time_per_iteration": 4.95742512, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 25s", "remaining_time": "6h 39m 58s", "loss_scale": 1.0, "consumed_samples": 1995264, "global_step/max_steps": "7794/12700"}
{"lm loss": 2.02334857, "grad_norm": 0.34209174, "learning_rate": 3.746e-05, "elapsed_time_per_iteration": 5.04377317, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 30s", "remaining_time": "6h 39m 53s", "loss_scale": 1.0, "consumed_samples": 1995520, "global_step/max_steps": "7795/12700"}
{"lm loss": 2.07726479, "grad_norm": 0.37643635, "learning_rate": 3.745e-05, "elapsed_time_per_iteration": 4.9732039, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 35s", "remaining_time": "6h 39m 49s", "loss_scale": 1.0, "consumed_samples": 1995776, "global_step/max_steps": "7796/12700"}
{"lm loss": 2.04237747, "grad_norm": 0.35514691, "learning_rate": 3.744e-05, "elapsed_time_per_iteration": 5.05153251, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 40s", "remaining_time": "6h 39m 44s", "loss_scale": 1.0, "consumed_samples": 1996032, "global_step/max_steps": "7797/12700"}
{"lm loss": 2.07277656, "grad_norm": 0.36717615, "learning_rate": 3.743e-05, "elapsed_time_per_iteration": 5.11293268, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 46s", "remaining_time": "6h 39m 39s", "loss_scale": 1.0, "consumed_samples": 1996288, "global_step/max_steps": "7798/12700"}
{"lm loss": 2.0881052, "grad_norm": 0.35191953, "learning_rate": 3.742e-05, "elapsed_time_per_iteration": 4.9504416, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 51s", "remaining_time": "6h 39m 34s", "loss_scale": 1.0, "consumed_samples": 1996544, "global_step/max_steps": "7799/12700"}
{"lm loss": 2.09295344, "grad_norm": 0.38035503, "learning_rate": 3.74e-05, "elapsed_time_per_iteration": 4.93124104, "memory(GiB)": 28.98, "elapsed_time": "10h 35m 55s", "remaining_time": "6h 39m 29s", "loss_scale": 1.0, "consumed_samples": 1996800, "global_step/max_steps": "7800/12700"}
{"lm loss": 2.10182714, "grad_norm": 0.33853158, "learning_rate": 3.739e-05, "elapsed_time_per_iteration": 4.87844968, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 0s", "remaining_time": "6h 39m 24s", "loss_scale": 1.0, "consumed_samples": 1997056, "global_step/max_steps": "7801/12700"}
{"lm loss": 2.10093617, "grad_norm": 0.37948608, "learning_rate": 3.738e-05, "elapsed_time_per_iteration": 5.11373997, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 5s", "remaining_time": "6h 39m 20s", "loss_scale": 1.0, "consumed_samples": 1997312, "global_step/max_steps": "7802/12700"}
{"lm loss": 2.04593515, "grad_norm": 0.34224594, "learning_rate": 3.737e-05, "elapsed_time_per_iteration": 4.99477267, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 10s", "remaining_time": "6h 39m 15s", "loss_scale": 1.0, "consumed_samples": 1997568, "global_step/max_steps": "7803/12700"}
{"lm loss": 2.10656404, "grad_norm": 0.36785313, "learning_rate": 3.736e-05, "elapsed_time_per_iteration": 5.08531237, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 16s", "remaining_time": "6h 39m 10s", "loss_scale": 1.0, "consumed_samples": 1997824, "global_step/max_steps": "7804/12700"}
{"lm loss": 2.10139942, "grad_norm": 0.38396159, "learning_rate": 3.734e-05, "elapsed_time_per_iteration": 4.91114402, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 20s", "remaining_time": "6h 39m 5s", "loss_scale": 1.0, "consumed_samples": 1998080, "global_step/max_steps": "7805/12700"}
{"lm loss": 2.08179736, "grad_norm": 0.35852292, "learning_rate": 3.733e-05, "elapsed_time_per_iteration": 4.91264606, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 25s", "remaining_time": "6h 39m 0s", "loss_scale": 1.0, "consumed_samples": 1998336, "global_step/max_steps": "7806/12700"}
{"lm loss": 2.09596753, "grad_norm": 0.36155012, "learning_rate": 3.732e-05, "elapsed_time_per_iteration": 4.76934505, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 30s", "remaining_time": "6h 38m 55s", "loss_scale": 1.0, "consumed_samples": 1998592, "global_step/max_steps": "7807/12700"}
{"lm loss": 2.08736515, "grad_norm": 0.36176619, "learning_rate": 3.731e-05, "elapsed_time_per_iteration": 4.89395905, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 35s", "remaining_time": "6h 38m 50s", "loss_scale": 1.0, "consumed_samples": 1998848, "global_step/max_steps": "7808/12700"}
{"lm loss": 2.07852626, "grad_norm": 0.37321267, "learning_rate": 3.73e-05, "elapsed_time_per_iteration": 4.89399529, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 40s", "remaining_time": "6h 38m 45s", "loss_scale": 1.0, "consumed_samples": 1999104, "global_step/max_steps": "7809/12700"}
{"lm loss": 2.09651017, "grad_norm": 0.34592155, "learning_rate": 3.728e-05, "elapsed_time_per_iteration": 4.83764696, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 45s", "remaining_time": "6h 38m 41s", "loss_scale": 1.0, "consumed_samples": 1999360, "global_step/max_steps": "7810/12700"}
{"lm loss": 2.04750633, "grad_norm": 0.32881016, "learning_rate": 3.727e-05, "elapsed_time_per_iteration": 4.85696578, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 50s", "remaining_time": "6h 38m 36s", "loss_scale": 1.0, "consumed_samples": 1999616, "global_step/max_steps": "7811/12700"}
{"lm loss": 2.07841444, "grad_norm": 0.38982487, "learning_rate": 3.726e-05, "elapsed_time_per_iteration": 5.14924169, "memory(GiB)": 28.98, "elapsed_time": "10h 36m 55s", "remaining_time": "6h 38m 31s", "loss_scale": 1.0, "consumed_samples": 1999872, "global_step/max_steps": "7812/12700"}
{"lm loss": 2.06258416, "grad_norm": 0.39343125, "learning_rate": 3.725e-05, "elapsed_time_per_iteration": 4.99406409, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 0s", "remaining_time": "6h 38m 26s", "loss_scale": 1.0, "consumed_samples": 2000128, "global_step/max_steps": "7813/12700"}
{"lm loss": 2.08596635, "grad_norm": 0.34719405, "learning_rate": 3.724e-05, "elapsed_time_per_iteration": 5.02048373, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 5s", "remaining_time": "6h 38m 21s", "loss_scale": 1.0, "consumed_samples": 2000384, "global_step/max_steps": "7814/12700"}
{"lm loss": 2.02829576, "grad_norm": 0.35607058, "learning_rate": 3.722e-05, "elapsed_time_per_iteration": 4.93218827, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 10s", "remaining_time": "6h 38m 16s", "loss_scale": 1.0, "consumed_samples": 2000640, "global_step/max_steps": "7815/12700"}
{"lm loss": 2.07459402, "grad_norm": 0.38341388, "learning_rate": 3.721e-05, "elapsed_time_per_iteration": 4.80071068, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 14s", "remaining_time": "6h 38m 11s", "loss_scale": 1.0, "consumed_samples": 2000896, "global_step/max_steps": "7816/12700"}
{"lm loss": 2.0760901, "grad_norm": 0.36699501, "learning_rate": 3.72e-05, "elapsed_time_per_iteration": 4.77008009, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 19s", "remaining_time": "6h 38m 7s", "loss_scale": 1.0, "consumed_samples": 2001152, "global_step/max_steps": "7817/12700"}
{"lm loss": 2.08601427, "grad_norm": 0.36381459, "learning_rate": 3.719e-05, "elapsed_time_per_iteration": 5.0088129, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 24s", "remaining_time": "6h 38m 2s", "loss_scale": 1.0, "consumed_samples": 2001408, "global_step/max_steps": "7818/12700"}
{"lm loss": 2.07910132, "grad_norm": 0.33177131, "learning_rate": 3.717e-05, "elapsed_time_per_iteration": 4.80495, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 29s", "remaining_time": "6h 37m 57s", "loss_scale": 1.0, "consumed_samples": 2001664, "global_step/max_steps": "7819/12700"}
{"lm loss": 2.08335996, "grad_norm": 0.36872128, "learning_rate": 3.716e-05, "elapsed_time_per_iteration": 4.88581848, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 34s", "remaining_time": "6h 37m 52s", "loss_scale": 1.0, "consumed_samples": 2001920, "global_step/max_steps": "7820/12700"}
{"lm loss": 2.05834365, "grad_norm": 0.35016206, "learning_rate": 3.715e-05, "elapsed_time_per_iteration": 5.00295186, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 39s", "remaining_time": "6h 37m 47s", "loss_scale": 1.0, "consumed_samples": 2002176, "global_step/max_steps": "7821/12700"}
{"lm loss": 2.08263183, "grad_norm": 0.34674811, "learning_rate": 3.714e-05, "elapsed_time_per_iteration": 4.98736572, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 44s", "remaining_time": "6h 37m 42s", "loss_scale": 1.0, "consumed_samples": 2002432, "global_step/max_steps": "7822/12700"}
{"lm loss": 2.09479761, "grad_norm": 0.34043467, "learning_rate": 3.713e-05, "elapsed_time_per_iteration": 4.98406339, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 49s", "remaining_time": "6h 37m 37s", "loss_scale": 1.0, "consumed_samples": 2002688, "global_step/max_steps": "7823/12700"}
{"lm loss": 2.06327724, "grad_norm": 0.3703559, "learning_rate": 3.711e-05, "elapsed_time_per_iteration": 4.97261834, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 54s", "remaining_time": "6h 37m 33s", "loss_scale": 1.0, "consumed_samples": 2002944, "global_step/max_steps": "7824/12700"}
{"lm loss": 2.09709907, "grad_norm": 0.34786713, "learning_rate": 3.71e-05, "elapsed_time_per_iteration": 4.8820138, "memory(GiB)": 28.98, "elapsed_time": "10h 37m 59s", "remaining_time": "6h 37m 28s", "loss_scale": 1.0, "consumed_samples": 2003200, "global_step/max_steps": "7825/12700"}
{"lm loss": 2.06331754, "grad_norm": 0.35669589, "learning_rate": 3.709e-05, "elapsed_time_per_iteration": 4.8461194, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 4s", "remaining_time": "6h 37m 23s", "loss_scale": 1.0, "consumed_samples": 2003456, "global_step/max_steps": "7826/12700"}
{"lm loss": 2.07882023, "grad_norm": 0.36217406, "learning_rate": 3.708e-05, "elapsed_time_per_iteration": 4.89714956, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 9s", "remaining_time": "6h 37m 18s", "loss_scale": 1.0, "consumed_samples": 2003712, "global_step/max_steps": "7827/12700"}
{"lm loss": 2.03130865, "grad_norm": 0.32991877, "learning_rate": 3.707e-05, "elapsed_time_per_iteration": 4.91125107, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 13s", "remaining_time": "6h 37m 13s", "loss_scale": 1.0, "consumed_samples": 2003968, "global_step/max_steps": "7828/12700"}
{"lm loss": 2.05419803, "grad_norm": 0.33558968, "learning_rate": 3.705e-05, "elapsed_time_per_iteration": 4.84398484, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 18s", "remaining_time": "6h 37m 8s", "loss_scale": 1.0, "consumed_samples": 2004224, "global_step/max_steps": "7829/12700"}
{"lm loss": 2.11801076, "grad_norm": 0.34208617, "learning_rate": 3.704e-05, "elapsed_time_per_iteration": 4.8218832, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 23s", "remaining_time": "6h 37m 3s", "loss_scale": 1.0, "consumed_samples": 2004480, "global_step/max_steps": "7830/12700"}
{"lm loss": 2.04728341, "grad_norm": 0.36719307, "learning_rate": 3.703e-05, "elapsed_time_per_iteration": 4.89856434, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 28s", "remaining_time": "6h 36m 58s", "loss_scale": 1.0, "consumed_samples": 2004736, "global_step/max_steps": "7831/12700"}
{"lm loss": 2.08404398, "grad_norm": 0.37243995, "learning_rate": 3.702e-05, "elapsed_time_per_iteration": 5.00765848, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 33s", "remaining_time": "6h 36m 53s", "loss_scale": 1.0, "consumed_samples": 2004992, "global_step/max_steps": "7832/12700"}
{"lm loss": 2.08811378, "grad_norm": 0.33226761, "learning_rate": 3.701e-05, "elapsed_time_per_iteration": 5.0291338, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 38s", "remaining_time": "6h 36m 49s", "loss_scale": 1.0, "consumed_samples": 2005248, "global_step/max_steps": "7833/12700"}
{"lm loss": 2.10176539, "grad_norm": 0.3717947, "learning_rate": 3.699e-05, "elapsed_time_per_iteration": 5.06060648, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 43s", "remaining_time": "6h 36m 44s", "loss_scale": 1.0, "consumed_samples": 2005504, "global_step/max_steps": "7834/12700"}
{"lm loss": 2.07991123, "grad_norm": 0.34905028, "learning_rate": 3.698e-05, "elapsed_time_per_iteration": 4.99326706, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 48s", "remaining_time": "6h 36m 39s", "loss_scale": 1.0, "consumed_samples": 2005760, "global_step/max_steps": "7835/12700"}
{"lm loss": 2.05454946, "grad_norm": 0.36905605, "learning_rate": 3.697e-05, "elapsed_time_per_iteration": 4.93027091, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 53s", "remaining_time": "6h 36m 34s", "loss_scale": 1.0, "consumed_samples": 2006016, "global_step/max_steps": "7836/12700"}
{"lm loss": 2.06747437, "grad_norm": 0.36015561, "learning_rate": 3.696e-05, "elapsed_time_per_iteration": 4.80346513, "memory(GiB)": 28.98, "elapsed_time": "10h 38m 58s", "remaining_time": "6h 36m 29s", "loss_scale": 1.0, "consumed_samples": 2006272, "global_step/max_steps": "7837/12700"}
{"lm loss": 2.08471107, "grad_norm": 0.3519538, "learning_rate": 3.695e-05, "elapsed_time_per_iteration": 4.85594821, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 3s", "remaining_time": "6h 36m 24s", "loss_scale": 1.0, "consumed_samples": 2006528, "global_step/max_steps": "7838/12700"}
{"lm loss": 2.07541251, "grad_norm": 0.36714914, "learning_rate": 3.693e-05, "elapsed_time_per_iteration": 4.95405674, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 8s", "remaining_time": "6h 36m 19s", "loss_scale": 1.0, "consumed_samples": 2006784, "global_step/max_steps": "7839/12700"}
{"lm loss": 2.08893633, "grad_norm": 0.36765802, "learning_rate": 3.692e-05, "elapsed_time_per_iteration": 4.84172153, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 12s", "remaining_time": "6h 36m 14s", "loss_scale": 1.0, "consumed_samples": 2007040, "global_step/max_steps": "7840/12700"}
{"lm loss": 2.08871007, "grad_norm": 0.35202423, "learning_rate": 3.691e-05, "elapsed_time_per_iteration": 5.29376793, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 18s", "remaining_time": "6h 36m 10s", "loss_scale": 1.0, "consumed_samples": 2007296, "global_step/max_steps": "7841/12700"}
{"lm loss": 2.07001138, "grad_norm": 0.39107853, "learning_rate": 3.69e-05, "elapsed_time_per_iteration": 4.98074055, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 23s", "remaining_time": "6h 36m 5s", "loss_scale": 1.0, "consumed_samples": 2007552, "global_step/max_steps": "7842/12700"}
{"lm loss": 2.06757784, "grad_norm": 0.34482974, "learning_rate": 3.689e-05, "elapsed_time_per_iteration": 5.03850222, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 28s", "remaining_time": "6h 36m 0s", "loss_scale": 1.0, "consumed_samples": 2007808, "global_step/max_steps": "7843/12700"}
{"lm loss": 2.09192753, "grad_norm": 0.40611243, "learning_rate": 3.687e-05, "elapsed_time_per_iteration": 5.09013295, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 33s", "remaining_time": "6h 35m 55s", "loss_scale": 1.0, "consumed_samples": 2008064, "global_step/max_steps": "7844/12700"}
{"lm loss": 2.08833098, "grad_norm": 0.34547302, "learning_rate": 3.686e-05, "elapsed_time_per_iteration": 4.99901032, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 38s", "remaining_time": "6h 35m 51s", "loss_scale": 1.0, "consumed_samples": 2008320, "global_step/max_steps": "7845/12700"}
{"lm loss": 2.07332659, "grad_norm": 0.39978498, "learning_rate": 3.685e-05, "elapsed_time_per_iteration": 4.98841166, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 43s", "remaining_time": "6h 35m 46s", "loss_scale": 1.0, "consumed_samples": 2008576, "global_step/max_steps": "7846/12700"}
{"lm loss": 2.0769639, "grad_norm": 0.40196121, "learning_rate": 3.684e-05, "elapsed_time_per_iteration": 4.82280231, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 48s", "remaining_time": "6h 35m 41s", "loss_scale": 1.0, "consumed_samples": 2008832, "global_step/max_steps": "7847/12700"}
{"lm loss": 2.05708766, "grad_norm": 0.42897597, "learning_rate": 3.683e-05, "elapsed_time_per_iteration": 5.04065466, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 53s", "remaining_time": "6h 35m 36s", "loss_scale": 1.0, "consumed_samples": 2009088, "global_step/max_steps": "7848/12700"}
{"lm loss": 2.04473567, "grad_norm": 0.34123915, "learning_rate": 3.681e-05, "elapsed_time_per_iteration": 5.09542012, "memory(GiB)": 28.98, "elapsed_time": "10h 39m 58s", "remaining_time": "6h 35m 31s", "loss_scale": 1.0, "consumed_samples": 2009344, "global_step/max_steps": "7849/12700"}
{"lm loss": 2.07549119, "grad_norm": 0.39424852, "learning_rate": 3.68e-05, "elapsed_time_per_iteration": 4.90574503, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 3s", "remaining_time": "6h 35m 26s", "loss_scale": 1.0, "consumed_samples": 2009600, "global_step/max_steps": "7850/12700"}
{"lm loss": 2.07170081, "grad_norm": 0.39072952, "learning_rate": 3.679e-05, "elapsed_time_per_iteration": 4.99462605, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 8s", "remaining_time": "6h 35m 22s", "loss_scale": 1.0, "consumed_samples": 2009856, "global_step/max_steps": "7851/12700"}
{"lm loss": 2.08311701, "grad_norm": 0.35999429, "learning_rate": 3.678e-05, "elapsed_time_per_iteration": 4.90500283, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 13s", "remaining_time": "6h 35m 17s", "loss_scale": 1.0, "consumed_samples": 2010112, "global_step/max_steps": "7852/12700"}
{"lm loss": 2.08341026, "grad_norm": 0.33545846, "learning_rate": 3.677e-05, "elapsed_time_per_iteration": 4.95276928, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 18s", "remaining_time": "6h 35m 12s", "loss_scale": 1.0, "consumed_samples": 2010368, "global_step/max_steps": "7853/12700"}
{"lm loss": 2.10708141, "grad_norm": 0.37403709, "learning_rate": 3.675e-05, "elapsed_time_per_iteration": 4.92104983, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 23s", "remaining_time": "6h 35m 7s", "loss_scale": 1.0, "consumed_samples": 2010624, "global_step/max_steps": "7854/12700"}
{"lm loss": 2.07435751, "grad_norm": 0.37860385, "learning_rate": 3.674e-05, "elapsed_time_per_iteration": 4.82672715, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 27s", "remaining_time": "6h 35m 2s", "loss_scale": 1.0, "consumed_samples": 2010880, "global_step/max_steps": "7855/12700"}
{"lm loss": 2.09284377, "grad_norm": 0.38276041, "learning_rate": 3.673e-05, "elapsed_time_per_iteration": 4.91627216, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 32s", "remaining_time": "6h 34m 57s", "loss_scale": 1.0, "consumed_samples": 2011136, "global_step/max_steps": "7856/12700"}
{"lm loss": 2.08150029, "grad_norm": 0.38803479, "learning_rate": 3.672e-05, "elapsed_time_per_iteration": 4.85217977, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 37s", "remaining_time": "6h 34m 52s", "loss_scale": 1.0, "consumed_samples": 2011392, "global_step/max_steps": "7857/12700"}
{"lm loss": 2.08350086, "grad_norm": 0.35201055, "learning_rate": 3.67e-05, "elapsed_time_per_iteration": 4.93992591, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 42s", "remaining_time": "6h 34m 47s", "loss_scale": 1.0, "consumed_samples": 2011648, "global_step/max_steps": "7858/12700"}
{"lm loss": 2.08152294, "grad_norm": 0.35414842, "learning_rate": 3.669e-05, "elapsed_time_per_iteration": 4.97702503, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 47s", "remaining_time": "6h 34m 42s", "loss_scale": 1.0, "consumed_samples": 2011904, "global_step/max_steps": "7859/12700"}
{"lm loss": 2.08708286, "grad_norm": 0.36910933, "learning_rate": 3.668e-05, "elapsed_time_per_iteration": 5.06323981, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 52s", "remaining_time": "6h 34m 38s", "loss_scale": 1.0, "consumed_samples": 2012160, "global_step/max_steps": "7860/12700"}
{"lm loss": 2.0961163, "grad_norm": 0.3819271, "learning_rate": 3.667e-05, "elapsed_time_per_iteration": 5.04042482, "memory(GiB)": 28.98, "elapsed_time": "10h 40m 57s", "remaining_time": "6h 34m 33s", "loss_scale": 1.0, "consumed_samples": 2012416, "global_step/max_steps": "7861/12700"}
{"lm loss": 2.06751609, "grad_norm": 0.33839148, "learning_rate": 3.666e-05, "elapsed_time_per_iteration": 4.97130704, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 2s", "remaining_time": "6h 34m 28s", "loss_scale": 1.0, "consumed_samples": 2012672, "global_step/max_steps": "7862/12700"}
{"lm loss": 2.1081965, "grad_norm": 0.38874516, "learning_rate": 3.664e-05, "elapsed_time_per_iteration": 5.06806755, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 7s", "remaining_time": "6h 34m 23s", "loss_scale": 1.0, "consumed_samples": 2012928, "global_step/max_steps": "7863/12700"}
{"lm loss": 2.08497024, "grad_norm": 0.37296864, "learning_rate": 3.663e-05, "elapsed_time_per_iteration": 5.21690464, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 12s", "remaining_time": "6h 34m 19s", "loss_scale": 1.0, "consumed_samples": 2013184, "global_step/max_steps": "7864/12700"}
{"lm loss": 2.09171152, "grad_norm": 0.34402761, "learning_rate": 3.662e-05, "elapsed_time_per_iteration": 5.17969322, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 18s", "remaining_time": "6h 34m 14s", "loss_scale": 1.0, "consumed_samples": 2013440, "global_step/max_steps": "7865/12700"}
{"lm loss": 2.05367184, "grad_norm": 0.35915416, "learning_rate": 3.661e-05, "elapsed_time_per_iteration": 4.98713231, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 23s", "remaining_time": "6h 34m 9s", "loss_scale": 1.0, "consumed_samples": 2013696, "global_step/max_steps": "7866/12700"}
{"lm loss": 2.08282375, "grad_norm": 0.35936138, "learning_rate": 3.66e-05, "elapsed_time_per_iteration": 4.87480617, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 27s", "remaining_time": "6h 34m 4s", "loss_scale": 1.0, "consumed_samples": 2013952, "global_step/max_steps": "7867/12700"}
{"lm loss": 2.04281831, "grad_norm": 0.36661807, "learning_rate": 3.658e-05, "elapsed_time_per_iteration": 4.83800864, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 32s", "remaining_time": "6h 33m 59s", "loss_scale": 1.0, "consumed_samples": 2014208, "global_step/max_steps": "7868/12700"}
{"lm loss": 2.09946704, "grad_norm": 0.3439979, "learning_rate": 3.657e-05, "elapsed_time_per_iteration": 4.88844085, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 37s", "remaining_time": "6h 33m 54s", "loss_scale": 1.0, "consumed_samples": 2014464, "global_step/max_steps": "7869/12700"}
{"lm loss": 2.09853053, "grad_norm": 0.37696779, "learning_rate": 3.656e-05, "elapsed_time_per_iteration": 5.20043516, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 42s", "remaining_time": "6h 33m 50s", "loss_scale": 1.0, "consumed_samples": 2014720, "global_step/max_steps": "7870/12700"}
{"lm loss": 2.09945869, "grad_norm": 0.37453327, "learning_rate": 3.655e-05, "elapsed_time_per_iteration": 5.02124763, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 47s", "remaining_time": "6h 33m 45s", "loss_scale": 1.0, "consumed_samples": 2014976, "global_step/max_steps": "7871/12700"}
{"lm loss": 2.10588336, "grad_norm": 0.35923633, "learning_rate": 3.654e-05, "elapsed_time_per_iteration": 5.00793767, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 52s", "remaining_time": "6h 33m 40s", "loss_scale": 1.0, "consumed_samples": 2015232, "global_step/max_steps": "7872/12700"}
{"lm loss": 2.07715297, "grad_norm": 0.3590757, "learning_rate": 3.652e-05, "elapsed_time_per_iteration": 5.01072693, "memory(GiB)": 28.98, "elapsed_time": "10h 41m 57s", "remaining_time": "6h 33m 35s", "loss_scale": 1.0, "consumed_samples": 2015488, "global_step/max_steps": "7873/12700"}
{"lm loss": 2.09182, "grad_norm": 0.3640185, "learning_rate": 3.651e-05, "elapsed_time_per_iteration": 4.89691544, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 2s", "remaining_time": "6h 33m 30s", "loss_scale": 1.0, "consumed_samples": 2015744, "global_step/max_steps": "7874/12700"}
{"lm loss": 2.04763198, "grad_norm": 0.36680129, "learning_rate": 3.65e-05, "elapsed_time_per_iteration": 5.0355041, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 7s", "remaining_time": "6h 33m 25s", "loss_scale": 1.0, "consumed_samples": 2016000, "global_step/max_steps": "7875/12700"}
{"lm loss": 2.09550214, "grad_norm": 0.33502463, "learning_rate": 3.649e-05, "elapsed_time_per_iteration": 4.98301339, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 12s", "remaining_time": "6h 33m 21s", "loss_scale": 1.0, "consumed_samples": 2016256, "global_step/max_steps": "7876/12700"}
{"lm loss": 2.07812405, "grad_norm": 0.37163112, "learning_rate": 3.648e-05, "elapsed_time_per_iteration": 4.96696353, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 17s", "remaining_time": "6h 33m 16s", "loss_scale": 1.0, "consumed_samples": 2016512, "global_step/max_steps": "7877/12700"}
{"lm loss": 2.05428147, "grad_norm": 0.33917999, "learning_rate": 3.646e-05, "elapsed_time_per_iteration": 4.85950732, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 22s", "remaining_time": "6h 33m 11s", "loss_scale": 1.0, "consumed_samples": 2016768, "global_step/max_steps": "7878/12700"}
{"lm loss": 2.07941413, "grad_norm": 0.39315343, "learning_rate": 3.645e-05, "elapsed_time_per_iteration": 4.8841145, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 27s", "remaining_time": "6h 33m 6s", "loss_scale": 1.0, "consumed_samples": 2017024, "global_step/max_steps": "7879/12700"}
{"lm loss": 2.09026933, "grad_norm": 0.32883164, "learning_rate": 3.644e-05, "elapsed_time_per_iteration": 5.16039348, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 32s", "remaining_time": "6h 33m 1s", "loss_scale": 1.0, "consumed_samples": 2017280, "global_step/max_steps": "7880/12700"}
{"lm loss": 2.06581926, "grad_norm": 0.36135525, "learning_rate": 3.643e-05, "elapsed_time_per_iteration": 5.24507976, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 37s", "remaining_time": "6h 32m 57s", "loss_scale": 1.0, "consumed_samples": 2017536, "global_step/max_steps": "7881/12700"}
{"lm loss": 2.08641505, "grad_norm": 0.36096877, "learning_rate": 3.642e-05, "elapsed_time_per_iteration": 4.97426152, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 42s", "remaining_time": "6h 32m 52s", "loss_scale": 1.0, "consumed_samples": 2017792, "global_step/max_steps": "7882/12700"}
{"lm loss": 2.05505347, "grad_norm": 0.38571462, "learning_rate": 3.64e-05, "elapsed_time_per_iteration": 4.86462688, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 47s", "remaining_time": "6h 32m 47s", "loss_scale": 1.0, "consumed_samples": 2018048, "global_step/max_steps": "7883/12700"}
{"lm loss": 2.09986591, "grad_norm": 0.35234886, "learning_rate": 3.639e-05, "elapsed_time_per_iteration": 5.02157497, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 52s", "remaining_time": "6h 32m 42s", "loss_scale": 1.0, "consumed_samples": 2018304, "global_step/max_steps": "7884/12700"}
{"lm loss": 2.09779835, "grad_norm": 0.36985612, "learning_rate": 3.638e-05, "elapsed_time_per_iteration": 5.20037317, "memory(GiB)": 28.98, "elapsed_time": "10h 42m 57s", "remaining_time": "6h 32m 37s", "loss_scale": 1.0, "consumed_samples": 2018560, "global_step/max_steps": "7885/12700"}
{"lm loss": 2.07112098, "grad_norm": 0.34950501, "learning_rate": 3.637e-05, "elapsed_time_per_iteration": 5.0225997, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 2s", "remaining_time": "6h 32m 32s", "loss_scale": 1.0, "consumed_samples": 2018816, "global_step/max_steps": "7886/12700"}
{"lm loss": 2.09280109, "grad_norm": 0.34250808, "learning_rate": 3.636e-05, "elapsed_time_per_iteration": 4.92241192, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 7s", "remaining_time": "6h 32m 28s", "loss_scale": 1.0, "consumed_samples": 2019072, "global_step/max_steps": "7887/12700"}
{"lm loss": 2.05136681, "grad_norm": 0.36038762, "learning_rate": 3.634e-05, "elapsed_time_per_iteration": 4.85762429, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 12s", "remaining_time": "6h 32m 23s", "loss_scale": 1.0, "consumed_samples": 2019328, "global_step/max_steps": "7888/12700"}
{"lm loss": 2.07818413, "grad_norm": 0.35085648, "learning_rate": 3.633e-05, "elapsed_time_per_iteration": 4.9397862, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 17s", "remaining_time": "6h 32m 18s", "loss_scale": 1.0, "consumed_samples": 2019584, "global_step/max_steps": "7889/12700"}
{"lm loss": 2.05754089, "grad_norm": 0.34976661, "learning_rate": 3.632e-05, "elapsed_time_per_iteration": 5.01477456, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 22s", "remaining_time": "6h 32m 13s", "loss_scale": 1.0, "consumed_samples": 2019840, "global_step/max_steps": "7890/12700"}
{"lm loss": 2.08120823, "grad_norm": 0.351437, "learning_rate": 3.631e-05, "elapsed_time_per_iteration": 5.23584104, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 27s", "remaining_time": "6h 32m 8s", "loss_scale": 1.0, "consumed_samples": 2020096, "global_step/max_steps": "7891/12700"}
{"lm loss": 2.10631776, "grad_norm": 0.36639675, "learning_rate": 3.63e-05, "elapsed_time_per_iteration": 4.85927606, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 32s", "remaining_time": "6h 32m 3s", "loss_scale": 1.0, "consumed_samples": 2020352, "global_step/max_steps": "7892/12700"}
{"lm loss": 2.09449077, "grad_norm": 0.35218754, "learning_rate": 3.628e-05, "elapsed_time_per_iteration": 4.97151828, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 37s", "remaining_time": "6h 31m 59s", "loss_scale": 1.0, "consumed_samples": 2020608, "global_step/max_steps": "7893/12700"}
{"lm loss": 2.05848765, "grad_norm": 0.33323047, "learning_rate": 3.627e-05, "elapsed_time_per_iteration": 5.07712483, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 42s", "remaining_time": "6h 31m 54s", "loss_scale": 1.0, "consumed_samples": 2020864, "global_step/max_steps": "7894/12700"}
{"lm loss": 2.07167816, "grad_norm": 0.36209211, "learning_rate": 3.626e-05, "elapsed_time_per_iteration": 4.9419632, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 47s", "remaining_time": "6h 31m 49s", "loss_scale": 1.0, "consumed_samples": 2021120, "global_step/max_steps": "7895/12700"}
{"lm loss": 2.08601809, "grad_norm": 0.37197021, "learning_rate": 3.625e-05, "elapsed_time_per_iteration": 4.93250942, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 52s", "remaining_time": "6h 31m 44s", "loss_scale": 1.0, "consumed_samples": 2021376, "global_step/max_steps": "7896/12700"}
{"lm loss": 2.0603981, "grad_norm": 0.34571177, "learning_rate": 3.624e-05, "elapsed_time_per_iteration": 4.83765173, "memory(GiB)": 28.98, "elapsed_time": "10h 43m 57s", "remaining_time": "6h 31m 39s", "loss_scale": 1.0, "consumed_samples": 2021632, "global_step/max_steps": "7897/12700"}
{"lm loss": 2.04874897, "grad_norm": 0.33371282, "learning_rate": 3.622e-05, "elapsed_time_per_iteration": 4.9310956, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 2s", "remaining_time": "6h 31m 34s", "loss_scale": 1.0, "consumed_samples": 2021888, "global_step/max_steps": "7898/12700"}
{"lm loss": 2.07066917, "grad_norm": 0.3564499, "learning_rate": 3.621e-05, "elapsed_time_per_iteration": 4.97213626, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 7s", "remaining_time": "6h 31m 29s", "loss_scale": 1.0, "consumed_samples": 2022144, "global_step/max_steps": "7899/12700"}
{"lm loss": 2.06241179, "grad_norm": 0.33674949, "learning_rate": 3.62e-05, "elapsed_time_per_iteration": 5.02513003, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 12s", "remaining_time": "6h 31m 25s", "loss_scale": 1.0, "consumed_samples": 2022400, "global_step/max_steps": "7900/12700"}
{"lm loss": 2.06843448, "grad_norm": 0.36011678, "learning_rate": 3.619e-05, "elapsed_time_per_iteration": 5.12209463, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 17s", "remaining_time": "6h 31m 20s", "loss_scale": 1.0, "consumed_samples": 2022656, "global_step/max_steps": "7901/12700"}
{"lm loss": 2.0659256, "grad_norm": 0.32681239, "learning_rate": 3.618e-05, "elapsed_time_per_iteration": 5.14816356, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 22s", "remaining_time": "6h 31m 15s", "loss_scale": 1.0, "consumed_samples": 2022912, "global_step/max_steps": "7902/12700"}
{"lm loss": 2.10695219, "grad_norm": 0.34126499, "learning_rate": 3.616e-05, "elapsed_time_per_iteration": 5.16268516, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 27s", "remaining_time": "6h 31m 10s", "loss_scale": 1.0, "consumed_samples": 2023168, "global_step/max_steps": "7903/12700"}
{"lm loss": 2.05150723, "grad_norm": 0.35694498, "learning_rate": 3.615e-05, "elapsed_time_per_iteration": 5.03583145, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 32s", "remaining_time": "6h 31m 6s", "loss_scale": 1.0, "consumed_samples": 2023424, "global_step/max_steps": "7904/12700"}
{"lm loss": 2.06877756, "grad_norm": 0.32852101, "learning_rate": 3.614e-05, "elapsed_time_per_iteration": 5.09529948, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 38s", "remaining_time": "6h 31m 1s", "loss_scale": 1.0, "consumed_samples": 2023680, "global_step/max_steps": "7905/12700"}
{"lm loss": 2.02771425, "grad_norm": 0.38174981, "learning_rate": 3.613e-05, "elapsed_time_per_iteration": 4.9158566, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 42s", "remaining_time": "6h 30m 56s", "loss_scale": 1.0, "consumed_samples": 2023936, "global_step/max_steps": "7906/12700"}
{"lm loss": 2.05897141, "grad_norm": 0.33839226, "learning_rate": 3.612e-05, "elapsed_time_per_iteration": 4.83073139, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 47s", "remaining_time": "6h 30m 51s", "loss_scale": 1.0, "consumed_samples": 2024192, "global_step/max_steps": "7907/12700"}
{"lm loss": 2.07011962, "grad_norm": 0.36499178, "learning_rate": 3.61e-05, "elapsed_time_per_iteration": 5.00084639, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 52s", "remaining_time": "6h 30m 46s", "loss_scale": 1.0, "consumed_samples": 2024448, "global_step/max_steps": "7908/12700"}
{"lm loss": 2.06510234, "grad_norm": 0.35802242, "learning_rate": 3.609e-05, "elapsed_time_per_iteration": 4.88990283, "memory(GiB)": 28.98, "elapsed_time": "10h 44m 57s", "remaining_time": "6h 30m 41s", "loss_scale": 1.0, "consumed_samples": 2024704, "global_step/max_steps": "7909/12700"}
{"lm loss": 2.07835555, "grad_norm": 0.35575795, "learning_rate": 3.608e-05, "elapsed_time_per_iteration": 4.85709357, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 2s", "remaining_time": "6h 30m 36s", "loss_scale": 1.0, "consumed_samples": 2024960, "global_step/max_steps": "7910/12700"}
{"lm loss": 2.0983367, "grad_norm": 0.35787427, "learning_rate": 3.607e-05, "elapsed_time_per_iteration": 5.05186677, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 7s", "remaining_time": "6h 30m 32s", "loss_scale": 1.0, "consumed_samples": 2025216, "global_step/max_steps": "7911/12700"}
{"lm loss": 2.07385564, "grad_norm": 0.35706022, "learning_rate": 3.606e-05, "elapsed_time_per_iteration": 4.93918443, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 12s", "remaining_time": "6h 30m 27s", "loss_scale": 1.0, "consumed_samples": 2025472, "global_step/max_steps": "7912/12700"}
{"lm loss": 2.05185795, "grad_norm": 0.36831263, "learning_rate": 3.605e-05, "elapsed_time_per_iteration": 4.9781971, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 17s", "remaining_time": "6h 30m 22s", "loss_scale": 1.0, "consumed_samples": 2025728, "global_step/max_steps": "7913/12700"}
{"lm loss": 2.09161735, "grad_norm": 0.36326134, "learning_rate": 3.603e-05, "elapsed_time_per_iteration": 4.88288736, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 22s", "remaining_time": "6h 30m 17s", "loss_scale": 1.0, "consumed_samples": 2025984, "global_step/max_steps": "7914/12700"}
{"lm loss": 2.07525015, "grad_norm": 0.34902439, "learning_rate": 3.602e-05, "elapsed_time_per_iteration": 4.90331078, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 27s", "remaining_time": "6h 30m 12s", "loss_scale": 1.0, "consumed_samples": 2026240, "global_step/max_steps": "7915/12700"}
{"lm loss": 2.02517533, "grad_norm": 0.3566972, "learning_rate": 3.601e-05, "elapsed_time_per_iteration": 4.89484167, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 32s", "remaining_time": "6h 30m 7s", "loss_scale": 1.0, "consumed_samples": 2026496, "global_step/max_steps": "7916/12700"}
{"lm loss": 2.04275584, "grad_norm": 0.33533514, "learning_rate": 3.6e-05, "elapsed_time_per_iteration": 4.85339165, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 37s", "remaining_time": "6h 30m 2s", "loss_scale": 1.0, "consumed_samples": 2026752, "global_step/max_steps": "7917/12700"}
{"lm loss": 2.06493306, "grad_norm": 0.4122692, "learning_rate": 3.599e-05, "elapsed_time_per_iteration": 4.87274289, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 41s", "remaining_time": "6h 29m 57s", "loss_scale": 1.0, "consumed_samples": 2027008, "global_step/max_steps": "7918/12700"}
{"lm loss": 2.07421899, "grad_norm": 0.37858307, "learning_rate": 3.597e-05, "elapsed_time_per_iteration": 4.88736463, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 46s", "remaining_time": "6h 29m 52s", "loss_scale": 1.0, "consumed_samples": 2027264, "global_step/max_steps": "7919/12700"}
{"lm loss": 2.06141067, "grad_norm": 0.36853898, "learning_rate": 3.596e-05, "elapsed_time_per_iteration": 4.84094882, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 51s", "remaining_time": "6h 29m 48s", "loss_scale": 1.0, "consumed_samples": 2027520, "global_step/max_steps": "7920/12700"}
{"lm loss": 2.10311317, "grad_norm": 0.33334148, "learning_rate": 3.595e-05, "elapsed_time_per_iteration": 4.93282962, "memory(GiB)": 28.98, "elapsed_time": "10h 45m 56s", "remaining_time": "6h 29m 43s", "loss_scale": 1.0, "consumed_samples": 2027776, "global_step/max_steps": "7921/12700"}
{"lm loss": 2.09021664, "grad_norm": 0.36058387, "learning_rate": 3.594e-05, "elapsed_time_per_iteration": 4.98002553, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 1s", "remaining_time": "6h 29m 38s", "loss_scale": 1.0, "consumed_samples": 2028032, "global_step/max_steps": "7922/12700"}
{"lm loss": 2.08868504, "grad_norm": 0.3348133, "learning_rate": 3.593e-05, "elapsed_time_per_iteration": 5.08170724, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 6s", "remaining_time": "6h 29m 33s", "loss_scale": 1.0, "consumed_samples": 2028288, "global_step/max_steps": "7923/12700"}
{"lm loss": 2.09595942, "grad_norm": 0.39016384, "learning_rate": 3.591e-05, "elapsed_time_per_iteration": 4.83742189, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 11s", "remaining_time": "6h 29m 28s", "loss_scale": 1.0, "consumed_samples": 2028544, "global_step/max_steps": "7924/12700"}
{"lm loss": 2.05881667, "grad_norm": 0.35664165, "learning_rate": 3.59e-05, "elapsed_time_per_iteration": 4.85449886, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 16s", "remaining_time": "6h 29m 23s", "loss_scale": 1.0, "consumed_samples": 2028800, "global_step/max_steps": "7925/12700"}
{"lm loss": 2.05155754, "grad_norm": 0.35967067, "learning_rate": 3.589e-05, "elapsed_time_per_iteration": 4.97217298, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 21s", "remaining_time": "6h 29m 18s", "loss_scale": 1.0, "consumed_samples": 2029056, "global_step/max_steps": "7926/12700"}
{"lm loss": 2.10540128, "grad_norm": 0.37673619, "learning_rate": 3.588e-05, "elapsed_time_per_iteration": 5.04576755, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 26s", "remaining_time": "6h 29m 14s", "loss_scale": 1.0, "consumed_samples": 2029312, "global_step/max_steps": "7927/12700"}
{"lm loss": 2.06097579, "grad_norm": 0.36424744, "learning_rate": 3.587e-05, "elapsed_time_per_iteration": 5.14429355, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 31s", "remaining_time": "6h 29m 9s", "loss_scale": 1.0, "consumed_samples": 2029568, "global_step/max_steps": "7928/12700"}
{"lm loss": 2.05817509, "grad_norm": 0.37123892, "learning_rate": 3.585e-05, "elapsed_time_per_iteration": 5.03770852, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 36s", "remaining_time": "6h 29m 4s", "loss_scale": 1.0, "consumed_samples": 2029824, "global_step/max_steps": "7929/12700"}
{"lm loss": 2.05343771, "grad_norm": 0.35099182, "learning_rate": 3.584e-05, "elapsed_time_per_iteration": 5.00498128, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 41s", "remaining_time": "6h 28m 59s", "loss_scale": 1.0, "consumed_samples": 2030080, "global_step/max_steps": "7930/12700"}
{"lm loss": 2.07515645, "grad_norm": 0.3493472, "learning_rate": 3.583e-05, "elapsed_time_per_iteration": 4.99317527, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 46s", "remaining_time": "6h 28m 54s", "loss_scale": 1.0, "consumed_samples": 2030336, "global_step/max_steps": "7931/12700"}
{"lm loss": 2.06264019, "grad_norm": 0.34112614, "learning_rate": 3.582e-05, "elapsed_time_per_iteration": 5.05635309, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 51s", "remaining_time": "6h 28m 50s", "loss_scale": 1.0, "consumed_samples": 2030592, "global_step/max_steps": "7932/12700"}
{"lm loss": 2.09268188, "grad_norm": 0.3740696, "learning_rate": 3.581e-05, "elapsed_time_per_iteration": 4.91790915, "memory(GiB)": 28.98, "elapsed_time": "10h 46m 56s", "remaining_time": "6h 28m 45s", "loss_scale": 1.0, "consumed_samples": 2030848, "global_step/max_steps": "7933/12700"}
{"lm loss": 2.08840013, "grad_norm": 0.35435891, "learning_rate": 3.579e-05, "elapsed_time_per_iteration": 4.79756904, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 1s", "remaining_time": "6h 28m 40s", "loss_scale": 1.0, "consumed_samples": 2031104, "global_step/max_steps": "7934/12700"}
{"lm loss": 2.08078146, "grad_norm": 0.34569833, "learning_rate": 3.578e-05, "elapsed_time_per_iteration": 4.91057038, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 6s", "remaining_time": "6h 28m 35s", "loss_scale": 1.0, "consumed_samples": 2031360, "global_step/max_steps": "7935/12700"}
{"lm loss": 2.0659411, "grad_norm": 0.36228117, "learning_rate": 3.577e-05, "elapsed_time_per_iteration": 5.05625868, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 11s", "remaining_time": "6h 28m 30s", "loss_scale": 1.0, "consumed_samples": 2031616, "global_step/max_steps": "7936/12700"}
{"lm loss": 2.08001447, "grad_norm": 0.37581873, "learning_rate": 3.576e-05, "elapsed_time_per_iteration": 4.98545027, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 16s", "remaining_time": "6h 28m 25s", "loss_scale": 1.0, "consumed_samples": 2031872, "global_step/max_steps": "7937/12700"}
{"lm loss": 2.05482435, "grad_norm": 0.35349089, "learning_rate": 3.575e-05, "elapsed_time_per_iteration": 5.13886261, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 21s", "remaining_time": "6h 28m 20s", "loss_scale": 1.0, "consumed_samples": 2032128, "global_step/max_steps": "7938/12700"}
{"lm loss": 2.0659802, "grad_norm": 0.35607818, "learning_rate": 3.573e-05, "elapsed_time_per_iteration": 4.99254584, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 26s", "remaining_time": "6h 28m 16s", "loss_scale": 1.0, "consumed_samples": 2032384, "global_step/max_steps": "7939/12700"}
{"lm loss": 2.04757595, "grad_norm": 0.37458116, "learning_rate": 3.572e-05, "elapsed_time_per_iteration": 5.11135507, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 31s", "remaining_time": "6h 28m 11s", "loss_scale": 1.0, "consumed_samples": 2032640, "global_step/max_steps": "7940/12700"}
{"lm loss": 2.07158279, "grad_norm": 0.35635951, "learning_rate": 3.571e-05, "elapsed_time_per_iteration": 5.11601472, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 36s", "remaining_time": "6h 28m 6s", "loss_scale": 1.0, "consumed_samples": 2032896, "global_step/max_steps": "7941/12700"}
{"lm loss": 2.07730865, "grad_norm": 0.36067212, "learning_rate": 3.57e-05, "elapsed_time_per_iteration": 5.04846907, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 41s", "remaining_time": "6h 28m 1s", "loss_scale": 1.0, "consumed_samples": 2033152, "global_step/max_steps": "7942/12700"}
{"lm loss": 2.09465432, "grad_norm": 0.35874686, "learning_rate": 3.569e-05, "elapsed_time_per_iteration": 4.87154198, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 46s", "remaining_time": "6h 27m 56s", "loss_scale": 1.0, "consumed_samples": 2033408, "global_step/max_steps": "7943/12700"}
{"lm loss": 2.07629561, "grad_norm": 0.36384344, "learning_rate": 3.567e-05, "elapsed_time_per_iteration": 4.86742759, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 51s", "remaining_time": "6h 27m 51s", "loss_scale": 1.0, "consumed_samples": 2033664, "global_step/max_steps": "7944/12700"}
{"lm loss": 2.07502818, "grad_norm": 0.3521007, "learning_rate": 3.566e-05, "elapsed_time_per_iteration": 4.84456921, "memory(GiB)": 28.98, "elapsed_time": "10h 47m 56s", "remaining_time": "6h 27m 47s", "loss_scale": 1.0, "consumed_samples": 2033920, "global_step/max_steps": "7945/12700"}
{"lm loss": 2.09997702, "grad_norm": 0.34459886, "learning_rate": 3.565e-05, "elapsed_time_per_iteration": 5.00322986, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 1s", "remaining_time": "6h 27m 42s", "loss_scale": 1.0, "consumed_samples": 2034176, "global_step/max_steps": "7946/12700"}
{"lm loss": 2.08069801, "grad_norm": 0.34112012, "learning_rate": 3.564e-05, "elapsed_time_per_iteration": 4.96047258, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 6s", "remaining_time": "6h 27m 37s", "loss_scale": 1.0, "consumed_samples": 2034432, "global_step/max_steps": "7947/12700"}
{"lm loss": 2.12754989, "grad_norm": 0.34320042, "learning_rate": 3.563e-05, "elapsed_time_per_iteration": 4.95652699, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 11s", "remaining_time": "6h 27m 32s", "loss_scale": 1.0, "consumed_samples": 2034688, "global_step/max_steps": "7948/12700"}
{"lm loss": 2.05818868, "grad_norm": 0.35585216, "learning_rate": 3.561e-05, "elapsed_time_per_iteration": 4.97467136, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 16s", "remaining_time": "6h 27m 27s", "loss_scale": 1.0, "consumed_samples": 2034944, "global_step/max_steps": "7949/12700"}
{"lm loss": 2.07920933, "grad_norm": 0.35320744, "learning_rate": 3.56e-05, "elapsed_time_per_iteration": 5.18545628, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 21s", "remaining_time": "6h 27m 22s", "loss_scale": 1.0, "consumed_samples": 2035200, "global_step/max_steps": "7950/12700"}
{"lm loss": 2.08548236, "grad_norm": 0.34030458, "learning_rate": 3.559e-05, "elapsed_time_per_iteration": 5.13439775, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 26s", "remaining_time": "6h 27m 18s", "loss_scale": 1.0, "consumed_samples": 2035456, "global_step/max_steps": "7951/12700"}
{"lm loss": 2.05486012, "grad_norm": 0.33967081, "learning_rate": 3.558e-05, "elapsed_time_per_iteration": 5.02942848, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 31s", "remaining_time": "6h 27m 13s", "loss_scale": 1.0, "consumed_samples": 2035712, "global_step/max_steps": "7952/12700"}
{"lm loss": 2.10204887, "grad_norm": 0.3553564, "learning_rate": 3.557e-05, "elapsed_time_per_iteration": 4.82588816, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 36s", "remaining_time": "6h 27m 8s", "loss_scale": 1.0, "consumed_samples": 2035968, "global_step/max_steps": "7953/12700"}
{"lm loss": 2.09723353, "grad_norm": 0.34930634, "learning_rate": 3.556e-05, "elapsed_time_per_iteration": 4.78126311, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 41s", "remaining_time": "6h 27m 3s", "loss_scale": 1.0, "consumed_samples": 2036224, "global_step/max_steps": "7954/12700"}
{"lm loss": 2.07863593, "grad_norm": 0.36941108, "learning_rate": 3.554e-05, "elapsed_time_per_iteration": 4.87428737, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 46s", "remaining_time": "6h 26m 58s", "loss_scale": 1.0, "consumed_samples": 2036480, "global_step/max_steps": "7955/12700"}
{"lm loss": 2.07110429, "grad_norm": 0.35324255, "learning_rate": 3.553e-05, "elapsed_time_per_iteration": 4.9712584, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 50s", "remaining_time": "6h 26m 53s", "loss_scale": 1.0, "consumed_samples": 2036736, "global_step/max_steps": "7956/12700"}
{"lm loss": 2.036623, "grad_norm": 0.33149937, "learning_rate": 3.552e-05, "elapsed_time_per_iteration": 5.10017705, "memory(GiB)": 28.98, "elapsed_time": "10h 48m 56s", "remaining_time": "6h 26m 48s", "loss_scale": 1.0, "consumed_samples": 2036992, "global_step/max_steps": "7957/12700"}
{"lm loss": 2.06501603, "grad_norm": 0.37864336, "learning_rate": 3.551e-05, "elapsed_time_per_iteration": 4.94869494, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 1s", "remaining_time": "6h 26m 44s", "loss_scale": 1.0, "consumed_samples": 2037248, "global_step/max_steps": "7958/12700"}
{"lm loss": 2.08032346, "grad_norm": 0.34397894, "learning_rate": 3.55e-05, "elapsed_time_per_iteration": 5.05970216, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 6s", "remaining_time": "6h 26m 39s", "loss_scale": 1.0, "consumed_samples": 2037504, "global_step/max_steps": "7959/12700"}
{"lm loss": 2.10878038, "grad_norm": 0.36153159, "learning_rate": 3.548e-05, "elapsed_time_per_iteration": 5.14287806, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 11s", "remaining_time": "6h 26m 34s", "loss_scale": 1.0, "consumed_samples": 2037760, "global_step/max_steps": "7960/12700"}
{"lm loss": 2.07435846, "grad_norm": 0.37615749, "learning_rate": 3.547e-05, "elapsed_time_per_iteration": 5.11404872, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 16s", "remaining_time": "6h 26m 29s", "loss_scale": 1.0, "consumed_samples": 2038016, "global_step/max_steps": "7961/12700"}
{"lm loss": 2.05968404, "grad_norm": 0.34783641, "learning_rate": 3.546e-05, "elapsed_time_per_iteration": 4.97459674, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 21s", "remaining_time": "6h 26m 24s", "loss_scale": 1.0, "consumed_samples": 2038272, "global_step/max_steps": "7962/12700"}
{"lm loss": 2.07915807, "grad_norm": 0.37018916, "learning_rate": 3.545e-05, "elapsed_time_per_iteration": 4.85452127, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 26s", "remaining_time": "6h 26m 20s", "loss_scale": 1.0, "consumed_samples": 2038528, "global_step/max_steps": "7963/12700"}
{"lm loss": 2.09902978, "grad_norm": 0.35368475, "learning_rate": 3.544e-05, "elapsed_time_per_iteration": 4.8369875, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 31s", "remaining_time": "6h 26m 15s", "loss_scale": 1.0, "consumed_samples": 2038784, "global_step/max_steps": "7964/12700"}
{"lm loss": 2.0621078, "grad_norm": 0.3855314, "learning_rate": 3.542e-05, "elapsed_time_per_iteration": 4.90533996, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 35s", "remaining_time": "6h 26m 10s", "loss_scale": 1.0, "consumed_samples": 2039040, "global_step/max_steps": "7965/12700"}
{"lm loss": 2.09080696, "grad_norm": 0.36292103, "learning_rate": 3.541e-05, "elapsed_time_per_iteration": 4.86501622, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 40s", "remaining_time": "6h 26m 5s", "loss_scale": 1.0, "consumed_samples": 2039296, "global_step/max_steps": "7966/12700"}
{"lm loss": 2.06334996, "grad_norm": 0.36452723, "learning_rate": 3.54e-05, "elapsed_time_per_iteration": 4.94081092, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 45s", "remaining_time": "6h 26m 0s", "loss_scale": 1.0, "consumed_samples": 2039552, "global_step/max_steps": "7967/12700"}
{"lm loss": 2.05151367, "grad_norm": 0.35972321, "learning_rate": 3.539e-05, "elapsed_time_per_iteration": 4.99601173, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 50s", "remaining_time": "6h 25m 55s", "loss_scale": 1.0, "consumed_samples": 2039808, "global_step/max_steps": "7968/12700"}
{"lm loss": 2.0286839, "grad_norm": 0.36090553, "learning_rate": 3.538e-05, "elapsed_time_per_iteration": 5.1581614, "memory(GiB)": 28.98, "elapsed_time": "10h 49m 55s", "remaining_time": "6h 25m 50s", "loss_scale": 1.0, "consumed_samples": 2040064, "global_step/max_steps": "7969/12700"}
{"lm loss": 2.06789565, "grad_norm": 0.35880092, "learning_rate": 3.536e-05, "elapsed_time_per_iteration": 5.14888096, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 1s", "remaining_time": "6h 25m 46s", "loss_scale": 1.0, "consumed_samples": 2040320, "global_step/max_steps": "7970/12700"}
{"lm loss": 2.06812906, "grad_norm": 0.36980829, "learning_rate": 3.535e-05, "elapsed_time_per_iteration": 5.0422473, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 6s", "remaining_time": "6h 25m 41s", "loss_scale": 1.0, "consumed_samples": 2040576, "global_step/max_steps": "7971/12700"}
{"lm loss": 2.06981778, "grad_norm": 0.36882892, "learning_rate": 3.534e-05, "elapsed_time_per_iteration": 4.87295389, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 10s", "remaining_time": "6h 25m 36s", "loss_scale": 1.0, "consumed_samples": 2040832, "global_step/max_steps": "7972/12700"}
{"lm loss": 2.07513142, "grad_norm": 0.37925532, "learning_rate": 3.533e-05, "elapsed_time_per_iteration": 4.84223056, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 15s", "remaining_time": "6h 25m 31s", "loss_scale": 1.0, "consumed_samples": 2041088, "global_step/max_steps": "7973/12700"}
{"lm loss": 2.06742406, "grad_norm": 0.36244977, "learning_rate": 3.532e-05, "elapsed_time_per_iteration": 4.85607266, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 20s", "remaining_time": "6h 25m 26s", "loss_scale": 1.0, "consumed_samples": 2041344, "global_step/max_steps": "7974/12700"}
{"lm loss": 2.05616975, "grad_norm": 0.34062642, "learning_rate": 3.53e-05, "elapsed_time_per_iteration": 4.89981127, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 25s", "remaining_time": "6h 25m 21s", "loss_scale": 1.0, "consumed_samples": 2041600, "global_step/max_steps": "7975/12700"}
{"lm loss": 2.04825115, "grad_norm": 0.38227695, "learning_rate": 3.529e-05, "elapsed_time_per_iteration": 5.08098745, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 30s", "remaining_time": "6h 25m 16s", "loss_scale": 1.0, "consumed_samples": 2041856, "global_step/max_steps": "7976/12700"}
{"lm loss": 2.06882858, "grad_norm": 0.36812681, "learning_rate": 3.528e-05, "elapsed_time_per_iteration": 5.07473755, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 35s", "remaining_time": "6h 25m 12s", "loss_scale": 1.0, "consumed_samples": 2042112, "global_step/max_steps": "7977/12700"}
{"lm loss": 2.05395293, "grad_norm": 0.39761943, "learning_rate": 3.527e-05, "elapsed_time_per_iteration": 4.98910832, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 40s", "remaining_time": "6h 25m 7s", "loss_scale": 1.0, "consumed_samples": 2042368, "global_step/max_steps": "7978/12700"}
{"lm loss": 2.08041978, "grad_norm": 0.36231017, "learning_rate": 3.526e-05, "elapsed_time_per_iteration": 5.08240104, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 45s", "remaining_time": "6h 25m 2s", "loss_scale": 1.0, "consumed_samples": 2042624, "global_step/max_steps": "7979/12700"}
{"lm loss": 2.08533096, "grad_norm": 0.39432526, "learning_rate": 3.525e-05, "elapsed_time_per_iteration": 5.18323183, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 50s", "remaining_time": "6h 24m 57s", "loss_scale": 1.0, "consumed_samples": 2042880, "global_step/max_steps": "7980/12700"}
{"lm loss": 2.09955406, "grad_norm": 0.35703713, "learning_rate": 3.523e-05, "elapsed_time_per_iteration": 5.12049651, "memory(GiB)": 28.98, "elapsed_time": "10h 50m 56s", "remaining_time": "6h 24m 53s", "loss_scale": 1.0, "consumed_samples": 2043136, "global_step/max_steps": "7981/12700"}
{"lm loss": 2.05847216, "grad_norm": 0.39464042, "learning_rate": 3.522e-05, "elapsed_time_per_iteration": 4.87462068, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 0s", "remaining_time": "6h 24m 48s", "loss_scale": 1.0, "consumed_samples": 2043392, "global_step/max_steps": "7982/12700"}
{"lm loss": 2.11179829, "grad_norm": 0.34609649, "learning_rate": 3.521e-05, "elapsed_time_per_iteration": 5.04252076, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 5s", "remaining_time": "6h 24m 43s", "loss_scale": 1.0, "consumed_samples": 2043648, "global_step/max_steps": "7983/12700"}
{"lm loss": 2.05463386, "grad_norm": 0.35914966, "learning_rate": 3.52e-05, "elapsed_time_per_iteration": 4.82917929, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 10s", "remaining_time": "6h 24m 38s", "loss_scale": 1.0, "consumed_samples": 2043904, "global_step/max_steps": "7984/12700"}
{"lm loss": 2.09004426, "grad_norm": 0.41996288, "learning_rate": 3.519e-05, "elapsed_time_per_iteration": 4.79946184, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 15s", "remaining_time": "6h 24m 33s", "loss_scale": 1.0, "consumed_samples": 2044160, "global_step/max_steps": "7985/12700"}
{"lm loss": 2.0877111, "grad_norm": 0.38752779, "learning_rate": 3.517e-05, "elapsed_time_per_iteration": 4.88772702, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 20s", "remaining_time": "6h 24m 28s", "loss_scale": 1.0, "consumed_samples": 2044416, "global_step/max_steps": "7986/12700"}
{"lm loss": 2.08245945, "grad_norm": 0.36487651, "learning_rate": 3.516e-05, "elapsed_time_per_iteration": 4.91846108, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 25s", "remaining_time": "6h 24m 23s", "loss_scale": 1.0, "consumed_samples": 2044672, "global_step/max_steps": "7987/12700"}
{"lm loss": 2.08503866, "grad_norm": 0.39584482, "learning_rate": 3.515e-05, "elapsed_time_per_iteration": 4.82875967, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 30s", "remaining_time": "6h 24m 18s", "loss_scale": 1.0, "consumed_samples": 2044928, "global_step/max_steps": "7988/12700"}
{"lm loss": 2.0991683, "grad_norm": 0.35081962, "learning_rate": 3.514e-05, "elapsed_time_per_iteration": 4.99177861, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 35s", "remaining_time": "6h 24m 13s", "loss_scale": 1.0, "consumed_samples": 2045184, "global_step/max_steps": "7989/12700"}
{"lm loss": 2.05966282, "grad_norm": 0.39482456, "learning_rate": 3.513e-05, "elapsed_time_per_iteration": 5.09577727, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 40s", "remaining_time": "6h 24m 9s", "loss_scale": 1.0, "consumed_samples": 2045440, "global_step/max_steps": "7990/12700"}
{"lm loss": 2.06099844, "grad_norm": 0.34101349, "learning_rate": 3.511e-05, "elapsed_time_per_iteration": 4.86138701, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 45s", "remaining_time": "6h 24m 4s", "loss_scale": 1.0, "consumed_samples": 2045696, "global_step/max_steps": "7991/12700"}
{"lm loss": 2.07486176, "grad_norm": 0.34861863, "learning_rate": 3.51e-05, "elapsed_time_per_iteration": 4.97857547, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 50s", "remaining_time": "6h 23m 59s", "loss_scale": 1.0, "consumed_samples": 2045952, "global_step/max_steps": "7992/12700"}
{"lm loss": 2.06860209, "grad_norm": 0.34435305, "learning_rate": 3.509e-05, "elapsed_time_per_iteration": 4.918993, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 55s", "remaining_time": "6h 23m 54s", "loss_scale": 1.0, "consumed_samples": 2046208, "global_step/max_steps": "7993/12700"}
{"lm loss": 2.09903193, "grad_norm": 0.352467, "learning_rate": 3.508e-05, "elapsed_time_per_iteration": 4.85449409, "memory(GiB)": 28.98, "elapsed_time": "10h 51m 59s", "remaining_time": "6h 23m 49s", "loss_scale": 1.0, "consumed_samples": 2046464, "global_step/max_steps": "7994/12700"}
{"lm loss": 2.07553768, "grad_norm": 0.33615372, "learning_rate": 3.507e-05, "elapsed_time_per_iteration": 4.88475657, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 4s", "remaining_time": "6h 23m 44s", "loss_scale": 1.0, "consumed_samples": 2046720, "global_step/max_steps": "7995/12700"}
{"lm loss": 2.08081985, "grad_norm": 0.33667058, "learning_rate": 3.506e-05, "elapsed_time_per_iteration": 4.84162521, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 9s", "remaining_time": "6h 23m 39s", "loss_scale": 1.0, "consumed_samples": 2046976, "global_step/max_steps": "7996/12700"}
{"lm loss": 2.06178808, "grad_norm": 0.34231189, "learning_rate": 3.504e-05, "elapsed_time_per_iteration": 5.02768135, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 14s", "remaining_time": "6h 23m 34s", "loss_scale": 1.0, "consumed_samples": 2047232, "global_step/max_steps": "7997/12700"}
{"lm loss": 2.083179, "grad_norm": 0.3563863, "learning_rate": 3.503e-05, "elapsed_time_per_iteration": 5.13907433, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 19s", "remaining_time": "6h 23m 30s", "loss_scale": 1.0, "consumed_samples": 2047488, "global_step/max_steps": "7998/12700"}
{"lm loss": 2.07826567, "grad_norm": 0.33916402, "learning_rate": 3.502e-05, "elapsed_time_per_iteration": 5.17751145, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 25s", "remaining_time": "6h 23m 25s", "loss_scale": 1.0, "consumed_samples": 2047744, "global_step/max_steps": "7999/12700"}
{"lm loss": 2.04810071, "grad_norm": 0.36350521, "learning_rate": 3.501e-05, "elapsed_time_per_iteration": 4.97401285, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 29s", "remaining_time": "6h 23m 20s", "loss_scale": 1.0, "consumed_samples": 2048000, "global_step/max_steps": "8000/12700"}
{"lm loss": 2.06325006, "grad_norm": 0.33309183, "learning_rate": 3.5e-05, "elapsed_time_per_iteration": 4.98809671, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 34s", "remaining_time": "6h 23m 15s", "loss_scale": 1.0, "consumed_samples": 2048256, "global_step/max_steps": "8001/12700"}
{"lm loss": 2.07214022, "grad_norm": 0.36235264, "learning_rate": 3.498e-05, "elapsed_time_per_iteration": 4.97776484, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 39s", "remaining_time": "6h 23m 10s", "loss_scale": 1.0, "consumed_samples": 2048512, "global_step/max_steps": "8002/12700"}
{"lm loss": 2.09864807, "grad_norm": 0.37274256, "learning_rate": 3.497e-05, "elapsed_time_per_iteration": 4.93624973, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 44s", "remaining_time": "6h 23m 6s", "loss_scale": 1.0, "consumed_samples": 2048768, "global_step/max_steps": "8003/12700"}
{"lm loss": 2.07053351, "grad_norm": 0.35028285, "learning_rate": 3.496e-05, "elapsed_time_per_iteration": 4.9606781, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 49s", "remaining_time": "6h 23m 1s", "loss_scale": 1.0, "consumed_samples": 2049024, "global_step/max_steps": "8004/12700"}
{"lm loss": 2.08318973, "grad_norm": 0.35622987, "learning_rate": 3.495e-05, "elapsed_time_per_iteration": 5.08797002, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 54s", "remaining_time": "6h 22m 56s", "loss_scale": 1.0, "consumed_samples": 2049280, "global_step/max_steps": "8005/12700"}
{"lm loss": 2.0668807, "grad_norm": 0.35952654, "learning_rate": 3.494e-05, "elapsed_time_per_iteration": 4.9325223, "memory(GiB)": 28.98, "elapsed_time": "10h 52m 59s", "remaining_time": "6h 22m 51s", "loss_scale": 1.0, "consumed_samples": 2049536, "global_step/max_steps": "8006/12700"}
{"lm loss": 2.05482435, "grad_norm": 0.35788429, "learning_rate": 3.492e-05, "elapsed_time_per_iteration": 4.95983243, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 4s", "remaining_time": "6h 22m 46s", "loss_scale": 1.0, "consumed_samples": 2049792, "global_step/max_steps": "8007/12700"}
{"lm loss": 2.10557747, "grad_norm": 0.36183169, "learning_rate": 3.491e-05, "elapsed_time_per_iteration": 4.94813228, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 9s", "remaining_time": "6h 22m 41s", "loss_scale": 1.0, "consumed_samples": 2050048, "global_step/max_steps": "8008/12700"}
{"lm loss": 2.09687781, "grad_norm": 0.35582706, "learning_rate": 3.49e-05, "elapsed_time_per_iteration": 4.87129235, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 14s", "remaining_time": "6h 22m 36s", "loss_scale": 1.0, "consumed_samples": 2050304, "global_step/max_steps": "8009/12700"}
{"lm loss": 2.09380317, "grad_norm": 0.3537353, "learning_rate": 3.489e-05, "elapsed_time_per_iteration": 4.87641907, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 19s", "remaining_time": "6h 22m 32s", "loss_scale": 1.0, "consumed_samples": 2050560, "global_step/max_steps": "8010/12700"}
{"lm loss": 2.09372783, "grad_norm": 0.35828528, "learning_rate": 3.488e-05, "elapsed_time_per_iteration": 5.09020543, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 24s", "remaining_time": "6h 22m 27s", "loss_scale": 1.0, "consumed_samples": 2050816, "global_step/max_steps": "8011/12700"}
{"lm loss": 2.10234404, "grad_norm": 0.35147235, "learning_rate": 3.487e-05, "elapsed_time_per_iteration": 4.99680853, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 29s", "remaining_time": "6h 22m 22s", "loss_scale": 1.0, "consumed_samples": 2051072, "global_step/max_steps": "8012/12700"}
{"lm loss": 2.06335187, "grad_norm": 0.353277, "learning_rate": 3.485e-05, "elapsed_time_per_iteration": 5.13096309, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 34s", "remaining_time": "6h 22m 17s", "loss_scale": 1.0, "consumed_samples": 2051328, "global_step/max_steps": "8013/12700"}
{"lm loss": 2.10187006, "grad_norm": 0.35024059, "learning_rate": 3.484e-05, "elapsed_time_per_iteration": 5.17009568, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 39s", "remaining_time": "6h 22m 12s", "loss_scale": 1.0, "consumed_samples": 2051584, "global_step/max_steps": "8014/12700"}
{"lm loss": 2.05545902, "grad_norm": 0.36298314, "learning_rate": 3.483e-05, "elapsed_time_per_iteration": 5.06163502, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 44s", "remaining_time": "6h 22m 8s", "loss_scale": 1.0, "consumed_samples": 2051840, "global_step/max_steps": "8015/12700"}
{"lm loss": 2.03145409, "grad_norm": 0.35585681, "learning_rate": 3.482e-05, "elapsed_time_per_iteration": 4.9487927, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 49s", "remaining_time": "6h 22m 3s", "loss_scale": 1.0, "consumed_samples": 2052096, "global_step/max_steps": "8016/12700"}
{"lm loss": 2.08243203, "grad_norm": 0.36195281, "learning_rate": 3.481e-05, "elapsed_time_per_iteration": 4.94839716, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 54s", "remaining_time": "6h 21m 58s", "loss_scale": 1.0, "consumed_samples": 2052352, "global_step/max_steps": "8017/12700"}
{"lm loss": 2.08991241, "grad_norm": 0.34275299, "learning_rate": 3.479e-05, "elapsed_time_per_iteration": 4.858495, "memory(GiB)": 28.98, "elapsed_time": "10h 53m 59s", "remaining_time": "6h 21m 53s", "loss_scale": 1.0, "consumed_samples": 2052608, "global_step/max_steps": "8018/12700"}
{"lm loss": 2.07140303, "grad_norm": 0.36178005, "learning_rate": 3.478e-05, "elapsed_time_per_iteration": 4.9363308, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 4s", "remaining_time": "6h 21m 48s", "loss_scale": 1.0, "consumed_samples": 2052864, "global_step/max_steps": "8019/12700"}
{"lm loss": 2.09127188, "grad_norm": 0.35124505, "learning_rate": 3.477e-05, "elapsed_time_per_iteration": 4.91343212, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 9s", "remaining_time": "6h 21m 43s", "loss_scale": 1.0, "consumed_samples": 2053120, "global_step/max_steps": "8020/12700"}
{"lm loss": 2.08100176, "grad_norm": 0.34348917, "learning_rate": 3.476e-05, "elapsed_time_per_iteration": 4.86722183, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 14s", "remaining_time": "6h 21m 38s", "loss_scale": 1.0, "consumed_samples": 2053376, "global_step/max_steps": "8021/12700"}
{"lm loss": 2.03946781, "grad_norm": 0.34350899, "learning_rate": 3.475e-05, "elapsed_time_per_iteration": 5.01876259, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 19s", "remaining_time": "6h 21m 34s", "loss_scale": 1.0, "consumed_samples": 2053632, "global_step/max_steps": "8022/12700"}
{"lm loss": 2.09211302, "grad_norm": 0.36550236, "learning_rate": 3.473e-05, "elapsed_time_per_iteration": 5.20782566, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 24s", "remaining_time": "6h 21m 29s", "loss_scale": 1.0, "consumed_samples": 2053888, "global_step/max_steps": "8023/12700"}
{"lm loss": 2.07697582, "grad_norm": 0.36274192, "learning_rate": 3.472e-05, "elapsed_time_per_iteration": 5.12941051, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 29s", "remaining_time": "6h 21m 24s", "loss_scale": 1.0, "consumed_samples": 2054144, "global_step/max_steps": "8024/12700"}
{"lm loss": 2.06661081, "grad_norm": 0.33746716, "learning_rate": 3.471e-05, "elapsed_time_per_iteration": 5.15191841, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 34s", "remaining_time": "6h 21m 19s", "loss_scale": 1.0, "consumed_samples": 2054400, "global_step/max_steps": "8025/12700"}
{"lm loss": 2.05353284, "grad_norm": 0.33406261, "learning_rate": 3.47e-05, "elapsed_time_per_iteration": 4.90959334, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 39s", "remaining_time": "6h 21m 14s", "loss_scale": 1.0, "consumed_samples": 2054656, "global_step/max_steps": "8026/12700"}
{"lm loss": 2.06666565, "grad_norm": 0.35177404, "learning_rate": 3.469e-05, "elapsed_time_per_iteration": 4.8979876, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 44s", "remaining_time": "6h 21m 10s", "loss_scale": 1.0, "consumed_samples": 2054912, "global_step/max_steps": "8027/12700"}
{"lm loss": 2.09129453, "grad_norm": 0.33851358, "learning_rate": 3.468e-05, "elapsed_time_per_iteration": 4.94356203, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 49s", "remaining_time": "6h 21m 5s", "loss_scale": 1.0, "consumed_samples": 2055168, "global_step/max_steps": "8028/12700"}
{"lm loss": 2.02501941, "grad_norm": 0.36649576, "learning_rate": 3.466e-05, "elapsed_time_per_iteration": 5.01302791, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 54s", "remaining_time": "6h 21m 0s", "loss_scale": 1.0, "consumed_samples": 2055424, "global_step/max_steps": "8029/12700"}
{"lm loss": 2.09762716, "grad_norm": 0.3920075, "learning_rate": 3.465e-05, "elapsed_time_per_iteration": 4.96411085, "memory(GiB)": 28.98, "elapsed_time": "10h 54m 59s", "remaining_time": "6h 20m 55s", "loss_scale": 1.0, "consumed_samples": 2055680, "global_step/max_steps": "8030/12700"}
{"lm loss": 2.06226397, "grad_norm": 0.36984748, "learning_rate": 3.464e-05, "elapsed_time_per_iteration": 4.90557694, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 4s", "remaining_time": "6h 20m 50s", "loss_scale": 1.0, "consumed_samples": 2055936, "global_step/max_steps": "8031/12700"}
{"lm loss": 2.08389115, "grad_norm": 0.36689317, "learning_rate": 3.463e-05, "elapsed_time_per_iteration": 4.96468925, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 9s", "remaining_time": "6h 20m 45s", "loss_scale": 1.0, "consumed_samples": 2056192, "global_step/max_steps": "8032/12700"}
{"lm loss": 2.07738185, "grad_norm": 0.37522036, "learning_rate": 3.462e-05, "elapsed_time_per_iteration": 5.05989408, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 14s", "remaining_time": "6h 20m 40s", "loss_scale": 1.0, "consumed_samples": 2056448, "global_step/max_steps": "8033/12700"}
{"lm loss": 2.03278613, "grad_norm": 0.3566173, "learning_rate": 3.46e-05, "elapsed_time_per_iteration": 4.93826365, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 19s", "remaining_time": "6h 20m 36s", "loss_scale": 1.0, "consumed_samples": 2056704, "global_step/max_steps": "8034/12700"}
{"lm loss": 2.06509113, "grad_norm": 0.37908569, "learning_rate": 3.459e-05, "elapsed_time_per_iteration": 4.98986506, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 24s", "remaining_time": "6h 20m 31s", "loss_scale": 1.0, "consumed_samples": 2056960, "global_step/max_steps": "8035/12700"}
{"lm loss": 2.08236933, "grad_norm": 0.37255082, "learning_rate": 3.458e-05, "elapsed_time_per_iteration": 4.97862792, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 29s", "remaining_time": "6h 20m 26s", "loss_scale": 1.0, "consumed_samples": 2057216, "global_step/max_steps": "8036/12700"}
{"lm loss": 2.08602381, "grad_norm": 0.36730257, "learning_rate": 3.457e-05, "elapsed_time_per_iteration": 4.93651223, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 34s", "remaining_time": "6h 20m 21s", "loss_scale": 1.0, "consumed_samples": 2057472, "global_step/max_steps": "8037/12700"}
{"lm loss": 2.06234765, "grad_norm": 0.41876233, "learning_rate": 3.456e-05, "elapsed_time_per_iteration": 4.93767023, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 39s", "remaining_time": "6h 20m 16s", "loss_scale": 1.0, "consumed_samples": 2057728, "global_step/max_steps": "8038/12700"}
{"lm loss": 2.04359293, "grad_norm": 0.34561589, "learning_rate": 3.455e-05, "elapsed_time_per_iteration": 4.90443158, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 44s", "remaining_time": "6h 20m 11s", "loss_scale": 1.0, "consumed_samples": 2057984, "global_step/max_steps": "8039/12700"}
{"lm loss": 2.09048009, "grad_norm": 0.43951416, "learning_rate": 3.453e-05, "elapsed_time_per_iteration": 4.90777469, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 49s", "remaining_time": "6h 20m 6s", "loss_scale": 1.0, "consumed_samples": 2058240, "global_step/max_steps": "8040/12700"}
{"lm loss": 2.11173987, "grad_norm": 0.36321992, "learning_rate": 3.452e-05, "elapsed_time_per_iteration": 4.88993621, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 54s", "remaining_time": "6h 20m 1s", "loss_scale": 1.0, "consumed_samples": 2058496, "global_step/max_steps": "8041/12700"}
{"lm loss": 2.12672448, "grad_norm": 0.38950995, "learning_rate": 3.451e-05, "elapsed_time_per_iteration": 4.86055446, "memory(GiB)": 28.98, "elapsed_time": "10h 55m 58s", "remaining_time": "6h 19m 57s", "loss_scale": 1.0, "consumed_samples": 2058752, "global_step/max_steps": "8042/12700"}
{"lm loss": 2.05855083, "grad_norm": 0.38324225, "learning_rate": 3.45e-05, "elapsed_time_per_iteration": 4.98733664, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 3s", "remaining_time": "6h 19m 52s", "loss_scale": 1.0, "consumed_samples": 2059008, "global_step/max_steps": "8043/12700"}
{"lm loss": 2.08410168, "grad_norm": 0.37675628, "learning_rate": 3.449e-05, "elapsed_time_per_iteration": 4.98247194, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 8s", "remaining_time": "6h 19m 47s", "loss_scale": 1.0, "consumed_samples": 2059264, "global_step/max_steps": "8044/12700"}
{"lm loss": 2.0666976, "grad_norm": 0.34414595, "learning_rate": 3.447e-05, "elapsed_time_per_iteration": 5.29420662, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 14s", "remaining_time": "6h 19m 42s", "loss_scale": 1.0, "consumed_samples": 2059520, "global_step/max_steps": "8045/12700"}
{"lm loss": 2.06383109, "grad_norm": 0.35411981, "learning_rate": 3.446e-05, "elapsed_time_per_iteration": 5.24646282, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 19s", "remaining_time": "6h 19m 38s", "loss_scale": 1.0, "consumed_samples": 2059776, "global_step/max_steps": "8046/12700"}
{"lm loss": 2.07991385, "grad_norm": 0.35548389, "learning_rate": 3.445e-05, "elapsed_time_per_iteration": 5.02567935, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 24s", "remaining_time": "6h 19m 33s", "loss_scale": 1.0, "consumed_samples": 2060032, "global_step/max_steps": "8047/12700"}
{"lm loss": 2.06632733, "grad_norm": 0.37071821, "learning_rate": 3.444e-05, "elapsed_time_per_iteration": 5.08214808, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 29s", "remaining_time": "6h 19m 28s", "loss_scale": 1.0, "consumed_samples": 2060288, "global_step/max_steps": "8048/12700"}
{"lm loss": 2.10707068, "grad_norm": 0.35769859, "learning_rate": 3.443e-05, "elapsed_time_per_iteration": 5.04765892, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 34s", "remaining_time": "6h 19m 23s", "loss_scale": 1.0, "consumed_samples": 2060544, "global_step/max_steps": "8049/12700"}
{"lm loss": 2.05865002, "grad_norm": 0.36740008, "learning_rate": 3.442e-05, "elapsed_time_per_iteration": 4.80024409, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 39s", "remaining_time": "6h 19m 18s", "loss_scale": 1.0, "consumed_samples": 2060800, "global_step/max_steps": "8050/12700"}
{"lm loss": 2.08643126, "grad_norm": 0.35466912, "learning_rate": 3.44e-05, "elapsed_time_per_iteration": 4.83699775, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 44s", "remaining_time": "6h 19m 13s", "loss_scale": 1.0, "consumed_samples": 2061056, "global_step/max_steps": "8051/12700"}
{"lm loss": 2.08424187, "grad_norm": 0.37743443, "learning_rate": 3.439e-05, "elapsed_time_per_iteration": 4.85306501, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 49s", "remaining_time": "6h 19m 8s", "loss_scale": 1.0, "consumed_samples": 2061312, "global_step/max_steps": "8052/12700"}
{"lm loss": 2.06523609, "grad_norm": 0.3492012, "learning_rate": 3.438e-05, "elapsed_time_per_iteration": 5.14192319, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 54s", "remaining_time": "6h 19m 4s", "loss_scale": 1.0, "consumed_samples": 2061568, "global_step/max_steps": "8053/12700"}
{"lm loss": 2.07815361, "grad_norm": 0.36102423, "learning_rate": 3.437e-05, "elapsed_time_per_iteration": 5.19245529, "memory(GiB)": 28.98, "elapsed_time": "10h 56m 59s", "remaining_time": "6h 18m 59s", "loss_scale": 1.0, "consumed_samples": 2061824, "global_step/max_steps": "8054/12700"}
{"lm loss": 2.06942463, "grad_norm": 0.33459428, "learning_rate": 3.436e-05, "elapsed_time_per_iteration": 5.14170599, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 4s", "remaining_time": "6h 18m 54s", "loss_scale": 1.0, "consumed_samples": 2062080, "global_step/max_steps": "8055/12700"}
{"lm loss": 2.08167028, "grad_norm": 0.35279134, "learning_rate": 3.434e-05, "elapsed_time_per_iteration": 5.2673986, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 9s", "remaining_time": "6h 18m 49s", "loss_scale": 1.0, "consumed_samples": 2062336, "global_step/max_steps": "8056/12700"}
{"lm loss": 2.03681064, "grad_norm": 0.34047014, "learning_rate": 3.433e-05, "elapsed_time_per_iteration": 4.923419, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 14s", "remaining_time": "6h 18m 45s", "loss_scale": 1.0, "consumed_samples": 2062592, "global_step/max_steps": "8057/12700"}
{"lm loss": 2.06157279, "grad_norm": 0.33109304, "learning_rate": 3.432e-05, "elapsed_time_per_iteration": 4.91814852, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 19s", "remaining_time": "6h 18m 40s", "loss_scale": 1.0, "consumed_samples": 2062848, "global_step/max_steps": "8058/12700"}
{"lm loss": 2.05621004, "grad_norm": 0.34167135, "learning_rate": 3.431e-05, "elapsed_time_per_iteration": 4.96571183, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 24s", "remaining_time": "6h 18m 35s", "loss_scale": 1.0, "consumed_samples": 2063104, "global_step/max_steps": "8059/12700"}
{"lm loss": 2.05760121, "grad_norm": 0.34482259, "learning_rate": 3.43e-05, "elapsed_time_per_iteration": 4.91499162, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 29s", "remaining_time": "6h 18m 30s", "loss_scale": 1.0, "consumed_samples": 2063360, "global_step/max_steps": "8060/12700"}
{"lm loss": 2.06032586, "grad_norm": 0.34268349, "learning_rate": 3.429e-05, "elapsed_time_per_iteration": 4.85144401, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 34s", "remaining_time": "6h 18m 25s", "loss_scale": 1.0, "consumed_samples": 2063616, "global_step/max_steps": "8061/12700"}
{"lm loss": 2.0744977, "grad_norm": 0.34336036, "learning_rate": 3.427e-05, "elapsed_time_per_iteration": 4.94698524, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 39s", "remaining_time": "6h 18m 20s", "loss_scale": 1.0, "consumed_samples": 2063872, "global_step/max_steps": "8062/12700"}
{"lm loss": 2.04320717, "grad_norm": 0.34377566, "learning_rate": 3.426e-05, "elapsed_time_per_iteration": 4.96546841, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 44s", "remaining_time": "6h 18m 15s", "loss_scale": 1.0, "consumed_samples": 2064128, "global_step/max_steps": "8063/12700"}
{"lm loss": 2.09953046, "grad_norm": 0.38369712, "learning_rate": 3.425e-05, "elapsed_time_per_iteration": 5.19079971, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 49s", "remaining_time": "6h 18m 11s", "loss_scale": 1.0, "consumed_samples": 2064384, "global_step/max_steps": "8064/12700"}
{"lm loss": 2.08932233, "grad_norm": 0.33762962, "learning_rate": 3.424e-05, "elapsed_time_per_iteration": 5.15048218, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 54s", "remaining_time": "6h 18m 6s", "loss_scale": 1.0, "consumed_samples": 2064640, "global_step/max_steps": "8065/12700"}
{"lm loss": 2.08002543, "grad_norm": 0.33417085, "learning_rate": 3.423e-05, "elapsed_time_per_iteration": 5.24168968, "memory(GiB)": 28.98, "elapsed_time": "10h 57m 59s", "remaining_time": "6h 18m 1s", "loss_scale": 1.0, "consumed_samples": 2064896, "global_step/max_steps": "8066/12700"}
{"lm loss": 2.08335066, "grad_norm": 0.37109703, "learning_rate": 3.421e-05, "elapsed_time_per_iteration": 5.03811598, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 4s", "remaining_time": "6h 17m 56s", "loss_scale": 1.0, "consumed_samples": 2065152, "global_step/max_steps": "8067/12700"}
{"lm loss": 2.11318588, "grad_norm": 0.35712644, "learning_rate": 3.42e-05, "elapsed_time_per_iteration": 4.98394465, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 9s", "remaining_time": "6h 17m 51s", "loss_scale": 1.0, "consumed_samples": 2065408, "global_step/max_steps": "8068/12700"}
{"lm loss": 2.0636847, "grad_norm": 0.34309599, "learning_rate": 3.419e-05, "elapsed_time_per_iteration": 4.92811036, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 14s", "remaining_time": "6h 17m 47s", "loss_scale": 1.0, "consumed_samples": 2065664, "global_step/max_steps": "8069/12700"}
{"lm loss": 2.08357239, "grad_norm": 0.33151218, "learning_rate": 3.418e-05, "elapsed_time_per_iteration": 5.00480533, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 19s", "remaining_time": "6h 17m 42s", "loss_scale": 1.0, "consumed_samples": 2065920, "global_step/max_steps": "8070/12700"}
{"lm loss": 2.04043865, "grad_norm": 0.33977187, "learning_rate": 3.417e-05, "elapsed_time_per_iteration": 4.9846549, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 24s", "remaining_time": "6h 17m 37s", "loss_scale": 1.0, "consumed_samples": 2066176, "global_step/max_steps": "8071/12700"}
{"lm loss": 2.11996174, "grad_norm": 0.36487287, "learning_rate": 3.416e-05, "elapsed_time_per_iteration": 4.94737387, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 29s", "remaining_time": "6h 17m 32s", "loss_scale": 1.0, "consumed_samples": 2066432, "global_step/max_steps": "8072/12700"}
{"lm loss": 2.06635904, "grad_norm": 0.31235248, "learning_rate": 3.414e-05, "elapsed_time_per_iteration": 5.00809836, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 34s", "remaining_time": "6h 17m 27s", "loss_scale": 1.0, "consumed_samples": 2066688, "global_step/max_steps": "8073/12700"}
{"lm loss": 2.06389499, "grad_norm": 0.35899958, "learning_rate": 3.413e-05, "elapsed_time_per_iteration": 5.1215291, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 39s", "remaining_time": "6h 17m 22s", "loss_scale": 1.0, "consumed_samples": 2066944, "global_step/max_steps": "8074/12700"}
{"lm loss": 2.06566477, "grad_norm": 0.33832952, "learning_rate": 3.412e-05, "elapsed_time_per_iteration": 5.13680506, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 45s", "remaining_time": "6h 17m 18s", "loss_scale": 1.0, "consumed_samples": 2067200, "global_step/max_steps": "8075/12700"}
{"lm loss": 2.07249856, "grad_norm": 0.34681413, "learning_rate": 3.411e-05, "elapsed_time_per_iteration": 5.35076523, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 50s", "remaining_time": "6h 17m 13s", "loss_scale": 1.0, "consumed_samples": 2067456, "global_step/max_steps": "8076/12700"}
{"lm loss": 2.06059003, "grad_norm": 0.34320122, "learning_rate": 3.41e-05, "elapsed_time_per_iteration": 5.0778954, "memory(GiB)": 28.98, "elapsed_time": "10h 58m 55s", "remaining_time": "6h 17m 8s", "loss_scale": 1.0, "consumed_samples": 2067712, "global_step/max_steps": "8077/12700"}
{"lm loss": 2.08191061, "grad_norm": 0.36321014, "learning_rate": 3.408e-05, "elapsed_time_per_iteration": 4.91080832, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 0s", "remaining_time": "6h 17m 3s", "loss_scale": 1.0, "consumed_samples": 2067968, "global_step/max_steps": "8078/12700"}
{"lm loss": 2.05496025, "grad_norm": 0.36135191, "learning_rate": 3.407e-05, "elapsed_time_per_iteration": 4.83417296, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 5s", "remaining_time": "6h 16m 58s", "loss_scale": 1.0, "consumed_samples": 2068224, "global_step/max_steps": "8079/12700"}
{"lm loss": 2.07417464, "grad_norm": 0.36434513, "learning_rate": 3.406e-05, "elapsed_time_per_iteration": 4.839849, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 10s", "remaining_time": "6h 16m 54s", "loss_scale": 1.0, "consumed_samples": 2068480, "global_step/max_steps": "8080/12700"}
{"lm loss": 2.06355286, "grad_norm": 0.34553325, "learning_rate": 3.405e-05, "elapsed_time_per_iteration": 4.97172832, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 15s", "remaining_time": "6h 16m 49s", "loss_scale": 1.0, "consumed_samples": 2068736, "global_step/max_steps": "8081/12700"}
{"lm loss": 2.08764601, "grad_norm": 0.35914105, "learning_rate": 3.404e-05, "elapsed_time_per_iteration": 4.96414566, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 20s", "remaining_time": "6h 16m 44s", "loss_scale": 1.0, "consumed_samples": 2068992, "global_step/max_steps": "8082/12700"}
{"lm loss": 2.08065271, "grad_norm": 0.3740392, "learning_rate": 3.403e-05, "elapsed_time_per_iteration": 5.07856774, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 25s", "remaining_time": "6h 16m 39s", "loss_scale": 1.0, "consumed_samples": 2069248, "global_step/max_steps": "8083/12700"}
{"lm loss": 2.03117847, "grad_norm": 0.39045033, "learning_rate": 3.401e-05, "elapsed_time_per_iteration": 5.18011498, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 30s", "remaining_time": "6h 16m 34s", "loss_scale": 1.0, "consumed_samples": 2069504, "global_step/max_steps": "8084/12700"}
{"lm loss": 2.10544109, "grad_norm": 0.38662714, "learning_rate": 3.4e-05, "elapsed_time_per_iteration": 5.15342045, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 35s", "remaining_time": "6h 16m 30s", "loss_scale": 1.0, "consumed_samples": 2069760, "global_step/max_steps": "8085/12700"}
{"lm loss": 2.0376668, "grad_norm": 0.39497954, "learning_rate": 3.399e-05, "elapsed_time_per_iteration": 5.34807348, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 40s", "remaining_time": "6h 16m 25s", "loss_scale": 1.0, "consumed_samples": 2070016, "global_step/max_steps": "8086/12700"}
{"lm loss": 2.08873653, "grad_norm": 0.35022759, "learning_rate": 3.398e-05, "elapsed_time_per_iteration": 5.10888147, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 45s", "remaining_time": "6h 16m 20s", "loss_scale": 1.0, "consumed_samples": 2070272, "global_step/max_steps": "8087/12700"}
{"lm loss": 2.07025361, "grad_norm": 0.39801729, "learning_rate": 3.397e-05, "elapsed_time_per_iteration": 4.82270908, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 50s", "remaining_time": "6h 16m 15s", "loss_scale": 1.0, "consumed_samples": 2070528, "global_step/max_steps": "8088/12700"}
{"lm loss": 2.08644009, "grad_norm": 0.35309726, "learning_rate": 3.396e-05, "elapsed_time_per_iteration": 5.02687931, "memory(GiB)": 28.98, "elapsed_time": "10h 59m 55s", "remaining_time": "6h 16m 10s", "loss_scale": 1.0, "consumed_samples": 2070784, "global_step/max_steps": "8089/12700"}
{"lm loss": 2.0903964, "grad_norm": 0.36744544, "learning_rate": 3.394e-05, "elapsed_time_per_iteration": 4.97455978, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 0s", "remaining_time": "6h 16m 6s", "loss_scale": 1.0, "consumed_samples": 2071040, "global_step/max_steps": "8090/12700"}
{"lm loss": 2.06333756, "grad_norm": 0.32222798, "learning_rate": 3.393e-05, "elapsed_time_per_iteration": 4.9046638, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 5s", "remaining_time": "6h 16m 1s", "loss_scale": 1.0, "consumed_samples": 2071296, "global_step/max_steps": "8091/12700"}
{"lm loss": 2.05789924, "grad_norm": 0.37400559, "learning_rate": 3.392e-05, "elapsed_time_per_iteration": 5.19505548, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 10s", "remaining_time": "6h 15m 56s", "loss_scale": 1.0, "consumed_samples": 2071552, "global_step/max_steps": "8092/12700"}
{"lm loss": 2.0631721, "grad_norm": 0.35554293, "learning_rate": 3.391e-05, "elapsed_time_per_iteration": 5.14720845, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 15s", "remaining_time": "6h 15m 51s", "loss_scale": 1.0, "consumed_samples": 2071808, "global_step/max_steps": "8093/12700"}
{"lm loss": 2.04348922, "grad_norm": 0.3688651, "learning_rate": 3.39e-05, "elapsed_time_per_iteration": 5.01115155, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 20s", "remaining_time": "6h 15m 46s", "loss_scale": 1.0, "consumed_samples": 2072064, "global_step/max_steps": "8094/12700"}
{"lm loss": 2.06129813, "grad_norm": 0.32294631, "learning_rate": 3.388e-05, "elapsed_time_per_iteration": 5.2287221, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 26s", "remaining_time": "6h 15m 42s", "loss_scale": 1.0, "consumed_samples": 2072320, "global_step/max_steps": "8095/12700"}
{"lm loss": 2.0838728, "grad_norm": 0.37439224, "learning_rate": 3.387e-05, "elapsed_time_per_iteration": 5.07223701, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 31s", "remaining_time": "6h 15m 37s", "loss_scale": 1.0, "consumed_samples": 2072576, "global_step/max_steps": "8096/12700"}
{"lm loss": 2.07418418, "grad_norm": 0.38050923, "learning_rate": 3.386e-05, "elapsed_time_per_iteration": 5.17359281, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 36s", "remaining_time": "6h 15m 32s", "loss_scale": 1.0, "consumed_samples": 2072832, "global_step/max_steps": "8097/12700"}
{"lm loss": 2.05839252, "grad_norm": 0.34083366, "learning_rate": 3.385e-05, "elapsed_time_per_iteration": 5.06217885, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 41s", "remaining_time": "6h 15m 27s", "loss_scale": 1.0, "consumed_samples": 2073088, "global_step/max_steps": "8098/12700"}
{"lm loss": 2.08808947, "grad_norm": 0.34109211, "learning_rate": 3.384e-05, "elapsed_time_per_iteration": 4.91609073, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 46s", "remaining_time": "6h 15m 22s", "loss_scale": 1.0, "consumed_samples": 2073344, "global_step/max_steps": "8099/12700"}
{"lm loss": 2.07258987, "grad_norm": 0.36626154, "learning_rate": 3.383e-05, "elapsed_time_per_iteration": 4.83682775, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 51s", "remaining_time": "6h 15m 18s", "loss_scale": 1.0, "consumed_samples": 2073600, "global_step/max_steps": "8100/12700"}
{"lm loss": 2.07206035, "grad_norm": 0.34932894, "learning_rate": 3.381e-05, "elapsed_time_per_iteration": 5.29564071, "memory(GiB)": 28.98, "elapsed_time": "11h 0m 56s", "remaining_time": "6h 15m 13s", "loss_scale": 1.0, "consumed_samples": 2073856, "global_step/max_steps": "8101/12700"}
{"lm loss": 2.06271148, "grad_norm": 0.3526499, "learning_rate": 3.38e-05, "elapsed_time_per_iteration": 5.31152749, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 1s", "remaining_time": "6h 15m 8s", "loss_scale": 1.0, "consumed_samples": 2074112, "global_step/max_steps": "8102/12700"}
{"lm loss": 2.07474518, "grad_norm": 0.3537662, "learning_rate": 3.379e-05, "elapsed_time_per_iteration": 5.13594365, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 7s", "remaining_time": "6h 15m 3s", "loss_scale": 1.0, "consumed_samples": 2074368, "global_step/max_steps": "8103/12700"}
{"lm loss": 2.08619308, "grad_norm": 0.36371002, "learning_rate": 3.378e-05, "elapsed_time_per_iteration": 5.18328071, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 12s", "remaining_time": "6h 14m 59s", "loss_scale": 1.0, "consumed_samples": 2074624, "global_step/max_steps": "8104/12700"}
{"lm loss": 2.09651303, "grad_norm": 0.35113132, "learning_rate": 3.377e-05, "elapsed_time_per_iteration": 5.0075841, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 17s", "remaining_time": "6h 14m 54s", "loss_scale": 1.0, "consumed_samples": 2074880, "global_step/max_steps": "8105/12700"}
{"lm loss": 2.06543303, "grad_norm": 0.33663589, "learning_rate": 3.376e-05, "elapsed_time_per_iteration": 5.13087344, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 22s", "remaining_time": "6h 14m 49s", "loss_scale": 1.0, "consumed_samples": 2075136, "global_step/max_steps": "8106/12700"}
{"lm loss": 2.06689429, "grad_norm": 0.32961446, "learning_rate": 3.374e-05, "elapsed_time_per_iteration": 5.17153072, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 27s", "remaining_time": "6h 14m 44s", "loss_scale": 1.0, "consumed_samples": 2075392, "global_step/max_steps": "8107/12700"}
{"lm loss": 2.08995318, "grad_norm": 0.34586039, "learning_rate": 3.373e-05, "elapsed_time_per_iteration": 5.35249543, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 32s", "remaining_time": "6h 14m 40s", "loss_scale": 1.0, "consumed_samples": 2075648, "global_step/max_steps": "8108/12700"}
{"lm loss": 2.05561256, "grad_norm": 0.35625049, "learning_rate": 3.372e-05, "elapsed_time_per_iteration": 5.0651083, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 37s", "remaining_time": "6h 14m 35s", "loss_scale": 1.0, "consumed_samples": 2075904, "global_step/max_steps": "8109/12700"}
{"lm loss": 2.09943032, "grad_norm": 0.3355898, "learning_rate": 3.371e-05, "elapsed_time_per_iteration": 4.82736015, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 42s", "remaining_time": "6h 14m 30s", "loss_scale": 1.0, "consumed_samples": 2076160, "global_step/max_steps": "8110/12700"}
{"lm loss": 2.05168343, "grad_norm": 0.34864104, "learning_rate": 3.37e-05, "elapsed_time_per_iteration": 5.06869364, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 47s", "remaining_time": "6h 14m 25s", "loss_scale": 1.0, "consumed_samples": 2076416, "global_step/max_steps": "8111/12700"}
{"lm loss": 2.06383348, "grad_norm": 0.34962875, "learning_rate": 3.368e-05, "elapsed_time_per_iteration": 4.8708961, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 52s", "remaining_time": "6h 14m 20s", "loss_scale": 1.0, "consumed_samples": 2076672, "global_step/max_steps": "8112/12700"}
{"lm loss": 2.07333684, "grad_norm": 0.3265039, "learning_rate": 3.367e-05, "elapsed_time_per_iteration": 4.85250521, "memory(GiB)": 28.98, "elapsed_time": "11h 1m 57s", "remaining_time": "6h 14m 15s", "loss_scale": 1.0, "consumed_samples": 2076928, "global_step/max_steps": "8113/12700"}
{"lm loss": 2.04660368, "grad_norm": 0.33168629, "learning_rate": 3.366e-05, "elapsed_time_per_iteration": 4.9092381, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 2s", "remaining_time": "6h 14m 10s", "loss_scale": 1.0, "consumed_samples": 2077184, "global_step/max_steps": "8114/12700"}
{"lm loss": 2.11217833, "grad_norm": 0.34841597, "learning_rate": 3.365e-05, "elapsed_time_per_iteration": 4.89936352, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 7s", "remaining_time": "6h 14m 6s", "loss_scale": 1.0, "consumed_samples": 2077440, "global_step/max_steps": "8115/12700"}
{"lm loss": 2.09836459, "grad_norm": 0.34401867, "learning_rate": 3.364e-05, "elapsed_time_per_iteration": 5.03213191, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 12s", "remaining_time": "6h 14m 1s", "loss_scale": 1.0, "consumed_samples": 2077696, "global_step/max_steps": "8116/12700"}
{"lm loss": 2.04630899, "grad_norm": 0.32851893, "learning_rate": 3.363e-05, "elapsed_time_per_iteration": 5.04386353, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 17s", "remaining_time": "6h 13m 56s", "loss_scale": 1.0, "consumed_samples": 2077952, "global_step/max_steps": "8117/12700"}
{"lm loss": 2.03436995, "grad_norm": 0.32297161, "learning_rate": 3.361e-05, "elapsed_time_per_iteration": 5.12392998, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 22s", "remaining_time": "6h 13m 51s", "loss_scale": 1.0, "consumed_samples": 2078208, "global_step/max_steps": "8118/12700"}
{"lm loss": 2.05573082, "grad_norm": 0.34650621, "learning_rate": 3.36e-05, "elapsed_time_per_iteration": 5.20727992, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 27s", "remaining_time": "6h 13m 46s", "loss_scale": 1.0, "consumed_samples": 2078464, "global_step/max_steps": "8119/12700"}
{"lm loss": 2.06479526, "grad_norm": 0.34642327, "learning_rate": 3.359e-05, "elapsed_time_per_iteration": 5.2071805, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 32s", "remaining_time": "6h 13m 42s", "loss_scale": 1.0, "consumed_samples": 2078720, "global_step/max_steps": "8120/12700"}
{"lm loss": 2.10663176, "grad_norm": 0.36584309, "learning_rate": 3.358e-05, "elapsed_time_per_iteration": 5.15109944, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 38s", "remaining_time": "6h 13m 37s", "loss_scale": 1.0, "consumed_samples": 2078976, "global_step/max_steps": "8121/12700"}
{"lm loss": 2.06236291, "grad_norm": 0.34868193, "learning_rate": 3.357e-05, "elapsed_time_per_iteration": 5.18491483, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 43s", "remaining_time": "6h 13m 32s", "loss_scale": 1.0, "consumed_samples": 2079232, "global_step/max_steps": "8122/12700"}
{"lm loss": 2.09197927, "grad_norm": 0.34413117, "learning_rate": 3.356e-05, "elapsed_time_per_iteration": 5.20547605, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 48s", "remaining_time": "6h 13m 28s", "loss_scale": 1.0, "consumed_samples": 2079488, "global_step/max_steps": "8123/12700"}
{"lm loss": 2.05199981, "grad_norm": 0.36176667, "learning_rate": 3.354e-05, "elapsed_time_per_iteration": 4.96163964, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 53s", "remaining_time": "6h 13m 23s", "loss_scale": 1.0, "consumed_samples": 2079744, "global_step/max_steps": "8124/12700"}
{"lm loss": 2.05347323, "grad_norm": 0.34712544, "learning_rate": 3.353e-05, "elapsed_time_per_iteration": 4.87297559, "memory(GiB)": 28.98, "elapsed_time": "11h 2m 58s", "remaining_time": "6h 13m 18s", "loss_scale": 1.0, "consumed_samples": 2080000, "global_step/max_steps": "8125/12700"}
{"lm loss": 2.09123015, "grad_norm": 0.35498935, "learning_rate": 3.352e-05, "elapsed_time_per_iteration": 5.05476522, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 3s", "remaining_time": "6h 13m 13s", "loss_scale": 1.0, "consumed_samples": 2080256, "global_step/max_steps": "8126/12700"}
{"lm loss": 2.08925986, "grad_norm": 0.33994007, "learning_rate": 3.351e-05, "elapsed_time_per_iteration": 4.83410597, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 8s", "remaining_time": "6h 13m 8s", "loss_scale": 1.0, "consumed_samples": 2080512, "global_step/max_steps": "8127/12700"}
{"lm loss": 2.06703329, "grad_norm": 0.34027165, "learning_rate": 3.35e-05, "elapsed_time_per_iteration": 4.83225179, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 13s", "remaining_time": "6h 13m 3s", "loss_scale": 1.0, "consumed_samples": 2080768, "global_step/max_steps": "8128/12700"}
{"lm loss": 2.07153225, "grad_norm": 0.36134005, "learning_rate": 3.349e-05, "elapsed_time_per_iteration": 4.96697927, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 18s", "remaining_time": "6h 12m 58s", "loss_scale": 1.0, "consumed_samples": 2081024, "global_step/max_steps": "8129/12700"}
{"lm loss": 2.06227541, "grad_norm": 0.35836497, "learning_rate": 3.347e-05, "elapsed_time_per_iteration": 5.04342818, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 23s", "remaining_time": "6h 12m 53s", "loss_scale": 1.0, "consumed_samples": 2081280, "global_step/max_steps": "8130/12700"}
{"lm loss": 2.08484674, "grad_norm": 0.35209396, "learning_rate": 3.346e-05, "elapsed_time_per_iteration": 5.299752, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 28s", "remaining_time": "6h 12m 49s", "loss_scale": 1.0, "consumed_samples": 2081536, "global_step/max_steps": "8131/12700"}
{"lm loss": 2.09008408, "grad_norm": 0.3608101, "learning_rate": 3.345e-05, "elapsed_time_per_iteration": 5.13249278, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 33s", "remaining_time": "6h 12m 44s", "loss_scale": 1.0, "consumed_samples": 2081792, "global_step/max_steps": "8132/12700"}
{"lm loss": 2.10121751, "grad_norm": 0.38083145, "learning_rate": 3.344e-05, "elapsed_time_per_iteration": 5.3024056, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 38s", "remaining_time": "6h 12m 39s", "loss_scale": 1.0, "consumed_samples": 2082048, "global_step/max_steps": "8133/12700"}
{"lm loss": 2.05756497, "grad_norm": 0.36904541, "learning_rate": 3.343e-05, "elapsed_time_per_iteration": 5.16020584, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 43s", "remaining_time": "6h 12m 35s", "loss_scale": 1.0, "consumed_samples": 2082304, "global_step/max_steps": "8134/12700"}
{"lm loss": 2.09413838, "grad_norm": 0.3591108, "learning_rate": 3.341e-05, "elapsed_time_per_iteration": 5.29733348, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 49s", "remaining_time": "6h 12m 30s", "loss_scale": 1.0, "consumed_samples": 2082560, "global_step/max_steps": "8135/12700"}
{"lm loss": 2.08012104, "grad_norm": 0.36679414, "learning_rate": 3.34e-05, "elapsed_time_per_iteration": 5.26101518, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 54s", "remaining_time": "6h 12m 25s", "loss_scale": 1.0, "consumed_samples": 2082816, "global_step/max_steps": "8136/12700"}
{"lm loss": 2.04411292, "grad_norm": 0.35000268, "learning_rate": 3.339e-05, "elapsed_time_per_iteration": 5.24616575, "memory(GiB)": 28.98, "elapsed_time": "11h 3m 59s", "remaining_time": "6h 12m 21s", "loss_scale": 1.0, "consumed_samples": 2083072, "global_step/max_steps": "8137/12700"}
{"lm loss": 2.04394364, "grad_norm": 0.36713883, "learning_rate": 3.338e-05, "elapsed_time_per_iteration": 4.91982245, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 4s", "remaining_time": "6h 12m 16s", "loss_scale": 1.0, "consumed_samples": 2083328, "global_step/max_steps": "8138/12700"}
{"lm loss": 2.06248522, "grad_norm": 0.35631999, "learning_rate": 3.337e-05, "elapsed_time_per_iteration": 4.98139787, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 9s", "remaining_time": "6h 12m 11s", "loss_scale": 1.0, "consumed_samples": 2083584, "global_step/max_steps": "8139/12700"}
{"lm loss": 2.07851887, "grad_norm": 0.37315202, "learning_rate": 3.336e-05, "elapsed_time_per_iteration": 5.02193141, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 14s", "remaining_time": "6h 12m 6s", "loss_scale": 1.0, "consumed_samples": 2083840, "global_step/max_steps": "8140/12700"}
{"lm loss": 2.08090305, "grad_norm": 0.36831921, "learning_rate": 3.334e-05, "elapsed_time_per_iteration": 4.92572713, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 19s", "remaining_time": "6h 12m 1s", "loss_scale": 1.0, "consumed_samples": 2084096, "global_step/max_steps": "8141/12700"}
{"lm loss": 2.11532259, "grad_norm": 0.37053356, "learning_rate": 3.333e-05, "elapsed_time_per_iteration": 4.94702291, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 24s", "remaining_time": "6h 11m 56s", "loss_scale": 1.0, "consumed_samples": 2084352, "global_step/max_steps": "8142/12700"}
{"lm loss": 2.07700372, "grad_norm": 0.35238084, "learning_rate": 3.332e-05, "elapsed_time_per_iteration": 5.02598119, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 29s", "remaining_time": "6h 11m 51s", "loss_scale": 1.0, "consumed_samples": 2084608, "global_step/max_steps": "8143/12700"}
{"lm loss": 2.04696441, "grad_norm": 0.36960351, "learning_rate": 3.331e-05, "elapsed_time_per_iteration": 5.03478289, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 34s", "remaining_time": "6h 11m 47s", "loss_scale": 1.0, "consumed_samples": 2084864, "global_step/max_steps": "8144/12700"}
{"lm loss": 2.06961203, "grad_norm": 0.34593368, "learning_rate": 3.33e-05, "elapsed_time_per_iteration": 5.33504248, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 39s", "remaining_time": "6h 11m 42s", "loss_scale": 1.0, "consumed_samples": 2085120, "global_step/max_steps": "8145/12700"}
{"lm loss": 2.08505893, "grad_norm": 0.33216795, "learning_rate": 3.329e-05, "elapsed_time_per_iteration": 5.11960196, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 45s", "remaining_time": "6h 11m 37s", "loss_scale": 1.0, "consumed_samples": 2085376, "global_step/max_steps": "8146/12700"}
{"lm loss": 2.05536628, "grad_norm": 0.3633039, "learning_rate": 3.327e-05, "elapsed_time_per_iteration": 5.12328768, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 50s", "remaining_time": "6h 11m 32s", "loss_scale": 1.0, "consumed_samples": 2085632, "global_step/max_steps": "8147/12700"}
{"lm loss": 2.08273554, "grad_norm": 0.36906609, "learning_rate": 3.326e-05, "elapsed_time_per_iteration": 4.96951365, "memory(GiB)": 28.98, "elapsed_time": "11h 4m 55s", "remaining_time": "6h 11m 28s", "loss_scale": 1.0, "consumed_samples": 2085888, "global_step/max_steps": "8148/12700"}
{"lm loss": 2.07056665, "grad_norm": 0.37051889, "learning_rate": 3.325e-05, "elapsed_time_per_iteration": 4.9348793, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 0s", "remaining_time": "6h 11m 23s", "loss_scale": 1.0, "consumed_samples": 2086144, "global_step/max_steps": "8149/12700"}
{"lm loss": 2.04294109, "grad_norm": 0.33613244, "learning_rate": 3.324e-05, "elapsed_time_per_iteration": 4.80658627, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 4s", "remaining_time": "6h 11m 18s", "loss_scale": 1.0, "consumed_samples": 2086400, "global_step/max_steps": "8150/12700"}
{"lm loss": 2.07431841, "grad_norm": 0.39646062, "learning_rate": 3.323e-05, "elapsed_time_per_iteration": 4.90344262, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 9s", "remaining_time": "6h 11m 13s", "loss_scale": 1.0, "consumed_samples": 2086656, "global_step/max_steps": "8151/12700"}
{"lm loss": 2.06140852, "grad_norm": 0.3429845, "learning_rate": 3.322e-05, "elapsed_time_per_iteration": 4.9247191, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 14s", "remaining_time": "6h 11m 8s", "loss_scale": 1.0, "consumed_samples": 2086912, "global_step/max_steps": "8152/12700"}
{"lm loss": 2.06126261, "grad_norm": 0.36805344, "learning_rate": 3.32e-05, "elapsed_time_per_iteration": 4.98275042, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 19s", "remaining_time": "6h 11m 3s", "loss_scale": 1.0, "consumed_samples": 2087168, "global_step/max_steps": "8153/12700"}
{"lm loss": 2.0775528, "grad_norm": 0.34622476, "learning_rate": 3.319e-05, "elapsed_time_per_iteration": 4.97107244, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 24s", "remaining_time": "6h 10m 58s", "loss_scale": 1.0, "consumed_samples": 2087424, "global_step/max_steps": "8154/12700"}
{"lm loss": 2.06958127, "grad_norm": 0.35423186, "learning_rate": 3.318e-05, "elapsed_time_per_iteration": 4.94564867, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 29s", "remaining_time": "6h 10m 53s", "loss_scale": 1.0, "consumed_samples": 2087680, "global_step/max_steps": "8155/12700"}
{"lm loss": 2.10607576, "grad_norm": 0.36072376, "learning_rate": 3.317e-05, "elapsed_time_per_iteration": 4.89481878, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 34s", "remaining_time": "6h 10m 48s", "loss_scale": 1.0, "consumed_samples": 2087936, "global_step/max_steps": "8156/12700"}
{"lm loss": 2.05563188, "grad_norm": 0.35373667, "learning_rate": 3.316e-05, "elapsed_time_per_iteration": 4.82379818, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 39s", "remaining_time": "6h 10m 44s", "loss_scale": 1.0, "consumed_samples": 2088192, "global_step/max_steps": "8157/12700"}
{"lm loss": 2.07725811, "grad_norm": 0.34826967, "learning_rate": 3.315e-05, "elapsed_time_per_iteration": 4.79754639, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 44s", "remaining_time": "6h 10m 39s", "loss_scale": 1.0, "consumed_samples": 2088448, "global_step/max_steps": "8158/12700"}
{"lm loss": 2.07325268, "grad_norm": 0.40284237, "learning_rate": 3.313e-05, "elapsed_time_per_iteration": 4.88157845, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 49s", "remaining_time": "6h 10m 34s", "loss_scale": 1.0, "consumed_samples": 2088704, "global_step/max_steps": "8159/12700"}
{"lm loss": 2.03708029, "grad_norm": 0.37063304, "learning_rate": 3.312e-05, "elapsed_time_per_iteration": 4.8891468, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 53s", "remaining_time": "6h 10m 29s", "loss_scale": 1.0, "consumed_samples": 2088960, "global_step/max_steps": "8160/12700"}
{"lm loss": 2.06238317, "grad_norm": 0.38732409, "learning_rate": 3.311e-05, "elapsed_time_per_iteration": 4.89715219, "memory(GiB)": 28.98, "elapsed_time": "11h 5m 58s", "remaining_time": "6h 10m 24s", "loss_scale": 1.0, "consumed_samples": 2089216, "global_step/max_steps": "8161/12700"}
{"lm loss": 2.08626246, "grad_norm": 0.33328411, "learning_rate": 3.31e-05, "elapsed_time_per_iteration": 4.88821936, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 3s", "remaining_time": "6h 10m 19s", "loss_scale": 1.0, "consumed_samples": 2089472, "global_step/max_steps": "8162/12700"}
{"lm loss": 2.08814573, "grad_norm": 0.34900483, "learning_rate": 3.309e-05, "elapsed_time_per_iteration": 4.89127421, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 8s", "remaining_time": "6h 10m 14s", "loss_scale": 1.0, "consumed_samples": 2089728, "global_step/max_steps": "8163/12700"}
{"lm loss": 2.0893569, "grad_norm": 0.39644915, "learning_rate": 3.308e-05, "elapsed_time_per_iteration": 4.94181204, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 13s", "remaining_time": "6h 10m 9s", "loss_scale": 1.0, "consumed_samples": 2089984, "global_step/max_steps": "8164/12700"}
{"lm loss": 2.07584119, "grad_norm": 0.35342464, "learning_rate": 3.306e-05, "elapsed_time_per_iteration": 4.86204219, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 18s", "remaining_time": "6h 10m 4s", "loss_scale": 1.0, "consumed_samples": 2090240, "global_step/max_steps": "8165/12700"}
{"lm loss": 2.06202197, "grad_norm": 0.36344334, "learning_rate": 3.305e-05, "elapsed_time_per_iteration": 4.94366193, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 23s", "remaining_time": "6h 9m 59s", "loss_scale": 1.0, "consumed_samples": 2090496, "global_step/max_steps": "8166/12700"}
{"lm loss": 2.05908704, "grad_norm": 0.38117421, "learning_rate": 3.304e-05, "elapsed_time_per_iteration": 4.80883646, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 28s", "remaining_time": "6h 9m 54s", "loss_scale": 1.0, "consumed_samples": 2090752, "global_step/max_steps": "8167/12700"}
{"lm loss": 2.07495832, "grad_norm": 0.36002639, "learning_rate": 3.303e-05, "elapsed_time_per_iteration": 4.90196848, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 33s", "remaining_time": "6h 9m 50s", "loss_scale": 1.0, "consumed_samples": 2091008, "global_step/max_steps": "8168/12700"}
{"lm loss": 2.05052924, "grad_norm": 0.36815482, "learning_rate": 3.302e-05, "elapsed_time_per_iteration": 4.94354963, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 38s", "remaining_time": "6h 9m 45s", "loss_scale": 1.0, "consumed_samples": 2091264, "global_step/max_steps": "8169/12700"}
{"lm loss": 2.08159971, "grad_norm": 0.32243818, "learning_rate": 3.301e-05, "elapsed_time_per_iteration": 4.85485244, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 42s", "remaining_time": "6h 9m 40s", "loss_scale": 1.0, "consumed_samples": 2091520, "global_step/max_steps": "8170/12700"}
{"lm loss": 2.04398084, "grad_norm": 0.36891016, "learning_rate": 3.299e-05, "elapsed_time_per_iteration": 4.9096849, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 47s", "remaining_time": "6h 9m 35s", "loss_scale": 1.0, "consumed_samples": 2091776, "global_step/max_steps": "8171/12700"}
{"lm loss": 2.07758808, "grad_norm": 0.33865556, "learning_rate": 3.298e-05, "elapsed_time_per_iteration": 4.94354248, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 52s", "remaining_time": "6h 9m 30s", "loss_scale": 1.0, "consumed_samples": 2092032, "global_step/max_steps": "8172/12700"}
{"lm loss": 2.05403996, "grad_norm": 0.35727745, "learning_rate": 3.297e-05, "elapsed_time_per_iteration": 4.89756799, "memory(GiB)": 28.98, "elapsed_time": "11h 6m 57s", "remaining_time": "6h 9m 25s", "loss_scale": 1.0, "consumed_samples": 2092288, "global_step/max_steps": "8173/12700"}
{"lm loss": 2.04951286, "grad_norm": 0.34656703, "learning_rate": 3.296e-05, "elapsed_time_per_iteration": 4.88474107, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 2s", "remaining_time": "6h 9m 20s", "loss_scale": 1.0, "consumed_samples": 2092544, "global_step/max_steps": "8174/12700"}
{"lm loss": 2.08015513, "grad_norm": 0.34595799, "learning_rate": 3.295e-05, "elapsed_time_per_iteration": 4.84737921, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 7s", "remaining_time": "6h 9m 15s", "loss_scale": 1.0, "consumed_samples": 2092800, "global_step/max_steps": "8175/12700"}
{"lm loss": 2.08950233, "grad_norm": 0.38942546, "learning_rate": 3.294e-05, "elapsed_time_per_iteration": 4.81487489, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 12s", "remaining_time": "6h 9m 10s", "loss_scale": 1.0, "consumed_samples": 2093056, "global_step/max_steps": "8176/12700"}
{"lm loss": 2.06709409, "grad_norm": 0.35277781, "learning_rate": 3.292e-05, "elapsed_time_per_iteration": 4.86306143, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 17s", "remaining_time": "6h 9m 5s", "loss_scale": 1.0, "consumed_samples": 2093312, "global_step/max_steps": "8177/12700"}
{"lm loss": 2.07121444, "grad_norm": 0.33124658, "learning_rate": 3.291e-05, "elapsed_time_per_iteration": 4.95313215, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 21s", "remaining_time": "6h 9m 1s", "loss_scale": 1.0, "consumed_samples": 2093568, "global_step/max_steps": "8178/12700"}
{"lm loss": 2.05087733, "grad_norm": 0.33127227, "learning_rate": 3.29e-05, "elapsed_time_per_iteration": 4.91365767, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 26s", "remaining_time": "6h 8m 56s", "loss_scale": 1.0, "consumed_samples": 2093824, "global_step/max_steps": "8179/12700"}
{"lm loss": 2.08284855, "grad_norm": 0.40356067, "learning_rate": 3.289e-05, "elapsed_time_per_iteration": 4.98906422, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 31s", "remaining_time": "6h 8m 51s", "loss_scale": 1.0, "consumed_samples": 2094080, "global_step/max_steps": "8180/12700"}
{"lm loss": 2.09541059, "grad_norm": 0.35342151, "learning_rate": 3.288e-05, "elapsed_time_per_iteration": 4.89943123, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 36s", "remaining_time": "6h 8m 46s", "loss_scale": 1.0, "consumed_samples": 2094336, "global_step/max_steps": "8181/12700"}
{"lm loss": 2.03814673, "grad_norm": 0.37617368, "learning_rate": 3.287e-05, "elapsed_time_per_iteration": 4.85626435, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 41s", "remaining_time": "6h 8m 41s", "loss_scale": 1.0, "consumed_samples": 2094592, "global_step/max_steps": "8182/12700"}
{"lm loss": 2.0681076, "grad_norm": 0.34391746, "learning_rate": 3.285e-05, "elapsed_time_per_iteration": 4.91999054, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 46s", "remaining_time": "6h 8m 36s", "loss_scale": 1.0, "consumed_samples": 2094848, "global_step/max_steps": "8183/12700"}
{"lm loss": 2.06634307, "grad_norm": 0.35615668, "learning_rate": 3.284e-05, "elapsed_time_per_iteration": 4.94111705, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 51s", "remaining_time": "6h 8m 31s", "loss_scale": 1.0, "consumed_samples": 2095104, "global_step/max_steps": "8184/12700"}
{"lm loss": 2.07682276, "grad_norm": 0.3405624, "learning_rate": 3.283e-05, "elapsed_time_per_iteration": 4.96828055, "memory(GiB)": 28.98, "elapsed_time": "11h 7m 56s", "remaining_time": "6h 8m 26s", "loss_scale": 1.0, "consumed_samples": 2095360, "global_step/max_steps": "8185/12700"}
{"lm loss": 2.06254029, "grad_norm": 0.36477357, "learning_rate": 3.282e-05, "elapsed_time_per_iteration": 4.86606264, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 1s", "remaining_time": "6h 8m 22s", "loss_scale": 1.0, "consumed_samples": 2095616, "global_step/max_steps": "8186/12700"}
{"lm loss": 2.04307365, "grad_norm": 0.37178621, "learning_rate": 3.281e-05, "elapsed_time_per_iteration": 4.90538788, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 6s", "remaining_time": "6h 8m 17s", "loss_scale": 1.0, "consumed_samples": 2095872, "global_step/max_steps": "8187/12700"}
{"lm loss": 2.13890696, "grad_norm": 0.36573067, "learning_rate": 3.28e-05, "elapsed_time_per_iteration": 4.882864, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 11s", "remaining_time": "6h 8m 12s", "loss_scale": 1.0, "consumed_samples": 2096128, "global_step/max_steps": "8188/12700"}
{"lm loss": 2.06981254, "grad_norm": 0.34278908, "learning_rate": 3.278e-05, "elapsed_time_per_iteration": 4.8027575, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 15s", "remaining_time": "6h 8m 7s", "loss_scale": 1.0, "consumed_samples": 2096384, "global_step/max_steps": "8189/12700"}
{"lm loss": 2.08266807, "grad_norm": 0.35059822, "learning_rate": 3.277e-05, "elapsed_time_per_iteration": 4.83472228, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 20s", "remaining_time": "6h 8m 2s", "loss_scale": 1.0, "consumed_samples": 2096640, "global_step/max_steps": "8190/12700"}
{"lm loss": 2.04774261, "grad_norm": 0.38032362, "learning_rate": 3.276e-05, "elapsed_time_per_iteration": 4.94884324, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 25s", "remaining_time": "6h 7m 57s", "loss_scale": 1.0, "consumed_samples": 2096896, "global_step/max_steps": "8191/12700"}
{"lm loss": 2.04405427, "grad_norm": 0.34565943, "learning_rate": 3.275e-05, "elapsed_time_per_iteration": 4.77925372, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 30s", "remaining_time": "6h 7m 52s", "loss_scale": 1.0, "consumed_samples": 2097152, "global_step/max_steps": "8192/12700"}
{"lm loss": 2.0885129, "grad_norm": 0.35964745, "learning_rate": 3.274e-05, "elapsed_time_per_iteration": 4.81201911, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 35s", "remaining_time": "6h 7m 47s", "loss_scale": 1.0, "consumed_samples": 2097408, "global_step/max_steps": "8193/12700"}
{"lm loss": 2.10157228, "grad_norm": 0.37492919, "learning_rate": 3.273e-05, "elapsed_time_per_iteration": 5.00957227, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 40s", "remaining_time": "6h 7m 42s", "loss_scale": 1.0, "consumed_samples": 2097664, "global_step/max_steps": "8194/12700"}
{"lm loss": 2.02911782, "grad_norm": 0.34193403, "learning_rate": 3.271e-05, "elapsed_time_per_iteration": 4.92194057, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 45s", "remaining_time": "6h 7m 37s", "loss_scale": 1.0, "consumed_samples": 2097920, "global_step/max_steps": "8195/12700"}
{"lm loss": 2.05423689, "grad_norm": 0.39624774, "learning_rate": 3.27e-05, "elapsed_time_per_iteration": 4.86840892, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 50s", "remaining_time": "6h 7m 32s", "loss_scale": 1.0, "consumed_samples": 2098176, "global_step/max_steps": "8196/12700"}
{"lm loss": 2.06775475, "grad_norm": 0.35689488, "learning_rate": 3.269e-05, "elapsed_time_per_iteration": 4.94878006, "memory(GiB)": 28.98, "elapsed_time": "11h 8m 55s", "remaining_time": "6h 7m 28s", "loss_scale": 1.0, "consumed_samples": 2098432, "global_step/max_steps": "8197/12700"}
{"lm loss": 2.08252072, "grad_norm": 0.38219383, "learning_rate": 3.268e-05, "elapsed_time_per_iteration": 4.95668292, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 0s", "remaining_time": "6h 7m 23s", "loss_scale": 1.0, "consumed_samples": 2098688, "global_step/max_steps": "8198/12700"}
{"lm loss": 2.05966139, "grad_norm": 0.39820546, "learning_rate": 3.267e-05, "elapsed_time_per_iteration": 4.85171962, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 4s", "remaining_time": "6h 7m 18s", "loss_scale": 1.0, "consumed_samples": 2098944, "global_step/max_steps": "8199/12700"}
{"lm loss": 2.10998654, "grad_norm": 0.37522882, "learning_rate": 3.266e-05, "elapsed_time_per_iteration": 4.83157158, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 9s", "remaining_time": "6h 7m 13s", "loss_scale": 1.0, "consumed_samples": 2099200, "global_step/max_steps": "8200/12700"}
{"lm loss": 2.06754613, "grad_norm": 0.41766846, "learning_rate": 3.264e-05, "elapsed_time_per_iteration": 4.8741951, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 14s", "remaining_time": "6h 7m 8s", "loss_scale": 1.0, "consumed_samples": 2099456, "global_step/max_steps": "8201/12700"}
{"lm loss": 2.06017399, "grad_norm": 0.36863542, "learning_rate": 3.263e-05, "elapsed_time_per_iteration": 4.88686419, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 19s", "remaining_time": "6h 7m 3s", "loss_scale": 1.0, "consumed_samples": 2099712, "global_step/max_steps": "8202/12700"}
{"lm loss": 2.06756759, "grad_norm": 0.37189969, "learning_rate": 3.262e-05, "elapsed_time_per_iteration": 4.99380732, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 24s", "remaining_time": "6h 6m 58s", "loss_scale": 1.0, "consumed_samples": 2099968, "global_step/max_steps": "8203/12700"}
{"lm loss": 2.06399488, "grad_norm": 0.35098159, "learning_rate": 3.261e-05, "elapsed_time_per_iteration": 4.90121555, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 29s", "remaining_time": "6h 6m 53s", "loss_scale": 1.0, "consumed_samples": 2100224, "global_step/max_steps": "8204/12700"}
{"lm loss": 2.04527187, "grad_norm": 0.36002734, "learning_rate": 3.26e-05, "elapsed_time_per_iteration": 4.82920361, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 34s", "remaining_time": "6h 6m 48s", "loss_scale": 1.0, "consumed_samples": 2100480, "global_step/max_steps": "8205/12700"}
{"lm loss": 2.08023071, "grad_norm": 0.35723913, "learning_rate": 3.259e-05, "elapsed_time_per_iteration": 5.07995439, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 39s", "remaining_time": "6h 6m 44s", "loss_scale": 1.0, "consumed_samples": 2100736, "global_step/max_steps": "8206/12700"}
{"lm loss": 2.05649161, "grad_norm": 0.35450831, "learning_rate": 3.257e-05, "elapsed_time_per_iteration": 4.84572244, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 44s", "remaining_time": "6h 6m 39s", "loss_scale": 1.0, "consumed_samples": 2100992, "global_step/max_steps": "8207/12700"}
{"lm loss": 2.08174944, "grad_norm": 0.35151669, "learning_rate": 3.256e-05, "elapsed_time_per_iteration": 4.95055294, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 49s", "remaining_time": "6h 6m 34s", "loss_scale": 1.0, "consumed_samples": 2101248, "global_step/max_steps": "8208/12700"}
{"lm loss": 2.08777666, "grad_norm": 0.36041921, "learning_rate": 3.255e-05, "elapsed_time_per_iteration": 4.9273665, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 53s", "remaining_time": "6h 6m 29s", "loss_scale": 1.0, "consumed_samples": 2101504, "global_step/max_steps": "8209/12700"}
{"lm loss": 2.06489968, "grad_norm": 0.3526704, "learning_rate": 3.254e-05, "elapsed_time_per_iteration": 4.852386, "memory(GiB)": 28.98, "elapsed_time": "11h 9m 58s", "remaining_time": "6h 6m 24s", "loss_scale": 1.0, "consumed_samples": 2101760, "global_step/max_steps": "8210/12700"}
{"lm loss": 2.04579902, "grad_norm": 0.34546763, "learning_rate": 3.253e-05, "elapsed_time_per_iteration": 4.88265204, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 3s", "remaining_time": "6h 6m 19s", "loss_scale": 1.0, "consumed_samples": 2102016, "global_step/max_steps": "8211/12700"}
{"lm loss": 2.06152368, "grad_norm": 0.34995267, "learning_rate": 3.252e-05, "elapsed_time_per_iteration": 4.87724686, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 8s", "remaining_time": "6h 6m 14s", "loss_scale": 1.0, "consumed_samples": 2102272, "global_step/max_steps": "8212/12700"}
{"lm loss": 2.05439997, "grad_norm": 0.3775374, "learning_rate": 3.25e-05, "elapsed_time_per_iteration": 5.19667506, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 13s", "remaining_time": "6h 6m 9s", "loss_scale": 1.0, "consumed_samples": 2102528, "global_step/max_steps": "8213/12700"}
{"lm loss": 2.09821987, "grad_norm": 0.33614466, "learning_rate": 3.249e-05, "elapsed_time_per_iteration": 4.89617109, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 18s", "remaining_time": "6h 6m 5s", "loss_scale": 1.0, "consumed_samples": 2102784, "global_step/max_steps": "8214/12700"}
{"lm loss": 2.05878663, "grad_norm": 0.34720835, "learning_rate": 3.248e-05, "elapsed_time_per_iteration": 4.89582348, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 23s", "remaining_time": "6h 6m 0s", "loss_scale": 1.0, "consumed_samples": 2103040, "global_step/max_steps": "8215/12700"}
{"lm loss": 2.07194543, "grad_norm": 0.35031566, "learning_rate": 3.247e-05, "elapsed_time_per_iteration": 4.92668962, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 28s", "remaining_time": "6h 5m 55s", "loss_scale": 1.0, "consumed_samples": 2103296, "global_step/max_steps": "8216/12700"}
{"lm loss": 2.05319214, "grad_norm": 0.33595833, "learning_rate": 3.246e-05, "elapsed_time_per_iteration": 4.95361471, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 33s", "remaining_time": "6h 5m 50s", "loss_scale": 1.0, "consumed_samples": 2103552, "global_step/max_steps": "8217/12700"}
{"lm loss": 2.06216121, "grad_norm": 0.31612441, "learning_rate": 3.245e-05, "elapsed_time_per_iteration": 4.83373284, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 38s", "remaining_time": "6h 5m 45s", "loss_scale": 1.0, "consumed_samples": 2103808, "global_step/max_steps": "8218/12700"}
{"lm loss": 2.02056789, "grad_norm": 0.32050681, "learning_rate": 3.243e-05, "elapsed_time_per_iteration": 4.91754103, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 43s", "remaining_time": "6h 5m 40s", "loss_scale": 1.0, "consumed_samples": 2104064, "global_step/max_steps": "8219/12700"}
{"lm loss": 2.03408432, "grad_norm": 0.34011, "learning_rate": 3.242e-05, "elapsed_time_per_iteration": 4.88139153, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 48s", "remaining_time": "6h 5m 35s", "loss_scale": 1.0, "consumed_samples": 2104320, "global_step/max_steps": "8220/12700"}
{"lm loss": 2.06348014, "grad_norm": 0.34215525, "learning_rate": 3.241e-05, "elapsed_time_per_iteration": 4.94062853, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 53s", "remaining_time": "6h 5m 30s", "loss_scale": 1.0, "consumed_samples": 2104576, "global_step/max_steps": "8221/12700"}
{"lm loss": 2.09521103, "grad_norm": 0.35082793, "learning_rate": 3.24e-05, "elapsed_time_per_iteration": 4.88012338, "memory(GiB)": 28.98, "elapsed_time": "11h 10m 57s", "remaining_time": "6h 5m 25s", "loss_scale": 1.0, "consumed_samples": 2104832, "global_step/max_steps": "8222/12700"}
{"lm loss": 2.09172559, "grad_norm": 0.32777172, "learning_rate": 3.239e-05, "elapsed_time_per_iteration": 4.9030993, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 2s", "remaining_time": "6h 5m 21s", "loss_scale": 1.0, "consumed_samples": 2105088, "global_step/max_steps": "8223/12700"}
{"lm loss": 2.06929135, "grad_norm": 0.33699751, "learning_rate": 3.238e-05, "elapsed_time_per_iteration": 4.93515968, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 7s", "remaining_time": "6h 5m 16s", "loss_scale": 1.0, "consumed_samples": 2105344, "global_step/max_steps": "8224/12700"}
{"lm loss": 2.09109378, "grad_norm": 0.32961258, "learning_rate": 3.237e-05, "elapsed_time_per_iteration": 4.90271974, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 12s", "remaining_time": "6h 5m 11s", "loss_scale": 1.0, "consumed_samples": 2105600, "global_step/max_steps": "8225/12700"}
{"lm loss": 2.06131649, "grad_norm": 0.34167573, "learning_rate": 3.235e-05, "elapsed_time_per_iteration": 4.92149115, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 17s", "remaining_time": "6h 5m 6s", "loss_scale": 1.0, "consumed_samples": 2105856, "global_step/max_steps": "8226/12700"}
{"lm loss": 2.07057428, "grad_norm": 0.35205433, "learning_rate": 3.234e-05, "elapsed_time_per_iteration": 4.84546018, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 22s", "remaining_time": "6h 5m 1s", "loss_scale": 1.0, "consumed_samples": 2106112, "global_step/max_steps": "8227/12700"}
{"lm loss": 2.0659852, "grad_norm": 0.34497893, "learning_rate": 3.233e-05, "elapsed_time_per_iteration": 4.93845725, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 27s", "remaining_time": "6h 4m 56s", "loss_scale": 1.0, "consumed_samples": 2106368, "global_step/max_steps": "8228/12700"}
{"lm loss": 2.06578016, "grad_norm": 0.35475698, "learning_rate": 3.232e-05, "elapsed_time_per_iteration": 4.86441541, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 32s", "remaining_time": "6h 4m 51s", "loss_scale": 1.0, "consumed_samples": 2106624, "global_step/max_steps": "8229/12700"}
{"lm loss": 2.07192016, "grad_norm": 0.36995023, "learning_rate": 3.231e-05, "elapsed_time_per_iteration": 4.98184752, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 37s", "remaining_time": "6h 4m 46s", "loss_scale": 1.0, "consumed_samples": 2106880, "global_step/max_steps": "8230/12700"}
{"lm loss": 2.05432224, "grad_norm": 0.35611936, "learning_rate": 3.23e-05, "elapsed_time_per_iteration": 4.89528465, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 42s", "remaining_time": "6h 4m 41s", "loss_scale": 1.0, "consumed_samples": 2107136, "global_step/max_steps": "8231/12700"}
{"lm loss": 2.0648129, "grad_norm": 0.33191532, "learning_rate": 3.228e-05, "elapsed_time_per_iteration": 4.80572534, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 46s", "remaining_time": "6h 4m 36s", "loss_scale": 1.0, "consumed_samples": 2107392, "global_step/max_steps": "8232/12700"}
{"lm loss": 2.11532092, "grad_norm": 0.36749741, "learning_rate": 3.227e-05, "elapsed_time_per_iteration": 4.89730859, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 51s", "remaining_time": "6h 4m 32s", "loss_scale": 1.0, "consumed_samples": 2107648, "global_step/max_steps": "8233/12700"}
{"lm loss": 2.08140254, "grad_norm": 0.37093937, "learning_rate": 3.226e-05, "elapsed_time_per_iteration": 4.94898582, "memory(GiB)": 28.98, "elapsed_time": "11h 11m 56s", "remaining_time": "6h 4m 27s", "loss_scale": 1.0, "consumed_samples": 2107904, "global_step/max_steps": "8234/12700"}
{"lm loss": 2.07650948, "grad_norm": 0.36390987, "learning_rate": 3.225e-05, "elapsed_time_per_iteration": 4.88676739, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 1s", "remaining_time": "6h 4m 22s", "loss_scale": 1.0, "consumed_samples": 2108160, "global_step/max_steps": "8235/12700"}
{"lm loss": 2.06654215, "grad_norm": 0.34177166, "learning_rate": 3.224e-05, "elapsed_time_per_iteration": 4.89193201, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 6s", "remaining_time": "6h 4m 17s", "loss_scale": 1.0, "consumed_samples": 2108416, "global_step/max_steps": "8236/12700"}
{"lm loss": 2.08585906, "grad_norm": 0.35498038, "learning_rate": 3.223e-05, "elapsed_time_per_iteration": 4.99259186, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 11s", "remaining_time": "6h 4m 12s", "loss_scale": 1.0, "consumed_samples": 2108672, "global_step/max_steps": "8237/12700"}
{"lm loss": 2.08000994, "grad_norm": 0.3541179, "learning_rate": 3.221e-05, "elapsed_time_per_iteration": 4.84599328, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 16s", "remaining_time": "6h 4m 7s", "loss_scale": 1.0, "consumed_samples": 2108928, "global_step/max_steps": "8238/12700"}
{"lm loss": 2.04441977, "grad_norm": 0.34201044, "learning_rate": 3.22e-05, "elapsed_time_per_iteration": 5.00806332, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 21s", "remaining_time": "6h 4m 2s", "loss_scale": 1.0, "consumed_samples": 2109184, "global_step/max_steps": "8239/12700"}
{"lm loss": 2.06193805, "grad_norm": 0.35208571, "learning_rate": 3.219e-05, "elapsed_time_per_iteration": 4.8895359, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 26s", "remaining_time": "6h 3m 57s", "loss_scale": 1.0, "consumed_samples": 2109440, "global_step/max_steps": "8240/12700"}
{"lm loss": 2.07772541, "grad_norm": 0.36724254, "learning_rate": 3.218e-05, "elapsed_time_per_iteration": 5.01820636, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 31s", "remaining_time": "6h 3m 53s", "loss_scale": 1.0, "consumed_samples": 2109696, "global_step/max_steps": "8241/12700"}
{"lm loss": 2.10387301, "grad_norm": 0.33961487, "learning_rate": 3.217e-05, "elapsed_time_per_iteration": 4.87922072, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 36s", "remaining_time": "6h 3m 48s", "loss_scale": 1.0, "consumed_samples": 2109952, "global_step/max_steps": "8242/12700"}
{"lm loss": 2.08523059, "grad_norm": 0.36619151, "learning_rate": 3.216e-05, "elapsed_time_per_iteration": 4.95840836, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 41s", "remaining_time": "6h 3m 43s", "loss_scale": 1.0, "consumed_samples": 2110208, "global_step/max_steps": "8243/12700"}
{"lm loss": 2.08000064, "grad_norm": 0.35564256, "learning_rate": 3.215e-05, "elapsed_time_per_iteration": 4.87061715, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 46s", "remaining_time": "6h 3m 38s", "loss_scale": 1.0, "consumed_samples": 2110464, "global_step/max_steps": "8244/12700"}
{"lm loss": 2.07732415, "grad_norm": 0.34058282, "learning_rate": 3.213e-05, "elapsed_time_per_iteration": 4.96952558, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 50s", "remaining_time": "6h 3m 33s", "loss_scale": 1.0, "consumed_samples": 2110720, "global_step/max_steps": "8245/12700"}
{"lm loss": 2.07886815, "grad_norm": 0.33838013, "learning_rate": 3.212e-05, "elapsed_time_per_iteration": 4.95776272, "memory(GiB)": 28.98, "elapsed_time": "11h 12m 55s", "remaining_time": "6h 3m 28s", "loss_scale": 1.0, "consumed_samples": 2110976, "global_step/max_steps": "8246/12700"}
{"lm loss": 2.03976798, "grad_norm": 0.359788, "learning_rate": 3.211e-05, "elapsed_time_per_iteration": 4.95226955, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 0s", "remaining_time": "6h 3m 23s", "loss_scale": 1.0, "consumed_samples": 2111232, "global_step/max_steps": "8247/12700"}
{"lm loss": 2.06261706, "grad_norm": 0.35909069, "learning_rate": 3.21e-05, "elapsed_time_per_iteration": 4.84853911, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 5s", "remaining_time": "6h 3m 18s", "loss_scale": 1.0, "consumed_samples": 2111488, "global_step/max_steps": "8248/12700"}
{"lm loss": 2.07154202, "grad_norm": 0.35514039, "learning_rate": 3.209e-05, "elapsed_time_per_iteration": 4.81306934, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 10s", "remaining_time": "6h 3m 13s", "loss_scale": 1.0, "consumed_samples": 2111744, "global_step/max_steps": "8249/12700"}
{"lm loss": 2.03120971, "grad_norm": 0.34778994, "learning_rate": 3.208e-05, "elapsed_time_per_iteration": 4.88559985, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 15s", "remaining_time": "6h 3m 9s", "loss_scale": 1.0, "consumed_samples": 2112000, "global_step/max_steps": "8250/12700"}
{"lm loss": 2.0742991, "grad_norm": 0.35066518, "learning_rate": 3.206e-05, "elapsed_time_per_iteration": 4.90397, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 20s", "remaining_time": "6h 3m 4s", "loss_scale": 1.0, "consumed_samples": 2112256, "global_step/max_steps": "8251/12700"}
{"lm loss": 2.07817388, "grad_norm": 0.37032551, "learning_rate": 3.205e-05, "elapsed_time_per_iteration": 4.76703715, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 25s", "remaining_time": "6h 2m 59s", "loss_scale": 1.0, "consumed_samples": 2112512, "global_step/max_steps": "8252/12700"}
{"lm loss": 2.07247853, "grad_norm": 0.36163116, "learning_rate": 3.204e-05, "elapsed_time_per_iteration": 4.89016199, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 29s", "remaining_time": "6h 2m 54s", "loss_scale": 1.0, "consumed_samples": 2112768, "global_step/max_steps": "8253/12700"}
{"lm loss": 2.08390212, "grad_norm": 0.35255563, "learning_rate": 3.203e-05, "elapsed_time_per_iteration": 4.83819962, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 34s", "remaining_time": "6h 2m 49s", "loss_scale": 1.0, "consumed_samples": 2113024, "global_step/max_steps": "8254/12700"}
{"lm loss": 2.07667971, "grad_norm": 0.33587304, "learning_rate": 3.202e-05, "elapsed_time_per_iteration": 4.8799789, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 39s", "remaining_time": "6h 2m 44s", "loss_scale": 1.0, "consumed_samples": 2113280, "global_step/max_steps": "8255/12700"}
{"lm loss": 2.05341005, "grad_norm": 0.35520625, "learning_rate": 3.201e-05, "elapsed_time_per_iteration": 5.05285883, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 44s", "remaining_time": "6h 2m 39s", "loss_scale": 1.0, "consumed_samples": 2113536, "global_step/max_steps": "8256/12700"}
{"lm loss": 2.04682875, "grad_norm": 0.33965367, "learning_rate": 3.199e-05, "elapsed_time_per_iteration": 4.97622657, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 49s", "remaining_time": "6h 2m 34s", "loss_scale": 1.0, "consumed_samples": 2113792, "global_step/max_steps": "8257/12700"}
{"lm loss": 2.02370834, "grad_norm": 0.35824674, "learning_rate": 3.198e-05, "elapsed_time_per_iteration": 4.87820745, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 54s", "remaining_time": "6h 2m 29s", "loss_scale": 1.0, "consumed_samples": 2114048, "global_step/max_steps": "8258/12700"}
{"lm loss": 2.09116435, "grad_norm": 0.34848723, "learning_rate": 3.197e-05, "elapsed_time_per_iteration": 4.79434109, "memory(GiB)": 28.98, "elapsed_time": "11h 13m 59s", "remaining_time": "6h 2m 24s", "loss_scale": 1.0, "consumed_samples": 2114304, "global_step/max_steps": "8259/12700"}
{"lm loss": 2.11154556, "grad_norm": 0.32361153, "learning_rate": 3.196e-05, "elapsed_time_per_iteration": 4.94538164, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 4s", "remaining_time": "6h 2m 20s", "loss_scale": 1.0, "consumed_samples": 2114560, "global_step/max_steps": "8260/12700"}
{"lm loss": 2.0582788, "grad_norm": 0.34133768, "learning_rate": 3.195e-05, "elapsed_time_per_iteration": 4.78993297, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 9s", "remaining_time": "6h 2m 15s", "loss_scale": 1.0, "consumed_samples": 2114816, "global_step/max_steps": "8261/12700"}
{"lm loss": 2.06791091, "grad_norm": 0.34424278, "learning_rate": 3.194e-05, "elapsed_time_per_iteration": 4.88686037, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 14s", "remaining_time": "6h 2m 10s", "loss_scale": 1.0, "consumed_samples": 2115072, "global_step/max_steps": "8262/12700"}
{"lm loss": 2.07922339, "grad_norm": 0.37039697, "learning_rate": 3.193e-05, "elapsed_time_per_iteration": 4.85757685, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 18s", "remaining_time": "6h 2m 5s", "loss_scale": 1.0, "consumed_samples": 2115328, "global_step/max_steps": "8263/12700"}
{"lm loss": 2.07449722, "grad_norm": 0.34898371, "learning_rate": 3.191e-05, "elapsed_time_per_iteration": 4.92087507, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 23s", "remaining_time": "6h 2m 0s", "loss_scale": 1.0, "consumed_samples": 2115584, "global_step/max_steps": "8264/12700"}
{"lm loss": 2.08493304, "grad_norm": 0.33146942, "learning_rate": 3.19e-05, "elapsed_time_per_iteration": 4.9704566, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 28s", "remaining_time": "6h 1m 55s", "loss_scale": 1.0, "consumed_samples": 2115840, "global_step/max_steps": "8265/12700"}
{"lm loss": 2.07554436, "grad_norm": 0.36397859, "learning_rate": 3.189e-05, "elapsed_time_per_iteration": 4.98210478, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 33s", "remaining_time": "6h 1m 50s", "loss_scale": 1.0, "consumed_samples": 2116096, "global_step/max_steps": "8266/12700"}
{"lm loss": 2.05623507, "grad_norm": 0.35634571, "learning_rate": 3.188e-05, "elapsed_time_per_iteration": 4.83464289, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 38s", "remaining_time": "6h 1m 45s", "loss_scale": 1.0, "consumed_samples": 2116352, "global_step/max_steps": "8267/12700"}
{"lm loss": 2.07822514, "grad_norm": 0.33165222, "learning_rate": 3.187e-05, "elapsed_time_per_iteration": 4.96885467, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 43s", "remaining_time": "6h 1m 40s", "loss_scale": 1.0, "consumed_samples": 2116608, "global_step/max_steps": "8268/12700"}
{"lm loss": 2.10617638, "grad_norm": 0.37454456, "learning_rate": 3.186e-05, "elapsed_time_per_iteration": 4.95564175, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 48s", "remaining_time": "6h 1m 36s", "loss_scale": 1.0, "consumed_samples": 2116864, "global_step/max_steps": "8269/12700"}
{"lm loss": 2.06989098, "grad_norm": 0.3413108, "learning_rate": 3.184e-05, "elapsed_time_per_iteration": 4.95470166, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 53s", "remaining_time": "6h 1m 31s", "loss_scale": 1.0, "consumed_samples": 2117120, "global_step/max_steps": "8270/12700"}
{"lm loss": 2.05026245, "grad_norm": 0.40583146, "learning_rate": 3.183e-05, "elapsed_time_per_iteration": 4.89931464, "memory(GiB)": 28.98, "elapsed_time": "11h 14m 58s", "remaining_time": "6h 1m 26s", "loss_scale": 1.0, "consumed_samples": 2117376, "global_step/max_steps": "8271/12700"}
{"lm loss": 2.07054067, "grad_norm": 0.36982721, "learning_rate": 3.182e-05, "elapsed_time_per_iteration": 4.87382126, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 3s", "remaining_time": "6h 1m 21s", "loss_scale": 1.0, "consumed_samples": 2117632, "global_step/max_steps": "8272/12700"}
{"lm loss": 2.04527116, "grad_norm": 0.37784332, "learning_rate": 3.181e-05, "elapsed_time_per_iteration": 4.99684429, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 8s", "remaining_time": "6h 1m 16s", "loss_scale": 1.0, "consumed_samples": 2117888, "global_step/max_steps": "8273/12700"}
{"lm loss": 2.08756542, "grad_norm": 0.36571518, "learning_rate": 3.18e-05, "elapsed_time_per_iteration": 4.90843201, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 13s", "remaining_time": "6h 1m 11s", "loss_scale": 1.0, "consumed_samples": 2118144, "global_step/max_steps": "8274/12700"}
{"lm loss": 2.10511565, "grad_norm": 0.35674477, "learning_rate": 3.179e-05, "elapsed_time_per_iteration": 4.89005518, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 18s", "remaining_time": "6h 1m 6s", "loss_scale": 1.0, "consumed_samples": 2118400, "global_step/max_steps": "8275/12700"}
{"lm loss": 2.08746243, "grad_norm": 0.33642134, "learning_rate": 3.178e-05, "elapsed_time_per_iteration": 4.92614007, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 22s", "remaining_time": "6h 1m 1s", "loss_scale": 1.0, "consumed_samples": 2118656, "global_step/max_steps": "8276/12700"}
{"lm loss": 2.11597586, "grad_norm": 0.36063173, "learning_rate": 3.176e-05, "elapsed_time_per_iteration": 4.79309702, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 27s", "remaining_time": "6h 0m 56s", "loss_scale": 1.0, "consumed_samples": 2118912, "global_step/max_steps": "8277/12700"}
{"lm loss": 2.07855964, "grad_norm": 0.36931494, "learning_rate": 3.175e-05, "elapsed_time_per_iteration": 4.80585766, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 32s", "remaining_time": "6h 0m 51s", "loss_scale": 1.0, "consumed_samples": 2119168, "global_step/max_steps": "8278/12700"}
{"lm loss": 2.12011862, "grad_norm": 0.33947554, "learning_rate": 3.174e-05, "elapsed_time_per_iteration": 4.90515733, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 37s", "remaining_time": "6h 0m 47s", "loss_scale": 1.0, "consumed_samples": 2119424, "global_step/max_steps": "8279/12700"}
{"lm loss": 2.08502078, "grad_norm": 0.37204456, "learning_rate": 3.173e-05, "elapsed_time_per_iteration": 4.81282759, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 42s", "remaining_time": "6h 0m 42s", "loss_scale": 1.0, "consumed_samples": 2119680, "global_step/max_steps": "8280/12700"}
{"lm loss": 2.04342842, "grad_norm": 0.37031659, "learning_rate": 3.172e-05, "elapsed_time_per_iteration": 4.96268392, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 47s", "remaining_time": "6h 0m 37s", "loss_scale": 1.0, "consumed_samples": 2119936, "global_step/max_steps": "8281/12700"}
{"lm loss": 2.08259416, "grad_norm": 0.34456575, "learning_rate": 3.171e-05, "elapsed_time_per_iteration": 4.80139565, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 52s", "remaining_time": "6h 0m 32s", "loss_scale": 1.0, "consumed_samples": 2120192, "global_step/max_steps": "8282/12700"}
{"lm loss": 2.03991461, "grad_norm": 0.35338333, "learning_rate": 3.169e-05, "elapsed_time_per_iteration": 4.99465609, "memory(GiB)": 28.98, "elapsed_time": "11h 15m 57s", "remaining_time": "6h 0m 27s", "loss_scale": 1.0, "consumed_samples": 2120448, "global_step/max_steps": "8283/12700"}
{"lm loss": 2.05541825, "grad_norm": 0.36303088, "learning_rate": 3.168e-05, "elapsed_time_per_iteration": 4.97807145, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 2s", "remaining_time": "6h 0m 22s", "loss_scale": 1.0, "consumed_samples": 2120704, "global_step/max_steps": "8284/12700"}
{"lm loss": 2.03338242, "grad_norm": 0.34639591, "learning_rate": 3.167e-05, "elapsed_time_per_iteration": 4.83019996, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 6s", "remaining_time": "6h 0m 17s", "loss_scale": 1.0, "consumed_samples": 2120960, "global_step/max_steps": "8285/12700"}
{"lm loss": 2.07325983, "grad_norm": 0.37185049, "learning_rate": 3.166e-05, "elapsed_time_per_iteration": 4.92972302, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 11s", "remaining_time": "6h 0m 12s", "loss_scale": 1.0, "consumed_samples": 2121216, "global_step/max_steps": "8286/12700"}
{"lm loss": 2.0960865, "grad_norm": 0.35543099, "learning_rate": 3.165e-05, "elapsed_time_per_iteration": 4.77678013, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 16s", "remaining_time": "6h 0m 7s", "loss_scale": 1.0, "consumed_samples": 2121472, "global_step/max_steps": "8287/12700"}
{"lm loss": 2.08090615, "grad_norm": 0.33468562, "learning_rate": 3.164e-05, "elapsed_time_per_iteration": 4.91022468, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 21s", "remaining_time": "6h 0m 2s", "loss_scale": 1.0, "consumed_samples": 2121728, "global_step/max_steps": "8288/12700"}
{"lm loss": 2.10225749, "grad_norm": 0.37367761, "learning_rate": 3.163e-05, "elapsed_time_per_iteration": 4.87762642, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 26s", "remaining_time": "5h 59m 58s", "loss_scale": 1.0, "consumed_samples": 2121984, "global_step/max_steps": "8289/12700"}
{"lm loss": 2.07945848, "grad_norm": 0.35596749, "learning_rate": 3.161e-05, "elapsed_time_per_iteration": 4.7915206, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 31s", "remaining_time": "5h 59m 53s", "loss_scale": 1.0, "consumed_samples": 2122240, "global_step/max_steps": "8290/12700"}
{"lm loss": 2.08251262, "grad_norm": 0.35034955, "learning_rate": 3.16e-05, "elapsed_time_per_iteration": 4.83453655, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 35s", "remaining_time": "5h 59m 48s", "loss_scale": 1.0, "consumed_samples": 2122496, "global_step/max_steps": "8291/12700"}
{"lm loss": 2.05448961, "grad_norm": 0.3363423, "learning_rate": 3.159e-05, "elapsed_time_per_iteration": 4.94999886, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 40s", "remaining_time": "5h 59m 43s", "loss_scale": 1.0, "consumed_samples": 2122752, "global_step/max_steps": "8292/12700"}
{"lm loss": 2.08294415, "grad_norm": 0.33249512, "learning_rate": 3.158e-05, "elapsed_time_per_iteration": 4.91807199, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 45s", "remaining_time": "5h 59m 38s", "loss_scale": 1.0, "consumed_samples": 2123008, "global_step/max_steps": "8293/12700"}
{"lm loss": 2.07217574, "grad_norm": 0.36800063, "learning_rate": 3.157e-05, "elapsed_time_per_iteration": 4.93920875, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 50s", "remaining_time": "5h 59m 33s", "loss_scale": 1.0, "consumed_samples": 2123264, "global_step/max_steps": "8294/12700"}
{"lm loss": 2.07609916, "grad_norm": 0.34589997, "learning_rate": 3.156e-05, "elapsed_time_per_iteration": 4.96301317, "memory(GiB)": 28.98, "elapsed_time": "11h 16m 55s", "remaining_time": "5h 59m 28s", "loss_scale": 1.0, "consumed_samples": 2123520, "global_step/max_steps": "8295/12700"}
{"lm loss": 2.05491161, "grad_norm": 0.34488025, "learning_rate": 3.154e-05, "elapsed_time_per_iteration": 4.81153822, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 0s", "remaining_time": "5h 59m 23s", "loss_scale": 1.0, "consumed_samples": 2123776, "global_step/max_steps": "8296/12700"}
{"lm loss": 2.04249072, "grad_norm": 0.34265113, "learning_rate": 3.153e-05, "elapsed_time_per_iteration": 4.88627052, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 5s", "remaining_time": "5h 59m 18s", "loss_scale": 1.0, "consumed_samples": 2124032, "global_step/max_steps": "8297/12700"}
{"lm loss": 2.03717089, "grad_norm": 0.37073785, "learning_rate": 3.152e-05, "elapsed_time_per_iteration": 4.90801287, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 10s", "remaining_time": "5h 59m 13s", "loss_scale": 1.0, "consumed_samples": 2124288, "global_step/max_steps": "8298/12700"}
{"lm loss": 2.08530784, "grad_norm": 0.34674758, "learning_rate": 3.151e-05, "elapsed_time_per_iteration": 4.87762094, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 15s", "remaining_time": "5h 59m 9s", "loss_scale": 1.0, "consumed_samples": 2124544, "global_step/max_steps": "8299/12700"}
{"lm loss": 2.06205535, "grad_norm": 0.35673487, "learning_rate": 3.15e-05, "elapsed_time_per_iteration": 4.90180469, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 20s", "remaining_time": "5h 59m 4s", "loss_scale": 1.0, "consumed_samples": 2124800, "global_step/max_steps": "8300/12700"}
{"lm loss": 2.05404043, "grad_norm": 0.38037997, "learning_rate": 3.149e-05, "elapsed_time_per_iteration": 4.93331456, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 25s", "remaining_time": "5h 58m 59s", "loss_scale": 1.0, "consumed_samples": 2125056, "global_step/max_steps": "8301/12700"}
{"lm loss": 2.06727028, "grad_norm": 0.35832441, "learning_rate": 3.148e-05, "elapsed_time_per_iteration": 4.93978715, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 30s", "remaining_time": "5h 58m 54s", "loss_scale": 1.0, "consumed_samples": 2125312, "global_step/max_steps": "8302/12700"}
{"lm loss": 2.028198, "grad_norm": 0.37523866, "learning_rate": 3.146e-05, "elapsed_time_per_iteration": 4.9970026, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 35s", "remaining_time": "5h 58m 49s", "loss_scale": 1.0, "consumed_samples": 2125568, "global_step/max_steps": "8303/12700"}
{"lm loss": 2.10723758, "grad_norm": 0.35376009, "learning_rate": 3.145e-05, "elapsed_time_per_iteration": 5.19208288, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 40s", "remaining_time": "5h 58m 44s", "loss_scale": 1.0, "consumed_samples": 2125824, "global_step/max_steps": "8304/12700"}
{"lm loss": 2.08485508, "grad_norm": 0.36312374, "learning_rate": 3.144e-05, "elapsed_time_per_iteration": 6.15684009, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 46s", "remaining_time": "5h 58m 40s", "loss_scale": 1.0, "consumed_samples": 2126080, "global_step/max_steps": "8305/12700"}
{"lm loss": 2.06886411, "grad_norm": 0.36451167, "learning_rate": 3.143e-05, "elapsed_time_per_iteration": 4.88609052, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 51s", "remaining_time": "5h 58m 35s", "loss_scale": 1.0, "consumed_samples": 2126336, "global_step/max_steps": "8306/12700"}
{"lm loss": 2.11951685, "grad_norm": 0.36945054, "learning_rate": 3.142e-05, "elapsed_time_per_iteration": 4.86595082, "memory(GiB)": 28.98, "elapsed_time": "11h 17m 56s", "remaining_time": "5h 58m 30s", "loss_scale": 1.0, "consumed_samples": 2126592, "global_step/max_steps": "8307/12700"}
{"lm loss": 2.06883121, "grad_norm": 0.34244862, "learning_rate": 3.141e-05, "elapsed_time_per_iteration": 4.87734747, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 0s", "remaining_time": "5h 58m 25s", "loss_scale": 1.0, "consumed_samples": 2126848, "global_step/max_steps": "8308/12700"}
{"lm loss": 2.02022648, "grad_norm": 0.36520162, "learning_rate": 3.14e-05, "elapsed_time_per_iteration": 4.87223077, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 5s", "remaining_time": "5h 58m 20s", "loss_scale": 1.0, "consumed_samples": 2127104, "global_step/max_steps": "8309/12700"}
{"lm loss": 2.07538533, "grad_norm": 0.35751992, "learning_rate": 3.138e-05, "elapsed_time_per_iteration": 4.81926823, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 10s", "remaining_time": "5h 58m 16s", "loss_scale": 1.0, "consumed_samples": 2127360, "global_step/max_steps": "8310/12700"}
{"lm loss": 2.07873106, "grad_norm": 0.33641833, "learning_rate": 3.137e-05, "elapsed_time_per_iteration": 4.83692884, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 15s", "remaining_time": "5h 58m 11s", "loss_scale": 1.0, "consumed_samples": 2127616, "global_step/max_steps": "8311/12700"}
{"lm loss": 2.06248522, "grad_norm": 0.35838878, "learning_rate": 3.136e-05, "elapsed_time_per_iteration": 4.94440532, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 20s", "remaining_time": "5h 58m 6s", "loss_scale": 1.0, "consumed_samples": 2127872, "global_step/max_steps": "8312/12700"}
{"lm loss": 2.09796047, "grad_norm": 0.35048735, "learning_rate": 3.135e-05, "elapsed_time_per_iteration": 4.93959785, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 25s", "remaining_time": "5h 58m 1s", "loss_scale": 1.0, "consumed_samples": 2128128, "global_step/max_steps": "8313/12700"}
{"lm loss": 2.06168079, "grad_norm": 0.3569707, "learning_rate": 3.134e-05, "elapsed_time_per_iteration": 4.87672162, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 30s", "remaining_time": "5h 57m 56s", "loss_scale": 1.0, "consumed_samples": 2128384, "global_step/max_steps": "8314/12700"}
{"lm loss": 2.04562783, "grad_norm": 0.34999445, "learning_rate": 3.133e-05, "elapsed_time_per_iteration": 4.86649942, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 35s", "remaining_time": "5h 57m 51s", "loss_scale": 1.0, "consumed_samples": 2128640, "global_step/max_steps": "8315/12700"}
{"lm loss": 2.06882119, "grad_norm": 0.36383691, "learning_rate": 3.131e-05, "elapsed_time_per_iteration": 4.88836288, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 40s", "remaining_time": "5h 57m 46s", "loss_scale": 1.0, "consumed_samples": 2128896, "global_step/max_steps": "8316/12700"}
{"lm loss": 2.0861845, "grad_norm": 0.36839837, "learning_rate": 3.13e-05, "elapsed_time_per_iteration": 4.8973248, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 44s", "remaining_time": "5h 57m 41s", "loss_scale": 1.0, "consumed_samples": 2129152, "global_step/max_steps": "8317/12700"}
{"lm loss": 2.04985642, "grad_norm": 0.39663494, "learning_rate": 3.129e-05, "elapsed_time_per_iteration": 4.88652062, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 49s", "remaining_time": "5h 57m 36s", "loss_scale": 1.0, "consumed_samples": 2129408, "global_step/max_steps": "8318/12700"}
{"lm loss": 2.06766605, "grad_norm": 0.35185182, "learning_rate": 3.128e-05, "elapsed_time_per_iteration": 4.93852353, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 54s", "remaining_time": "5h 57m 31s", "loss_scale": 1.0, "consumed_samples": 2129664, "global_step/max_steps": "8319/12700"}
{"lm loss": 2.07436013, "grad_norm": 0.35638541, "learning_rate": 3.127e-05, "elapsed_time_per_iteration": 4.90333867, "memory(GiB)": 28.98, "elapsed_time": "11h 18m 59s", "remaining_time": "5h 57m 27s", "loss_scale": 1.0, "consumed_samples": 2129920, "global_step/max_steps": "8320/12700"}
{"lm loss": 2.09516954, "grad_norm": 0.37249422, "learning_rate": 3.126e-05, "elapsed_time_per_iteration": 4.86973023, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 4s", "remaining_time": "5h 57m 22s", "loss_scale": 1.0, "consumed_samples": 2130176, "global_step/max_steps": "8321/12700"}
{"lm loss": 2.05917287, "grad_norm": 0.34854984, "learning_rate": 3.125e-05, "elapsed_time_per_iteration": 5.00386214, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 9s", "remaining_time": "5h 57m 17s", "loss_scale": 1.0, "consumed_samples": 2130432, "global_step/max_steps": "8322/12700"}
{"lm loss": 2.06718779, "grad_norm": 0.38340992, "learning_rate": 3.123e-05, "elapsed_time_per_iteration": 4.81055498, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 14s", "remaining_time": "5h 57m 12s", "loss_scale": 1.0, "consumed_samples": 2130688, "global_step/max_steps": "8323/12700"}
{"lm loss": 2.0603199, "grad_norm": 0.36396861, "learning_rate": 3.122e-05, "elapsed_time_per_iteration": 4.94478321, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 19s", "remaining_time": "5h 57m 7s", "loss_scale": 1.0, "consumed_samples": 2130944, "global_step/max_steps": "8324/12700"}
{"lm loss": 2.05476522, "grad_norm": 0.37249032, "learning_rate": 3.121e-05, "elapsed_time_per_iteration": 4.86064076, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 24s", "remaining_time": "5h 57m 2s", "loss_scale": 1.0, "consumed_samples": 2131200, "global_step/max_steps": "8325/12700"}
{"lm loss": 2.05317831, "grad_norm": 0.36918348, "learning_rate": 3.12e-05, "elapsed_time_per_iteration": 4.93757343, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 29s", "remaining_time": "5h 56m 57s", "loss_scale": 1.0, "consumed_samples": 2131456, "global_step/max_steps": "8326/12700"}
{"lm loss": 2.06069231, "grad_norm": 0.36400673, "learning_rate": 3.119e-05, "elapsed_time_per_iteration": 4.79739594, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 33s", "remaining_time": "5h 56m 52s", "loss_scale": 1.0, "consumed_samples": 2131712, "global_step/max_steps": "8327/12700"}
{"lm loss": 2.02413225, "grad_norm": 0.35973048, "learning_rate": 3.118e-05, "elapsed_time_per_iteration": 4.92008257, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 38s", "remaining_time": "5h 56m 47s", "loss_scale": 1.0, "consumed_samples": 2131968, "global_step/max_steps": "8328/12700"}
{"lm loss": 2.06466722, "grad_norm": 0.35041746, "learning_rate": 3.117e-05, "elapsed_time_per_iteration": 4.84870863, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 43s", "remaining_time": "5h 56m 42s", "loss_scale": 1.0, "consumed_samples": 2132224, "global_step/max_steps": "8329/12700"}
{"lm loss": 2.10575652, "grad_norm": 0.3672213, "learning_rate": 3.115e-05, "elapsed_time_per_iteration": 5.02219653, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 48s", "remaining_time": "5h 56m 38s", "loss_scale": 1.0, "consumed_samples": 2132480, "global_step/max_steps": "8330/12700"}
{"lm loss": 2.0423491, "grad_norm": 0.34813035, "learning_rate": 3.114e-05, "elapsed_time_per_iteration": 4.8559742, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 53s", "remaining_time": "5h 56m 33s", "loss_scale": 1.0, "consumed_samples": 2132736, "global_step/max_steps": "8331/12700"}
{"lm loss": 2.06217432, "grad_norm": 0.32373649, "learning_rate": 3.113e-05, "elapsed_time_per_iteration": 4.88228464, "memory(GiB)": 28.98, "elapsed_time": "11h 19m 58s", "remaining_time": "5h 56m 28s", "loss_scale": 1.0, "consumed_samples": 2132992, "global_step/max_steps": "8332/12700"}
{"lm loss": 2.031569, "grad_norm": 0.38722533, "learning_rate": 3.112e-05, "elapsed_time_per_iteration": 5.02256083, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 3s", "remaining_time": "5h 56m 23s", "loss_scale": 1.0, "consumed_samples": 2133248, "global_step/max_steps": "8333/12700"}
{"lm loss": 2.07181525, "grad_norm": 0.34858167, "learning_rate": 3.111e-05, "elapsed_time_per_iteration": 4.9405458, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 8s", "remaining_time": "5h 56m 18s", "loss_scale": 1.0, "consumed_samples": 2133504, "global_step/max_steps": "8334/12700"}
{"lm loss": 2.07138419, "grad_norm": 0.38698915, "learning_rate": 3.11e-05, "elapsed_time_per_iteration": 4.79246593, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 13s", "remaining_time": "5h 56m 13s", "loss_scale": 1.0, "consumed_samples": 2133760, "global_step/max_steps": "8335/12700"}
{"lm loss": 2.10680318, "grad_norm": 0.33038023, "learning_rate": 3.109e-05, "elapsed_time_per_iteration": 4.83888435, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 17s", "remaining_time": "5h 56m 8s", "loss_scale": 1.0, "consumed_samples": 2134016, "global_step/max_steps": "8336/12700"}
{"lm loss": 2.08134842, "grad_norm": 0.34447455, "learning_rate": 3.107e-05, "elapsed_time_per_iteration": 4.95324469, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 22s", "remaining_time": "5h 56m 3s", "loss_scale": 1.0, "consumed_samples": 2134272, "global_step/max_steps": "8337/12700"}
{"lm loss": 2.0584867, "grad_norm": 0.37429205, "learning_rate": 3.106e-05, "elapsed_time_per_iteration": 4.9228642, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 27s", "remaining_time": "5h 55m 58s", "loss_scale": 1.0, "consumed_samples": 2134528, "global_step/max_steps": "8338/12700"}
{"lm loss": 2.07643437, "grad_norm": 0.36201376, "learning_rate": 3.105e-05, "elapsed_time_per_iteration": 4.97184181, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 32s", "remaining_time": "5h 55m 54s", "loss_scale": 1.0, "consumed_samples": 2134784, "global_step/max_steps": "8339/12700"}
{"lm loss": 2.08194828, "grad_norm": 0.35653904, "learning_rate": 3.104e-05, "elapsed_time_per_iteration": 4.88953853, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 37s", "remaining_time": "5h 55m 49s", "loss_scale": 1.0, "consumed_samples": 2135040, "global_step/max_steps": "8340/12700"}
{"lm loss": 2.05097485, "grad_norm": 0.33392212, "learning_rate": 3.103e-05, "elapsed_time_per_iteration": 4.87037349, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 42s", "remaining_time": "5h 55m 44s", "loss_scale": 1.0, "consumed_samples": 2135296, "global_step/max_steps": "8341/12700"}
{"lm loss": 2.03371644, "grad_norm": 0.37425509, "learning_rate": 3.102e-05, "elapsed_time_per_iteration": 4.92513132, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 47s", "remaining_time": "5h 55m 39s", "loss_scale": 1.0, "consumed_samples": 2135552, "global_step/max_steps": "8342/12700"}
{"lm loss": 2.08775425, "grad_norm": 0.36635658, "learning_rate": 3.101e-05, "elapsed_time_per_iteration": 4.90956116, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 52s", "remaining_time": "5h 55m 34s", "loss_scale": 1.0, "consumed_samples": 2135808, "global_step/max_steps": "8343/12700"}
{"lm loss": 2.05298138, "grad_norm": 0.35844857, "learning_rate": 3.099e-05, "elapsed_time_per_iteration": 4.83755374, "memory(GiB)": 28.98, "elapsed_time": "11h 20m 57s", "remaining_time": "5h 55m 29s", "loss_scale": 1.0, "consumed_samples": 2136064, "global_step/max_steps": "8344/12700"}
{"lm loss": 2.0525322, "grad_norm": 0.35290954, "learning_rate": 3.098e-05, "elapsed_time_per_iteration": 4.85140085, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 2s", "remaining_time": "5h 55m 24s", "loss_scale": 1.0, "consumed_samples": 2136320, "global_step/max_steps": "8345/12700"}
{"lm loss": 2.06267118, "grad_norm": 0.36083806, "learning_rate": 3.097e-05, "elapsed_time_per_iteration": 4.91407633, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 7s", "remaining_time": "5h 55m 19s", "loss_scale": 1.0, "consumed_samples": 2136576, "global_step/max_steps": "8346/12700"}
{"lm loss": 2.04730582, "grad_norm": 0.34910119, "learning_rate": 3.096e-05, "elapsed_time_per_iteration": 4.95197082, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 11s", "remaining_time": "5h 55m 14s", "loss_scale": 1.0, "consumed_samples": 2136832, "global_step/max_steps": "8347/12700"}
{"lm loss": 2.08838224, "grad_norm": 0.35484308, "learning_rate": 3.095e-05, "elapsed_time_per_iteration": 4.95154119, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 16s", "remaining_time": "5h 55m 10s", "loss_scale": 1.0, "consumed_samples": 2137088, "global_step/max_steps": "8348/12700"}
{"lm loss": 2.09828138, "grad_norm": 0.360347, "learning_rate": 3.094e-05, "elapsed_time_per_iteration": 4.92029095, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 21s", "remaining_time": "5h 55m 5s", "loss_scale": 1.0, "consumed_samples": 2137344, "global_step/max_steps": "8349/12700"}
{"lm loss": 2.07408357, "grad_norm": 0.37258288, "learning_rate": 3.093e-05, "elapsed_time_per_iteration": 4.92681575, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 26s", "remaining_time": "5h 55m 0s", "loss_scale": 1.0, "consumed_samples": 2137600, "global_step/max_steps": "8350/12700"}
{"lm loss": 2.06881738, "grad_norm": 0.34135321, "learning_rate": 3.091e-05, "elapsed_time_per_iteration": 4.92023921, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 31s", "remaining_time": "5h 54m 55s", "loss_scale": 1.0, "consumed_samples": 2137856, "global_step/max_steps": "8351/12700"}
{"lm loss": 2.03965831, "grad_norm": 0.37210318, "learning_rate": 3.09e-05, "elapsed_time_per_iteration": 4.84003854, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 36s", "remaining_time": "5h 54m 50s", "loss_scale": 1.0, "consumed_samples": 2138112, "global_step/max_steps": "8352/12700"}
{"lm loss": 2.05838394, "grad_norm": 0.33994001, "learning_rate": 3.089e-05, "elapsed_time_per_iteration": 4.98493361, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 41s", "remaining_time": "5h 54m 45s", "loss_scale": 1.0, "consumed_samples": 2138368, "global_step/max_steps": "8353/12700"}
{"lm loss": 2.05319953, "grad_norm": 0.35610703, "learning_rate": 3.088e-05, "elapsed_time_per_iteration": 4.96246815, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 46s", "remaining_time": "5h 54m 40s", "loss_scale": 1.0, "consumed_samples": 2138624, "global_step/max_steps": "8354/12700"}
{"lm loss": 2.05209541, "grad_norm": 0.32760417, "learning_rate": 3.087e-05, "elapsed_time_per_iteration": 4.96801353, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 51s", "remaining_time": "5h 54m 35s", "loss_scale": 1.0, "consumed_samples": 2138880, "global_step/max_steps": "8355/12700"}
{"lm loss": 2.11851144, "grad_norm": 0.36448011, "learning_rate": 3.086e-05, "elapsed_time_per_iteration": 4.90238953, "memory(GiB)": 28.98, "elapsed_time": "11h 21m 56s", "remaining_time": "5h 54m 31s", "loss_scale": 1.0, "consumed_samples": 2139136, "global_step/max_steps": "8356/12700"}
{"lm loss": 2.09113693, "grad_norm": 0.38004094, "learning_rate": 3.085e-05, "elapsed_time_per_iteration": 4.94372892, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 1s", "remaining_time": "5h 54m 26s", "loss_scale": 1.0, "consumed_samples": 2139392, "global_step/max_steps": "8357/12700"}
{"lm loss": 2.08142257, "grad_norm": 0.37241709, "learning_rate": 3.083e-05, "elapsed_time_per_iteration": 4.90805364, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 6s", "remaining_time": "5h 54m 21s", "loss_scale": 1.0, "consumed_samples": 2139648, "global_step/max_steps": "8358/12700"}
{"lm loss": 2.04474711, "grad_norm": 0.37537286, "learning_rate": 3.082e-05, "elapsed_time_per_iteration": 4.86084008, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 11s", "remaining_time": "5h 54m 16s", "loss_scale": 1.0, "consumed_samples": 2139904, "global_step/max_steps": "8359/12700"}
{"lm loss": 2.08804393, "grad_norm": 0.3591868, "learning_rate": 3.081e-05, "elapsed_time_per_iteration": 4.84083056, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 15s", "remaining_time": "5h 54m 11s", "loss_scale": 1.0, "consumed_samples": 2140160, "global_step/max_steps": "8360/12700"}
{"lm loss": 2.04698253, "grad_norm": 0.35531849, "learning_rate": 3.08e-05, "elapsed_time_per_iteration": 4.90829468, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 20s", "remaining_time": "5h 54m 6s", "loss_scale": 1.0, "consumed_samples": 2140416, "global_step/max_steps": "8361/12700"}
{"lm loss": 2.09489131, "grad_norm": 0.34679425, "learning_rate": 3.079e-05, "elapsed_time_per_iteration": 4.90602422, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 25s", "remaining_time": "5h 54m 1s", "loss_scale": 1.0, "consumed_samples": 2140672, "global_step/max_steps": "8362/12700"}
{"lm loss": 2.09158468, "grad_norm": 0.37758058, "learning_rate": 3.078e-05, "elapsed_time_per_iteration": 4.96955967, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 30s", "remaining_time": "5h 53m 56s", "loss_scale": 1.0, "consumed_samples": 2140928, "global_step/max_steps": "8363/12700"}
{"lm loss": 2.04991508, "grad_norm": 0.36034146, "learning_rate": 3.077e-05, "elapsed_time_per_iteration": 4.89410043, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 35s", "remaining_time": "5h 53m 51s", "loss_scale": 1.0, "consumed_samples": 2141184, "global_step/max_steps": "8364/12700"}
{"lm loss": 2.09008408, "grad_norm": 0.37032008, "learning_rate": 3.075e-05, "elapsed_time_per_iteration": 4.85166121, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 40s", "remaining_time": "5h 53m 46s", "loss_scale": 1.0, "consumed_samples": 2141440, "global_step/max_steps": "8365/12700"}
{"lm loss": 2.09028935, "grad_norm": 0.34059009, "learning_rate": 3.074e-05, "elapsed_time_per_iteration": 4.84593463, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 45s", "remaining_time": "5h 53m 42s", "loss_scale": 1.0, "consumed_samples": 2141696, "global_step/max_steps": "8366/12700"}
{"lm loss": 2.07461429, "grad_norm": 0.39370865, "learning_rate": 3.073e-05, "elapsed_time_per_iteration": 4.87323809, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 50s", "remaining_time": "5h 53m 37s", "loss_scale": 1.0, "consumed_samples": 2141952, "global_step/max_steps": "8367/12700"}
{"lm loss": 2.07512498, "grad_norm": 0.3622795, "learning_rate": 3.072e-05, "elapsed_time_per_iteration": 5.01203728, "memory(GiB)": 28.98, "elapsed_time": "11h 22m 55s", "remaining_time": "5h 53m 32s", "loss_scale": 1.0, "consumed_samples": 2142208, "global_step/max_steps": "8368/12700"}
{"lm loss": 2.07413769, "grad_norm": 0.3531397, "learning_rate": 3.071e-05, "elapsed_time_per_iteration": 4.84943628, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 0s", "remaining_time": "5h 53m 27s", "loss_scale": 1.0, "consumed_samples": 2142464, "global_step/max_steps": "8369/12700"}
{"lm loss": 2.02693415, "grad_norm": 0.34136915, "learning_rate": 3.07e-05, "elapsed_time_per_iteration": 4.88440037, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 4s", "remaining_time": "5h 53m 22s", "loss_scale": 1.0, "consumed_samples": 2142720, "global_step/max_steps": "8370/12700"}
{"lm loss": 2.04501677, "grad_norm": 0.36782083, "learning_rate": 3.069e-05, "elapsed_time_per_iteration": 4.87801886, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 9s", "remaining_time": "5h 53m 17s", "loss_scale": 1.0, "consumed_samples": 2142976, "global_step/max_steps": "8371/12700"}
{"lm loss": 2.04767585, "grad_norm": 0.36620393, "learning_rate": 3.067e-05, "elapsed_time_per_iteration": 4.90034246, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 14s", "remaining_time": "5h 53m 12s", "loss_scale": 1.0, "consumed_samples": 2143232, "global_step/max_steps": "8372/12700"}
{"lm loss": 2.08159471, "grad_norm": 0.36065301, "learning_rate": 3.066e-05, "elapsed_time_per_iteration": 4.84809494, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 19s", "remaining_time": "5h 53m 7s", "loss_scale": 1.0, "consumed_samples": 2143488, "global_step/max_steps": "8373/12700"}
{"lm loss": 2.0576632, "grad_norm": 0.32596481, "learning_rate": 3.065e-05, "elapsed_time_per_iteration": 4.89447212, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 24s", "remaining_time": "5h 53m 2s", "loss_scale": 1.0, "consumed_samples": 2143744, "global_step/max_steps": "8374/12700"}
{"lm loss": 2.10995388, "grad_norm": 0.37265027, "learning_rate": 3.064e-05, "elapsed_time_per_iteration": 4.85363173, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 29s", "remaining_time": "5h 52m 57s", "loss_scale": 1.0, "consumed_samples": 2144000, "global_step/max_steps": "8375/12700"}
{"lm loss": 2.08169508, "grad_norm": 0.3552742, "learning_rate": 3.063e-05, "elapsed_time_per_iteration": 4.87904119, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 34s", "remaining_time": "5h 52m 53s", "loss_scale": 1.0, "consumed_samples": 2144256, "global_step/max_steps": "8376/12700"}
{"lm loss": 2.12592459, "grad_norm": 0.36386859, "learning_rate": 3.062e-05, "elapsed_time_per_iteration": 4.93581867, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 39s", "remaining_time": "5h 52m 48s", "loss_scale": 1.0, "consumed_samples": 2144512, "global_step/max_steps": "8377/12700"}
{"lm loss": 2.1006639, "grad_norm": 0.35946584, "learning_rate": 3.061e-05, "elapsed_time_per_iteration": 4.8386395, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 43s", "remaining_time": "5h 52m 43s", "loss_scale": 1.0, "consumed_samples": 2144768, "global_step/max_steps": "8378/12700"}
{"lm loss": 2.08647227, "grad_norm": 0.37096667, "learning_rate": 3.059e-05, "elapsed_time_per_iteration": 4.77410865, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 48s", "remaining_time": "5h 52m 38s", "loss_scale": 1.0, "consumed_samples": 2145024, "global_step/max_steps": "8379/12700"}
{"lm loss": 2.09104085, "grad_norm": 0.34655124, "learning_rate": 3.058e-05, "elapsed_time_per_iteration": 4.8909421, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 53s", "remaining_time": "5h 52m 33s", "loss_scale": 1.0, "consumed_samples": 2145280, "global_step/max_steps": "8380/12700"}
{"lm loss": 2.06378078, "grad_norm": 0.34918013, "learning_rate": 3.057e-05, "elapsed_time_per_iteration": 4.91330004, "memory(GiB)": 28.98, "elapsed_time": "11h 23m 58s", "remaining_time": "5h 52m 28s", "loss_scale": 1.0, "consumed_samples": 2145536, "global_step/max_steps": "8381/12700"}
{"lm loss": 2.07621932, "grad_norm": 0.33374739, "learning_rate": 3.056e-05, "elapsed_time_per_iteration": 4.95448542, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 3s", "remaining_time": "5h 52m 23s", "loss_scale": 1.0, "consumed_samples": 2145792, "global_step/max_steps": "8382/12700"}
{"lm loss": 2.11865091, "grad_norm": 0.37599099, "learning_rate": 3.055e-05, "elapsed_time_per_iteration": 4.87971687, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 8s", "remaining_time": "5h 52m 18s", "loss_scale": 1.0, "consumed_samples": 2146048, "global_step/max_steps": "8383/12700"}
{"lm loss": 2.06894851, "grad_norm": 0.34968567, "learning_rate": 3.054e-05, "elapsed_time_per_iteration": 5.01434565, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 13s", "remaining_time": "5h 52m 13s", "loss_scale": 1.0, "consumed_samples": 2146304, "global_step/max_steps": "8384/12700"}
{"lm loss": 2.08244061, "grad_norm": 0.35440964, "learning_rate": 3.053e-05, "elapsed_time_per_iteration": 4.84628725, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 18s", "remaining_time": "5h 52m 8s", "loss_scale": 1.0, "consumed_samples": 2146560, "global_step/max_steps": "8385/12700"}
{"lm loss": 2.0458312, "grad_norm": 0.33817273, "learning_rate": 3.051e-05, "elapsed_time_per_iteration": 4.93645358, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 23s", "remaining_time": "5h 52m 4s", "loss_scale": 1.0, "consumed_samples": 2146816, "global_step/max_steps": "8386/12700"}
{"lm loss": 2.09862781, "grad_norm": 0.34928924, "learning_rate": 3.05e-05, "elapsed_time_per_iteration": 4.85016394, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 28s", "remaining_time": "5h 51m 59s", "loss_scale": 1.0, "consumed_samples": 2147072, "global_step/max_steps": "8387/12700"}
{"lm loss": 2.06921768, "grad_norm": 0.3701508, "learning_rate": 3.049e-05, "elapsed_time_per_iteration": 4.81702471, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 32s", "remaining_time": "5h 51m 54s", "loss_scale": 1.0, "consumed_samples": 2147328, "global_step/max_steps": "8388/12700"}
{"lm loss": 2.05949378, "grad_norm": 0.33519068, "learning_rate": 3.048e-05, "elapsed_time_per_iteration": 4.82217646, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 37s", "remaining_time": "5h 51m 49s", "loss_scale": 1.0, "consumed_samples": 2147584, "global_step/max_steps": "8389/12700"}
{"lm loss": 2.05653143, "grad_norm": 0.34452993, "learning_rate": 3.047e-05, "elapsed_time_per_iteration": 4.92462349, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 42s", "remaining_time": "5h 51m 44s", "loss_scale": 1.0, "consumed_samples": 2147840, "global_step/max_steps": "8390/12700"}
{"lm loss": 2.06169915, "grad_norm": 0.34115759, "learning_rate": 3.046e-05, "elapsed_time_per_iteration": 4.82087398, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 47s", "remaining_time": "5h 51m 39s", "loss_scale": 1.0, "consumed_samples": 2148096, "global_step/max_steps": "8391/12700"}
{"lm loss": 2.04851103, "grad_norm": 0.35241434, "learning_rate": 3.045e-05, "elapsed_time_per_iteration": 4.86109519, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 52s", "remaining_time": "5h 51m 34s", "loss_scale": 1.0, "consumed_samples": 2148352, "global_step/max_steps": "8392/12700"}
{"lm loss": 2.07706261, "grad_norm": 0.34888276, "learning_rate": 3.043e-05, "elapsed_time_per_iteration": 4.80003357, "memory(GiB)": 28.98, "elapsed_time": "11h 24m 57s", "remaining_time": "5h 51m 29s", "loss_scale": 1.0, "consumed_samples": 2148608, "global_step/max_steps": "8393/12700"}
{"lm loss": 2.06799364, "grad_norm": 0.40668166, "learning_rate": 3.042e-05, "elapsed_time_per_iteration": 4.8941555, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 1s", "remaining_time": "5h 51m 24s", "loss_scale": 1.0, "consumed_samples": 2148864, "global_step/max_steps": "8394/12700"}
{"lm loss": 2.07889557, "grad_norm": 0.34996292, "learning_rate": 3.041e-05, "elapsed_time_per_iteration": 4.88435006, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 6s", "remaining_time": "5h 51m 19s", "loss_scale": 1.0, "consumed_samples": 2149120, "global_step/max_steps": "8395/12700"}
{"lm loss": 2.05461693, "grad_norm": 0.37813047, "learning_rate": 3.04e-05, "elapsed_time_per_iteration": 4.85595202, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 11s", "remaining_time": "5h 51m 14s", "loss_scale": 1.0, "consumed_samples": 2149376, "global_step/max_steps": "8396/12700"}
{"lm loss": 2.07934332, "grad_norm": 0.37311029, "learning_rate": 3.039e-05, "elapsed_time_per_iteration": 4.92424345, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 16s", "remaining_time": "5h 51m 9s", "loss_scale": 1.0, "consumed_samples": 2149632, "global_step/max_steps": "8397/12700"}
{"lm loss": 2.07641888, "grad_norm": 0.34013715, "learning_rate": 3.038e-05, "elapsed_time_per_iteration": 4.89814234, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 21s", "remaining_time": "5h 51m 5s", "loss_scale": 1.0, "consumed_samples": 2149888, "global_step/max_steps": "8398/12700"}
{"lm loss": 2.0688293, "grad_norm": 0.37352797, "learning_rate": 3.037e-05, "elapsed_time_per_iteration": 4.89920402, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 26s", "remaining_time": "5h 51m 0s", "loss_scale": 1.0, "consumed_samples": 2150144, "global_step/max_steps": "8399/12700"}
{"lm loss": 2.07583809, "grad_norm": 0.34484908, "learning_rate": 3.036e-05, "elapsed_time_per_iteration": 4.84652925, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 31s", "remaining_time": "5h 50m 55s", "loss_scale": 1.0, "consumed_samples": 2150400, "global_step/max_steps": "8400/12700"}
{"lm loss": 2.03601742, "grad_norm": 0.34880635, "learning_rate": 3.034e-05, "elapsed_time_per_iteration": 4.81180263, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 36s", "remaining_time": "5h 50m 50s", "loss_scale": 1.0, "consumed_samples": 2150656, "global_step/max_steps": "8401/12700"}
{"lm loss": 2.06067038, "grad_norm": 0.38523555, "learning_rate": 3.033e-05, "elapsed_time_per_iteration": 4.8316946, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 40s", "remaining_time": "5h 50m 45s", "loss_scale": 1.0, "consumed_samples": 2150912, "global_step/max_steps": "8402/12700"}
{"lm loss": 2.06032038, "grad_norm": 0.34063786, "learning_rate": 3.032e-05, "elapsed_time_per_iteration": 4.90506387, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 45s", "remaining_time": "5h 50m 40s", "loss_scale": 1.0, "consumed_samples": 2151168, "global_step/max_steps": "8403/12700"}
{"lm loss": 2.06279445, "grad_norm": 0.38847017, "learning_rate": 3.031e-05, "elapsed_time_per_iteration": 4.89334631, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 50s", "remaining_time": "5h 50m 35s", "loss_scale": 1.0, "consumed_samples": 2151424, "global_step/max_steps": "8404/12700"}
{"lm loss": 2.06463575, "grad_norm": 0.36061257, "learning_rate": 3.03e-05, "elapsed_time_per_iteration": 4.96608138, "memory(GiB)": 28.98, "elapsed_time": "11h 25m 55s", "remaining_time": "5h 50m 30s", "loss_scale": 1.0, "consumed_samples": 2151680, "global_step/max_steps": "8405/12700"}
{"lm loss": 2.07877231, "grad_norm": 0.32688847, "learning_rate": 3.029e-05, "elapsed_time_per_iteration": 4.91046309, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 0s", "remaining_time": "5h 50m 25s", "loss_scale": 1.0, "consumed_samples": 2151936, "global_step/max_steps": "8406/12700"}
{"lm loss": 2.03228569, "grad_norm": 0.34163311, "learning_rate": 3.028e-05, "elapsed_time_per_iteration": 4.81284261, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 5s", "remaining_time": "5h 50m 20s", "loss_scale": 1.0, "consumed_samples": 2152192, "global_step/max_steps": "8407/12700"}
{"lm loss": 2.08738804, "grad_norm": 0.35606945, "learning_rate": 3.026e-05, "elapsed_time_per_iteration": 4.86465049, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 10s", "remaining_time": "5h 50m 16s", "loss_scale": 1.0, "consumed_samples": 2152448, "global_step/max_steps": "8408/12700"}
{"lm loss": 2.07364154, "grad_norm": 0.34033158, "learning_rate": 3.025e-05, "elapsed_time_per_iteration": 4.909971, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 15s", "remaining_time": "5h 50m 11s", "loss_scale": 1.0, "consumed_samples": 2152704, "global_step/max_steps": "8409/12700"}
{"lm loss": 2.03362966, "grad_norm": 0.34257308, "learning_rate": 3.024e-05, "elapsed_time_per_iteration": 4.86126113, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 20s", "remaining_time": "5h 50m 6s", "loss_scale": 1.0, "consumed_samples": 2152960, "global_step/max_steps": "8410/12700"}
{"lm loss": 2.09792042, "grad_norm": 0.38392547, "learning_rate": 3.023e-05, "elapsed_time_per_iteration": 4.89095807, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 24s", "remaining_time": "5h 50m 1s", "loss_scale": 1.0, "consumed_samples": 2153216, "global_step/max_steps": "8411/12700"}
{"lm loss": 2.05762959, "grad_norm": 0.33865273, "learning_rate": 3.022e-05, "elapsed_time_per_iteration": 4.92747784, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 29s", "remaining_time": "5h 49m 56s", "loss_scale": 1.0, "consumed_samples": 2153472, "global_step/max_steps": "8412/12700"}
{"lm loss": 2.06801391, "grad_norm": 0.34163427, "learning_rate": 3.021e-05, "elapsed_time_per_iteration": 5.01916313, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 34s", "remaining_time": "5h 49m 51s", "loss_scale": 1.0, "consumed_samples": 2153728, "global_step/max_steps": "8413/12700"}
{"lm loss": 2.0801456, "grad_norm": 0.3558318, "learning_rate": 3.02e-05, "elapsed_time_per_iteration": 4.90230227, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 39s", "remaining_time": "5h 49m 46s", "loss_scale": 1.0, "consumed_samples": 2153984, "global_step/max_steps": "8414/12700"}
{"lm loss": 2.08801198, "grad_norm": 0.35322836, "learning_rate": 3.018e-05, "elapsed_time_per_iteration": 4.88943529, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 44s", "remaining_time": "5h 49m 41s", "loss_scale": 1.0, "consumed_samples": 2154240, "global_step/max_steps": "8415/12700"}
{"lm loss": 2.04096699, "grad_norm": 0.36435005, "learning_rate": 3.017e-05, "elapsed_time_per_iteration": 4.86185813, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 49s", "remaining_time": "5h 49m 36s", "loss_scale": 1.0, "consumed_samples": 2154496, "global_step/max_steps": "8416/12700"}
{"lm loss": 2.11219811, "grad_norm": 0.3645511, "learning_rate": 3.016e-05, "elapsed_time_per_iteration": 4.98059893, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 54s", "remaining_time": "5h 49m 32s", "loss_scale": 1.0, "consumed_samples": 2154752, "global_step/max_steps": "8417/12700"}
{"lm loss": 2.06124163, "grad_norm": 0.3474201, "learning_rate": 3.015e-05, "elapsed_time_per_iteration": 4.85861897, "memory(GiB)": 28.98, "elapsed_time": "11h 26m 59s", "remaining_time": "5h 49m 27s", "loss_scale": 1.0, "consumed_samples": 2155008, "global_step/max_steps": "8418/12700"}
{"lm loss": 2.09162617, "grad_norm": 0.36308354, "learning_rate": 3.014e-05, "elapsed_time_per_iteration": 4.91382074, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 4s", "remaining_time": "5h 49m 22s", "loss_scale": 1.0, "consumed_samples": 2155264, "global_step/max_steps": "8419/12700"}
{"lm loss": 2.06024647, "grad_norm": 0.37408388, "learning_rate": 3.013e-05, "elapsed_time_per_iteration": 4.92550635, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 9s", "remaining_time": "5h 49m 17s", "loss_scale": 1.0, "consumed_samples": 2155520, "global_step/max_steps": "8420/12700"}
{"lm loss": 2.08592391, "grad_norm": 0.35191682, "learning_rate": 3.012e-05, "elapsed_time_per_iteration": 4.80057621, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 13s", "remaining_time": "5h 49m 12s", "loss_scale": 1.0, "consumed_samples": 2155776, "global_step/max_steps": "8421/12700"}
{"lm loss": 2.07484794, "grad_norm": 0.3531943, "learning_rate": 3.011e-05, "elapsed_time_per_iteration": 4.81341767, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 18s", "remaining_time": "5h 49m 7s", "loss_scale": 1.0, "consumed_samples": 2156032, "global_step/max_steps": "8422/12700"}
{"lm loss": 2.07007742, "grad_norm": 0.33206478, "learning_rate": 3.009e-05, "elapsed_time_per_iteration": 4.85079432, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 23s", "remaining_time": "5h 49m 2s", "loss_scale": 1.0, "consumed_samples": 2156288, "global_step/max_steps": "8423/12700"}
{"lm loss": 2.07599473, "grad_norm": 0.33790326, "learning_rate": 3.008e-05, "elapsed_time_per_iteration": 4.86140132, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 28s", "remaining_time": "5h 48m 57s", "loss_scale": 1.0, "consumed_samples": 2156544, "global_step/max_steps": "8424/12700"}
{"lm loss": 2.04588842, "grad_norm": 0.33997437, "learning_rate": 3.007e-05, "elapsed_time_per_iteration": 4.84846449, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 33s", "remaining_time": "5h 48m 52s", "loss_scale": 1.0, "consumed_samples": 2156800, "global_step/max_steps": "8425/12700"}
{"lm loss": 2.10672116, "grad_norm": 0.34663004, "learning_rate": 3.006e-05, "elapsed_time_per_iteration": 4.97851443, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 38s", "remaining_time": "5h 48m 47s", "loss_scale": 1.0, "consumed_samples": 2157056, "global_step/max_steps": "8426/12700"}
{"lm loss": 2.06005025, "grad_norm": 0.33082598, "learning_rate": 3.005e-05, "elapsed_time_per_iteration": 4.90251398, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 43s", "remaining_time": "5h 48m 42s", "loss_scale": 1.0, "consumed_samples": 2157312, "global_step/max_steps": "8427/12700"}
{"lm loss": 2.04868031, "grad_norm": 0.35429406, "learning_rate": 3.004e-05, "elapsed_time_per_iteration": 4.92475533, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 48s", "remaining_time": "5h 48m 38s", "loss_scale": 1.0, "consumed_samples": 2157568, "global_step/max_steps": "8428/12700"}
{"lm loss": 2.08024383, "grad_norm": 0.38856599, "learning_rate": 3.003e-05, "elapsed_time_per_iteration": 4.88593197, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 53s", "remaining_time": "5h 48m 33s", "loss_scale": 1.0, "consumed_samples": 2157824, "global_step/max_steps": "8429/12700"}
{"lm loss": 2.08151197, "grad_norm": 0.34597167, "learning_rate": 3.001e-05, "elapsed_time_per_iteration": 4.87604332, "memory(GiB)": 28.98, "elapsed_time": "11h 27m 57s", "remaining_time": "5h 48m 28s", "loss_scale": 1.0, "consumed_samples": 2158080, "global_step/max_steps": "8430/12700"}
{"lm loss": 2.0832305, "grad_norm": 0.34570634, "learning_rate": 3e-05, "elapsed_time_per_iteration": 4.94936657, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 2s", "remaining_time": "5h 48m 23s", "loss_scale": 1.0, "consumed_samples": 2158336, "global_step/max_steps": "8431/12700"}
{"lm loss": 2.05624938, "grad_norm": 0.34482417, "learning_rate": 2.999e-05, "elapsed_time_per_iteration": 4.95355797, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 7s", "remaining_time": "5h 48m 18s", "loss_scale": 1.0, "consumed_samples": 2158592, "global_step/max_steps": "8432/12700"}
{"lm loss": 2.0716207, "grad_norm": 0.3696354, "learning_rate": 2.998e-05, "elapsed_time_per_iteration": 4.9442935, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 12s", "remaining_time": "5h 48m 13s", "loss_scale": 1.0, "consumed_samples": 2158848, "global_step/max_steps": "8433/12700"}
{"lm loss": 2.10977697, "grad_norm": 0.3718318, "learning_rate": 2.997e-05, "elapsed_time_per_iteration": 5.00184417, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 17s", "remaining_time": "5h 48m 8s", "loss_scale": 1.0, "consumed_samples": 2159104, "global_step/max_steps": "8434/12700"}
{"lm loss": 2.06793308, "grad_norm": 0.35235184, "learning_rate": 2.996e-05, "elapsed_time_per_iteration": 4.94740272, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 22s", "remaining_time": "5h 48m 3s", "loss_scale": 1.0, "consumed_samples": 2159360, "global_step/max_steps": "8435/12700"}
{"lm loss": 2.03066611, "grad_norm": 0.35141146, "learning_rate": 2.995e-05, "elapsed_time_per_iteration": 4.88343263, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 27s", "remaining_time": "5h 47m 59s", "loss_scale": 1.0, "consumed_samples": 2159616, "global_step/max_steps": "8436/12700"}
{"lm loss": 2.1174202, "grad_norm": 0.35946301, "learning_rate": 2.994e-05, "elapsed_time_per_iteration": 4.96932602, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 32s", "remaining_time": "5h 47m 54s", "loss_scale": 1.0, "consumed_samples": 2159872, "global_step/max_steps": "8437/12700"}
{"lm loss": 2.06504703, "grad_norm": 0.35049438, "learning_rate": 2.992e-05, "elapsed_time_per_iteration": 4.85598564, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 37s", "remaining_time": "5h 47m 49s", "loss_scale": 1.0, "consumed_samples": 2160128, "global_step/max_steps": "8438/12700"}
{"lm loss": 2.09716964, "grad_norm": 0.35062501, "learning_rate": 2.991e-05, "elapsed_time_per_iteration": 4.99999285, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 42s", "remaining_time": "5h 47m 44s", "loss_scale": 1.0, "consumed_samples": 2160384, "global_step/max_steps": "8439/12700"}
{"lm loss": 2.09130669, "grad_norm": 0.34551835, "learning_rate": 2.99e-05, "elapsed_time_per_iteration": 4.87826777, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 47s", "remaining_time": "5h 47m 39s", "loss_scale": 1.0, "consumed_samples": 2160640, "global_step/max_steps": "8440/12700"}
{"lm loss": 2.10011721, "grad_norm": 0.35398504, "learning_rate": 2.989e-05, "elapsed_time_per_iteration": 4.78824139, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 52s", "remaining_time": "5h 47m 34s", "loss_scale": 1.0, "consumed_samples": 2160896, "global_step/max_steps": "8441/12700"}
{"lm loss": 2.06607127, "grad_norm": 0.33658352, "learning_rate": 2.988e-05, "elapsed_time_per_iteration": 4.86591721, "memory(GiB)": 28.98, "elapsed_time": "11h 28m 56s", "remaining_time": "5h 47m 29s", "loss_scale": 1.0, "consumed_samples": 2161152, "global_step/max_steps": "8442/12700"}
{"lm loss": 2.06321883, "grad_norm": 0.35710326, "learning_rate": 2.987e-05, "elapsed_time_per_iteration": 4.95800829, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 1s", "remaining_time": "5h 47m 24s", "loss_scale": 1.0, "consumed_samples": 2161408, "global_step/max_steps": "8443/12700"}
{"lm loss": 2.06635904, "grad_norm": 0.33837339, "learning_rate": 2.986e-05, "elapsed_time_per_iteration": 4.85728002, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 6s", "remaining_time": "5h 47m 19s", "loss_scale": 1.0, "consumed_samples": 2161664, "global_step/max_steps": "8444/12700"}
{"lm loss": 2.0836134, "grad_norm": 0.35965124, "learning_rate": 2.985e-05, "elapsed_time_per_iteration": 4.90227723, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 11s", "remaining_time": "5h 47m 14s", "loss_scale": 1.0, "consumed_samples": 2161920, "global_step/max_steps": "8445/12700"}
{"lm loss": 2.08203292, "grad_norm": 0.35633317, "learning_rate": 2.983e-05, "elapsed_time_per_iteration": 4.99781871, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 16s", "remaining_time": "5h 47m 10s", "loss_scale": 1.0, "consumed_samples": 2162176, "global_step/max_steps": "8446/12700"}
{"lm loss": 2.0818634, "grad_norm": 0.3530204, "learning_rate": 2.982e-05, "elapsed_time_per_iteration": 4.80723834, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 21s", "remaining_time": "5h 47m 5s", "loss_scale": 1.0, "consumed_samples": 2162432, "global_step/max_steps": "8447/12700"}
{"lm loss": 2.09231591, "grad_norm": 0.37263039, "learning_rate": 2.981e-05, "elapsed_time_per_iteration": 4.81598735, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 26s", "remaining_time": "5h 47m 0s", "loss_scale": 1.0, "consumed_samples": 2162688, "global_step/max_steps": "8448/12700"}
{"lm loss": 2.02977443, "grad_norm": 0.3849715, "learning_rate": 2.98e-05, "elapsed_time_per_iteration": 4.88400245, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 31s", "remaining_time": "5h 46m 55s", "loss_scale": 1.0, "consumed_samples": 2162944, "global_step/max_steps": "8449/12700"}
{"lm loss": 2.0562768, "grad_norm": 0.3831, "learning_rate": 2.979e-05, "elapsed_time_per_iteration": 4.83876586, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 36s", "remaining_time": "5h 46m 50s", "loss_scale": 1.0, "consumed_samples": 2163200, "global_step/max_steps": "8450/12700"}
{"lm loss": 2.05522037, "grad_norm": 0.38015425, "learning_rate": 2.978e-05, "elapsed_time_per_iteration": 4.87537217, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 40s", "remaining_time": "5h 46m 45s", "loss_scale": 1.0, "consumed_samples": 2163456, "global_step/max_steps": "8451/12700"}
{"lm loss": 2.03970766, "grad_norm": 0.38802278, "learning_rate": 2.977e-05, "elapsed_time_per_iteration": 4.83027315, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 45s", "remaining_time": "5h 46m 40s", "loss_scale": 1.0, "consumed_samples": 2163712, "global_step/max_steps": "8452/12700"}
{"lm loss": 2.08128238, "grad_norm": 0.35285529, "learning_rate": 2.975e-05, "elapsed_time_per_iteration": 5.0236249, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 50s", "remaining_time": "5h 46m 35s", "loss_scale": 1.0, "consumed_samples": 2163968, "global_step/max_steps": "8453/12700"}
{"lm loss": 2.09803534, "grad_norm": 0.39990208, "learning_rate": 2.974e-05, "elapsed_time_per_iteration": 5.05978966, "memory(GiB)": 28.98, "elapsed_time": "11h 29m 55s", "remaining_time": "5h 46m 30s", "loss_scale": 1.0, "consumed_samples": 2164224, "global_step/max_steps": "8454/12700"}
{"lm loss": 2.08436155, "grad_norm": 0.33897585, "learning_rate": 2.973e-05, "elapsed_time_per_iteration": 4.93092442, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 0s", "remaining_time": "5h 46m 26s", "loss_scale": 1.0, "consumed_samples": 2164480, "global_step/max_steps": "8455/12700"}
{"lm loss": 2.0549798, "grad_norm": 0.34382147, "learning_rate": 2.972e-05, "elapsed_time_per_iteration": 4.90430737, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 5s", "remaining_time": "5h 46m 21s", "loss_scale": 1.0, "consumed_samples": 2164736, "global_step/max_steps": "8456/12700"}
{"lm loss": 2.05822706, "grad_norm": 0.35756201, "learning_rate": 2.971e-05, "elapsed_time_per_iteration": 4.88909197, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 10s", "remaining_time": "5h 46m 16s", "loss_scale": 1.0, "consumed_samples": 2164992, "global_step/max_steps": "8457/12700"}
{"lm loss": 2.08486629, "grad_norm": 0.33960155, "learning_rate": 2.97e-05, "elapsed_time_per_iteration": 4.83345962, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 15s", "remaining_time": "5h 46m 11s", "loss_scale": 1.0, "consumed_samples": 2165248, "global_step/max_steps": "8458/12700"}
{"lm loss": 2.08693862, "grad_norm": 0.37501958, "learning_rate": 2.969e-05, "elapsed_time_per_iteration": 5.04182768, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 20s", "remaining_time": "5h 46m 6s", "loss_scale": 1.0, "consumed_samples": 2165504, "global_step/max_steps": "8459/12700"}
{"lm loss": 2.0703423, "grad_norm": 0.36026663, "learning_rate": 2.968e-05, "elapsed_time_per_iteration": 4.96682048, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 25s", "remaining_time": "5h 46m 1s", "loss_scale": 1.0, "consumed_samples": 2165760, "global_step/max_steps": "8460/12700"}
{"lm loss": 2.06859255, "grad_norm": 0.34795034, "learning_rate": 2.966e-05, "elapsed_time_per_iteration": 4.91568089, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 30s", "remaining_time": "5h 45m 56s", "loss_scale": 1.0, "consumed_samples": 2166016, "global_step/max_steps": "8461/12700"}
{"lm loss": 2.04372668, "grad_norm": 0.34943593, "learning_rate": 2.965e-05, "elapsed_time_per_iteration": 5.00711703, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 35s", "remaining_time": "5h 45m 51s", "loss_scale": 1.0, "consumed_samples": 2166272, "global_step/max_steps": "8462/12700"}
{"lm loss": 2.0637393, "grad_norm": 0.36761081, "learning_rate": 2.964e-05, "elapsed_time_per_iteration": 4.9054184, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 40s", "remaining_time": "5h 45m 47s", "loss_scale": 1.0, "consumed_samples": 2166528, "global_step/max_steps": "8463/12700"}
{"lm loss": 2.10487676, "grad_norm": 0.35649675, "learning_rate": 2.963e-05, "elapsed_time_per_iteration": 4.95710349, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 45s", "remaining_time": "5h 45m 42s", "loss_scale": 1.0, "consumed_samples": 2166784, "global_step/max_steps": "8464/12700"}
{"lm loss": 2.05762076, "grad_norm": 0.33842996, "learning_rate": 2.962e-05, "elapsed_time_per_iteration": 4.91846013, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 50s", "remaining_time": "5h 45m 37s", "loss_scale": 1.0, "consumed_samples": 2167040, "global_step/max_steps": "8465/12700"}
{"lm loss": 2.04353333, "grad_norm": 0.3485561, "learning_rate": 2.961e-05, "elapsed_time_per_iteration": 4.9201355, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 55s", "remaining_time": "5h 45m 32s", "loss_scale": 1.0, "consumed_samples": 2167296, "global_step/max_steps": "8466/12700"}
{"lm loss": 2.05834341, "grad_norm": 0.35058743, "learning_rate": 2.96e-05, "elapsed_time_per_iteration": 4.79201913, "memory(GiB)": 28.98, "elapsed_time": "11h 30m 59s", "remaining_time": "5h 45m 27s", "loss_scale": 1.0, "consumed_samples": 2167552, "global_step/max_steps": "8467/12700"}
{"lm loss": 2.03758144, "grad_norm": 0.33809572, "learning_rate": 2.959e-05, "elapsed_time_per_iteration": 4.9176476, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 4s", "remaining_time": "5h 45m 22s", "loss_scale": 1.0, "consumed_samples": 2167808, "global_step/max_steps": "8468/12700"}
{"lm loss": 2.06024599, "grad_norm": 0.33362779, "learning_rate": 2.957e-05, "elapsed_time_per_iteration": 4.90776181, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 9s", "remaining_time": "5h 45m 17s", "loss_scale": 1.0, "consumed_samples": 2168064, "global_step/max_steps": "8469/12700"}
{"lm loss": 2.09006643, "grad_norm": 0.35660133, "learning_rate": 2.956e-05, "elapsed_time_per_iteration": 4.89395285, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 14s", "remaining_time": "5h 45m 12s", "loss_scale": 1.0, "consumed_samples": 2168320, "global_step/max_steps": "8470/12700"}
{"lm loss": 2.08225465, "grad_norm": 0.34300491, "learning_rate": 2.955e-05, "elapsed_time_per_iteration": 4.8790977, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 19s", "remaining_time": "5h 45m 7s", "loss_scale": 1.0, "consumed_samples": 2168576, "global_step/max_steps": "8471/12700"}
{"lm loss": 2.09695315, "grad_norm": 0.35920438, "learning_rate": 2.954e-05, "elapsed_time_per_iteration": 4.84534454, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 24s", "remaining_time": "5h 45m 2s", "loss_scale": 1.0, "consumed_samples": 2168832, "global_step/max_steps": "8472/12700"}
{"lm loss": 2.07543564, "grad_norm": 0.33430803, "learning_rate": 2.953e-05, "elapsed_time_per_iteration": 4.91480517, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 29s", "remaining_time": "5h 44m 58s", "loss_scale": 1.0, "consumed_samples": 2169088, "global_step/max_steps": "8473/12700"}
{"lm loss": 2.05229807, "grad_norm": 0.38396642, "learning_rate": 2.952e-05, "elapsed_time_per_iteration": 4.88205457, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 34s", "remaining_time": "5h 44m 53s", "loss_scale": 1.0, "consumed_samples": 2169344, "global_step/max_steps": "8474/12700"}
{"lm loss": 2.108531, "grad_norm": 0.35121781, "learning_rate": 2.951e-05, "elapsed_time_per_iteration": 4.79152679, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 38s", "remaining_time": "5h 44m 48s", "loss_scale": 1.0, "consumed_samples": 2169600, "global_step/max_steps": "8475/12700"}
{"lm loss": 2.08380651, "grad_norm": 0.36230379, "learning_rate": 2.95e-05, "elapsed_time_per_iteration": 4.80924821, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 43s", "remaining_time": "5h 44m 43s", "loss_scale": 1.0, "consumed_samples": 2169856, "global_step/max_steps": "8476/12700"}
{"lm loss": 2.08328843, "grad_norm": 0.35152462, "learning_rate": 2.948e-05, "elapsed_time_per_iteration": 4.8359859, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 48s", "remaining_time": "5h 44m 38s", "loss_scale": 1.0, "consumed_samples": 2170112, "global_step/max_steps": "8477/12700"}
{"lm loss": 2.03002524, "grad_norm": 0.34747788, "learning_rate": 2.947e-05, "elapsed_time_per_iteration": 4.89344907, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 53s", "remaining_time": "5h 44m 33s", "loss_scale": 1.0, "consumed_samples": 2170368, "global_step/max_steps": "8478/12700"}
{"lm loss": 2.04887724, "grad_norm": 0.33290917, "learning_rate": 2.946e-05, "elapsed_time_per_iteration": 4.95440531, "memory(GiB)": 28.98, "elapsed_time": "11h 31m 58s", "remaining_time": "5h 44m 28s", "loss_scale": 1.0, "consumed_samples": 2170624, "global_step/max_steps": "8479/12700"}
{"lm loss": 2.05226851, "grad_norm": 0.35481933, "learning_rate": 2.945e-05, "elapsed_time_per_iteration": 4.8530519, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 3s", "remaining_time": "5h 44m 23s", "loss_scale": 1.0, "consumed_samples": 2170880, "global_step/max_steps": "8480/12700"}
{"lm loss": 2.0784831, "grad_norm": 0.33921948, "learning_rate": 2.944e-05, "elapsed_time_per_iteration": 4.92072988, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 8s", "remaining_time": "5h 44m 18s", "loss_scale": 1.0, "consumed_samples": 2171136, "global_step/max_steps": "8481/12700"}
{"lm loss": 2.08061576, "grad_norm": 0.34243637, "learning_rate": 2.943e-05, "elapsed_time_per_iteration": 4.81883883, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 12s", "remaining_time": "5h 44m 13s", "loss_scale": 1.0, "consumed_samples": 2171392, "global_step/max_steps": "8482/12700"}
{"lm loss": 2.06047463, "grad_norm": 0.35135382, "learning_rate": 2.942e-05, "elapsed_time_per_iteration": 4.92604733, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 17s", "remaining_time": "5h 44m 8s", "loss_scale": 1.0, "consumed_samples": 2171648, "global_step/max_steps": "8483/12700"}
{"lm loss": 2.05651045, "grad_norm": 0.34429133, "learning_rate": 2.941e-05, "elapsed_time_per_iteration": 4.84277749, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 22s", "remaining_time": "5h 44m 4s", "loss_scale": 1.0, "consumed_samples": 2171904, "global_step/max_steps": "8484/12700"}
{"lm loss": 2.09584785, "grad_norm": 0.3347069, "learning_rate": 2.939e-05, "elapsed_time_per_iteration": 4.90142846, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 27s", "remaining_time": "5h 43m 59s", "loss_scale": 1.0, "consumed_samples": 2172160, "global_step/max_steps": "8485/12700"}
{"lm loss": 2.07524967, "grad_norm": 0.35884541, "learning_rate": 2.938e-05, "elapsed_time_per_iteration": 4.80080056, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 32s", "remaining_time": "5h 43m 54s", "loss_scale": 1.0, "consumed_samples": 2172416, "global_step/max_steps": "8486/12700"}
{"lm loss": 2.04492784, "grad_norm": 0.34452179, "learning_rate": 2.937e-05, "elapsed_time_per_iteration": 4.95764112, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 37s", "remaining_time": "5h 43m 49s", "loss_scale": 1.0, "consumed_samples": 2172672, "global_step/max_steps": "8487/12700"}
{"lm loss": 2.06415749, "grad_norm": 0.36018938, "learning_rate": 2.936e-05, "elapsed_time_per_iteration": 4.90255618, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 42s", "remaining_time": "5h 43m 44s", "loss_scale": 1.0, "consumed_samples": 2172928, "global_step/max_steps": "8488/12700"}
{"lm loss": 2.10951257, "grad_norm": 0.33449924, "learning_rate": 2.935e-05, "elapsed_time_per_iteration": 4.80571389, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 47s", "remaining_time": "5h 43m 39s", "loss_scale": 1.0, "consumed_samples": 2173184, "global_step/max_steps": "8489/12700"}
{"lm loss": 2.06922269, "grad_norm": 0.35390663, "learning_rate": 2.934e-05, "elapsed_time_per_iteration": 4.84998083, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 51s", "remaining_time": "5h 43m 34s", "loss_scale": 1.0, "consumed_samples": 2173440, "global_step/max_steps": "8490/12700"}
{"lm loss": 2.07153988, "grad_norm": 0.3441433, "learning_rate": 2.933e-05, "elapsed_time_per_iteration": 4.87304282, "memory(GiB)": 28.98, "elapsed_time": "11h 32m 56s", "remaining_time": "5h 43m 29s", "loss_scale": 1.0, "consumed_samples": 2173696, "global_step/max_steps": "8491/12700"}
{"lm loss": 2.05192399, "grad_norm": 0.34568846, "learning_rate": 2.932e-05, "elapsed_time_per_iteration": 4.92366314, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 1s", "remaining_time": "5h 43m 24s", "loss_scale": 1.0, "consumed_samples": 2173952, "global_step/max_steps": "8492/12700"}
{"lm loss": 2.05071115, "grad_norm": 0.33132458, "learning_rate": 2.93e-05, "elapsed_time_per_iteration": 4.93033981, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 6s", "remaining_time": "5h 43m 19s", "loss_scale": 1.0, "consumed_samples": 2174208, "global_step/max_steps": "8493/12700"}
{"lm loss": 2.09611058, "grad_norm": 0.35563084, "learning_rate": 2.929e-05, "elapsed_time_per_iteration": 4.93451595, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 11s", "remaining_time": "5h 43m 15s", "loss_scale": 1.0, "consumed_samples": 2174464, "global_step/max_steps": "8494/12700"}
{"lm loss": 2.03190088, "grad_norm": 0.34402397, "learning_rate": 2.928e-05, "elapsed_time_per_iteration": 4.87683749, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 16s", "remaining_time": "5h 43m 10s", "loss_scale": 1.0, "consumed_samples": 2174720, "global_step/max_steps": "8495/12700"}
{"lm loss": 2.09168863, "grad_norm": 0.37793261, "learning_rate": 2.927e-05, "elapsed_time_per_iteration": 4.77425981, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 21s", "remaining_time": "5h 43m 5s", "loss_scale": 1.0, "consumed_samples": 2174976, "global_step/max_steps": "8496/12700"}
{"lm loss": 2.09642959, "grad_norm": 0.32910711, "learning_rate": 2.926e-05, "elapsed_time_per_iteration": 4.87851882, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 26s", "remaining_time": "5h 43m 0s", "loss_scale": 1.0, "consumed_samples": 2175232, "global_step/max_steps": "8497/12700"}
{"lm loss": 2.0560472, "grad_norm": 0.3406519, "learning_rate": 2.925e-05, "elapsed_time_per_iteration": 4.89974165, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 31s", "remaining_time": "5h 42m 55s", "loss_scale": 1.0, "consumed_samples": 2175488, "global_step/max_steps": "8498/12700"}
{"lm loss": 2.05396199, "grad_norm": 0.33556157, "learning_rate": 2.924e-05, "elapsed_time_per_iteration": 4.80990577, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 35s", "remaining_time": "5h 42m 50s", "loss_scale": 1.0, "consumed_samples": 2175744, "global_step/max_steps": "8499/12700"}
{"lm loss": 2.08216977, "grad_norm": 0.40077579, "learning_rate": 2.923e-05, "elapsed_time_per_iteration": 4.81273651, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 40s", "remaining_time": "5h 42m 45s", "loss_scale": 1.0, "consumed_samples": 2176000, "global_step/max_steps": "8500/12700"}
{"lm loss": 2.07673383, "grad_norm": 0.3476513, "learning_rate": 2.921e-05, "elapsed_time_per_iteration": 4.9009676, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 45s", "remaining_time": "5h 42m 40s", "loss_scale": 1.0, "consumed_samples": 2176256, "global_step/max_steps": "8501/12700"}
{"lm loss": 2.08240008, "grad_norm": 0.32992244, "learning_rate": 2.92e-05, "elapsed_time_per_iteration": 4.83359742, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 50s", "remaining_time": "5h 42m 35s", "loss_scale": 1.0, "consumed_samples": 2176512, "global_step/max_steps": "8502/12700"}
{"lm loss": 2.06306982, "grad_norm": 0.36688349, "learning_rate": 2.919e-05, "elapsed_time_per_iteration": 4.99320483, "memory(GiB)": 28.98, "elapsed_time": "11h 33m 55s", "remaining_time": "5h 42m 30s", "loss_scale": 1.0, "consumed_samples": 2176768, "global_step/max_steps": "8503/12700"}
{"lm loss": 2.04330921, "grad_norm": 0.36872914, "learning_rate": 2.918e-05, "elapsed_time_per_iteration": 4.9022572, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 0s", "remaining_time": "5h 42m 25s", "loss_scale": 1.0, "consumed_samples": 2177024, "global_step/max_steps": "8504/12700"}
{"lm loss": 2.03516126, "grad_norm": 0.37015641, "learning_rate": 2.917e-05, "elapsed_time_per_iteration": 4.8198452, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 5s", "remaining_time": "5h 42m 20s", "loss_scale": 1.0, "consumed_samples": 2177280, "global_step/max_steps": "8505/12700"}
{"lm loss": 2.06918693, "grad_norm": 0.36734781, "learning_rate": 2.916e-05, "elapsed_time_per_iteration": 4.84087539, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 9s", "remaining_time": "5h 42m 16s", "loss_scale": 1.0, "consumed_samples": 2177536, "global_step/max_steps": "8506/12700"}
{"lm loss": 2.0638063, "grad_norm": 0.35965335, "learning_rate": 2.915e-05, "elapsed_time_per_iteration": 4.91040611, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 14s", "remaining_time": "5h 42m 11s", "loss_scale": 1.0, "consumed_samples": 2177792, "global_step/max_steps": "8507/12700"}
{"lm loss": 2.06469584, "grad_norm": 0.3735359, "learning_rate": 2.914e-05, "elapsed_time_per_iteration": 4.95909524, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 19s", "remaining_time": "5h 42m 6s", "loss_scale": 1.0, "consumed_samples": 2178048, "global_step/max_steps": "8508/12700"}
{"lm loss": 2.07327604, "grad_norm": 0.40010127, "learning_rate": 2.912e-05, "elapsed_time_per_iteration": 4.82787418, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 24s", "remaining_time": "5h 42m 1s", "loss_scale": 1.0, "consumed_samples": 2178304, "global_step/max_steps": "8509/12700"}
{"lm loss": 2.07137084, "grad_norm": 0.40596527, "learning_rate": 2.911e-05, "elapsed_time_per_iteration": 4.82699776, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 29s", "remaining_time": "5h 41m 56s", "loss_scale": 1.0, "consumed_samples": 2178560, "global_step/max_steps": "8510/12700"}
{"lm loss": 2.06779337, "grad_norm": 0.36044618, "learning_rate": 2.91e-05, "elapsed_time_per_iteration": 4.92722821, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 34s", "remaining_time": "5h 41m 51s", "loss_scale": 1.0, "consumed_samples": 2178816, "global_step/max_steps": "8511/12700"}
{"lm loss": 2.07410431, "grad_norm": 0.37034458, "learning_rate": 2.909e-05, "elapsed_time_per_iteration": 4.91185999, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 39s", "remaining_time": "5h 41m 46s", "loss_scale": 1.0, "consumed_samples": 2179072, "global_step/max_steps": "8512/12700"}
{"lm loss": 2.06024408, "grad_norm": 0.40889686, "learning_rate": 2.908e-05, "elapsed_time_per_iteration": 4.82239151, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 44s", "remaining_time": "5h 41m 41s", "loss_scale": 1.0, "consumed_samples": 2179328, "global_step/max_steps": "8513/12700"}
{"lm loss": 2.08334684, "grad_norm": 0.39900127, "learning_rate": 2.907e-05, "elapsed_time_per_iteration": 4.88102388, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 48s", "remaining_time": "5h 41m 36s", "loss_scale": 1.0, "consumed_samples": 2179584, "global_step/max_steps": "8514/12700"}
{"lm loss": 2.078655, "grad_norm": 0.43611538, "learning_rate": 2.906e-05, "elapsed_time_per_iteration": 4.92435527, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 53s", "remaining_time": "5h 41m 31s", "loss_scale": 1.0, "consumed_samples": 2179840, "global_step/max_steps": "8515/12700"}
{"lm loss": 2.06164432, "grad_norm": 0.35647273, "learning_rate": 2.905e-05, "elapsed_time_per_iteration": 4.99045467, "memory(GiB)": 28.98, "elapsed_time": "11h 34m 58s", "remaining_time": "5h 41m 27s", "loss_scale": 1.0, "consumed_samples": 2180096, "global_step/max_steps": "8516/12700"}
{"lm loss": 2.06850219, "grad_norm": 0.39168772, "learning_rate": 2.904e-05, "elapsed_time_per_iteration": 4.84283853, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 3s", "remaining_time": "5h 41m 22s", "loss_scale": 1.0, "consumed_samples": 2180352, "global_step/max_steps": "8517/12700"}
{"lm loss": 2.00515509, "grad_norm": 0.38526136, "learning_rate": 2.902e-05, "elapsed_time_per_iteration": 4.91092944, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 8s", "remaining_time": "5h 41m 17s", "loss_scale": 1.0, "consumed_samples": 2180608, "global_step/max_steps": "8518/12700"}
{"lm loss": 2.08279133, "grad_norm": 0.36370352, "learning_rate": 2.901e-05, "elapsed_time_per_iteration": 4.89263415, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 13s", "remaining_time": "5h 41m 12s", "loss_scale": 1.0, "consumed_samples": 2180864, "global_step/max_steps": "8519/12700"}
{"lm loss": 2.09783006, "grad_norm": 0.37462264, "learning_rate": 2.9e-05, "elapsed_time_per_iteration": 4.98078966, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 18s", "remaining_time": "5h 41m 7s", "loss_scale": 1.0, "consumed_samples": 2181120, "global_step/max_steps": "8520/12700"}
{"lm loss": 2.05888081, "grad_norm": 0.32048199, "learning_rate": 2.899e-05, "elapsed_time_per_iteration": 4.87469244, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 23s", "remaining_time": "5h 41m 2s", "loss_scale": 1.0, "consumed_samples": 2181376, "global_step/max_steps": "8521/12700"}
{"lm loss": 2.06850433, "grad_norm": 0.37639058, "learning_rate": 2.898e-05, "elapsed_time_per_iteration": 4.99707317, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 28s", "remaining_time": "5h 40m 57s", "loss_scale": 1.0, "consumed_samples": 2181632, "global_step/max_steps": "8522/12700"}
{"lm loss": 2.06992221, "grad_norm": 0.40472826, "learning_rate": 2.897e-05, "elapsed_time_per_iteration": 4.84338117, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 33s", "remaining_time": "5h 40m 52s", "loss_scale": 1.0, "consumed_samples": 2181888, "global_step/max_steps": "8523/12700"}
{"lm loss": 2.09116578, "grad_norm": 0.3389003, "learning_rate": 2.896e-05, "elapsed_time_per_iteration": 4.87550473, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 38s", "remaining_time": "5h 40m 47s", "loss_scale": 1.0, "consumed_samples": 2182144, "global_step/max_steps": "8524/12700"}
{"lm loss": 2.06619954, "grad_norm": 0.35431105, "learning_rate": 2.895e-05, "elapsed_time_per_iteration": 4.9224906, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 43s", "remaining_time": "5h 40m 43s", "loss_scale": 1.0, "consumed_samples": 2182400, "global_step/max_steps": "8525/12700"}
{"lm loss": 2.04109383, "grad_norm": 0.35260254, "learning_rate": 2.893e-05, "elapsed_time_per_iteration": 4.94310856, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 47s", "remaining_time": "5h 40m 38s", "loss_scale": 1.0, "consumed_samples": 2182656, "global_step/max_steps": "8526/12700"}
{"lm loss": 2.09792089, "grad_norm": 0.35554367, "learning_rate": 2.892e-05, "elapsed_time_per_iteration": 4.94493055, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 52s", "remaining_time": "5h 40m 33s", "loss_scale": 1.0, "consumed_samples": 2182912, "global_step/max_steps": "8527/12700"}
{"lm loss": 2.07103181, "grad_norm": 0.34967637, "learning_rate": 2.891e-05, "elapsed_time_per_iteration": 4.89167404, "memory(GiB)": 28.98, "elapsed_time": "11h 35m 57s", "remaining_time": "5h 40m 28s", "loss_scale": 1.0, "consumed_samples": 2183168, "global_step/max_steps": "8528/12700"}
{"lm loss": 2.03042626, "grad_norm": 0.33731544, "learning_rate": 2.89e-05, "elapsed_time_per_iteration": 4.93030524, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 2s", "remaining_time": "5h 40m 23s", "loss_scale": 1.0, "consumed_samples": 2183424, "global_step/max_steps": "8529/12700"}
{"lm loss": 2.04529023, "grad_norm": 0.33508903, "learning_rate": 2.889e-05, "elapsed_time_per_iteration": 4.98947382, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 7s", "remaining_time": "5h 40m 18s", "loss_scale": 1.0, "consumed_samples": 2183680, "global_step/max_steps": "8530/12700"}
{"lm loss": 2.03078341, "grad_norm": 0.34864494, "learning_rate": 2.888e-05, "elapsed_time_per_iteration": 4.83622313, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 12s", "remaining_time": "5h 40m 13s", "loss_scale": 1.0, "consumed_samples": 2183936, "global_step/max_steps": "8531/12700"}
{"lm loss": 2.11408472, "grad_norm": 0.35600832, "learning_rate": 2.887e-05, "elapsed_time_per_iteration": 4.95331502, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 17s", "remaining_time": "5h 40m 8s", "loss_scale": 1.0, "consumed_samples": 2184192, "global_step/max_steps": "8532/12700"}
{"lm loss": 2.06395411, "grad_norm": 0.33232296, "learning_rate": 2.886e-05, "elapsed_time_per_iteration": 4.87500048, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 22s", "remaining_time": "5h 40m 3s", "loss_scale": 1.0, "consumed_samples": 2184448, "global_step/max_steps": "8533/12700"}
{"lm loss": 2.05936599, "grad_norm": 0.36975953, "learning_rate": 2.885e-05, "elapsed_time_per_iteration": 5.03314996, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 27s", "remaining_time": "5h 39m 59s", "loss_scale": 1.0, "consumed_samples": 2184704, "global_step/max_steps": "8534/12700"}
{"lm loss": 2.06325126, "grad_norm": 0.34112382, "learning_rate": 2.883e-05, "elapsed_time_per_iteration": 4.87338424, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 32s", "remaining_time": "5h 39m 54s", "loss_scale": 1.0, "consumed_samples": 2184960, "global_step/max_steps": "8535/12700"}
{"lm loss": 2.05044746, "grad_norm": 0.33268964, "learning_rate": 2.882e-05, "elapsed_time_per_iteration": 4.88384008, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 37s", "remaining_time": "5h 39m 49s", "loss_scale": 1.0, "consumed_samples": 2185216, "global_step/max_steps": "8536/12700"}
{"lm loss": 2.07637644, "grad_norm": 0.3412821, "learning_rate": 2.881e-05, "elapsed_time_per_iteration": 4.88571405, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 42s", "remaining_time": "5h 39m 44s", "loss_scale": 1.0, "consumed_samples": 2185472, "global_step/max_steps": "8537/12700"}
{"lm loss": 2.04070115, "grad_norm": 0.33294067, "learning_rate": 2.88e-05, "elapsed_time_per_iteration": 4.95592856, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 47s", "remaining_time": "5h 39m 39s", "loss_scale": 1.0, "consumed_samples": 2185728, "global_step/max_steps": "8538/12700"}
{"lm loss": 2.05006123, "grad_norm": 0.33703616, "learning_rate": 2.879e-05, "elapsed_time_per_iteration": 4.92732191, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 51s", "remaining_time": "5h 39m 34s", "loss_scale": 1.0, "consumed_samples": 2185984, "global_step/max_steps": "8539/12700"}
{"lm loss": 2.07412696, "grad_norm": 0.36069989, "learning_rate": 2.878e-05, "elapsed_time_per_iteration": 4.9326036, "memory(GiB)": 28.98, "elapsed_time": "11h 36m 56s", "remaining_time": "5h 39m 29s", "loss_scale": 1.0, "consumed_samples": 2186240, "global_step/max_steps": "8540/12700"}
{"lm loss": 2.06013799, "grad_norm": 0.320876, "learning_rate": 2.877e-05, "elapsed_time_per_iteration": 4.99091387, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 1s", "remaining_time": "5h 39m 24s", "loss_scale": 1.0, "consumed_samples": 2186496, "global_step/max_steps": "8541/12700"}
{"lm loss": 2.055516, "grad_norm": 0.34523526, "learning_rate": 2.876e-05, "elapsed_time_per_iteration": 4.95133495, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 6s", "remaining_time": "5h 39m 20s", "loss_scale": 1.0, "consumed_samples": 2186752, "global_step/max_steps": "8542/12700"}
{"lm loss": 2.06839371, "grad_norm": 0.33328912, "learning_rate": 2.874e-05, "elapsed_time_per_iteration": 4.86728883, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 11s", "remaining_time": "5h 39m 15s", "loss_scale": 1.0, "consumed_samples": 2187008, "global_step/max_steps": "8543/12700"}
{"lm loss": 2.08530045, "grad_norm": 0.32064304, "learning_rate": 2.873e-05, "elapsed_time_per_iteration": 4.85908079, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 16s", "remaining_time": "5h 39m 10s", "loss_scale": 1.0, "consumed_samples": 2187264, "global_step/max_steps": "8544/12700"}
{"lm loss": 2.06447053, "grad_norm": 0.32286683, "learning_rate": 2.872e-05, "elapsed_time_per_iteration": 4.95376658, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 21s", "remaining_time": "5h 39m 5s", "loss_scale": 1.0, "consumed_samples": 2187520, "global_step/max_steps": "8545/12700"}
{"lm loss": 2.06929111, "grad_norm": 0.32516724, "learning_rate": 2.871e-05, "elapsed_time_per_iteration": 4.89761996, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 26s", "remaining_time": "5h 39m 0s", "loss_scale": 1.0, "consumed_samples": 2187776, "global_step/max_steps": "8546/12700"}
{"lm loss": 2.06248808, "grad_norm": 0.33145031, "learning_rate": 2.87e-05, "elapsed_time_per_iteration": 4.95342922, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 31s", "remaining_time": "5h 38m 55s", "loss_scale": 1.0, "consumed_samples": 2188032, "global_step/max_steps": "8547/12700"}
{"lm loss": 2.04474044, "grad_norm": 0.34826186, "learning_rate": 2.869e-05, "elapsed_time_per_iteration": 4.82907963, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 36s", "remaining_time": "5h 38m 50s", "loss_scale": 1.0, "consumed_samples": 2188288, "global_step/max_steps": "8548/12700"}
{"lm loss": 2.05682635, "grad_norm": 0.34690699, "learning_rate": 2.868e-05, "elapsed_time_per_iteration": 4.86356163, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 41s", "remaining_time": "5h 38m 45s", "loss_scale": 1.0, "consumed_samples": 2188544, "global_step/max_steps": "8549/12700"}
{"lm loss": 2.04157209, "grad_norm": 0.32900947, "learning_rate": 2.867e-05, "elapsed_time_per_iteration": 4.85318828, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 45s", "remaining_time": "5h 38m 40s", "loss_scale": 1.0, "consumed_samples": 2188800, "global_step/max_steps": "8550/12700"}
{"lm loss": 2.06369233, "grad_norm": 0.33354816, "learning_rate": 2.866e-05, "elapsed_time_per_iteration": 4.8277247, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 50s", "remaining_time": "5h 38m 35s", "loss_scale": 1.0, "consumed_samples": 2189056, "global_step/max_steps": "8551/12700"}
{"lm loss": 2.03901887, "grad_norm": 0.33985063, "learning_rate": 2.864e-05, "elapsed_time_per_iteration": 4.81216908, "memory(GiB)": 28.98, "elapsed_time": "11h 37m 55s", "remaining_time": "5h 38m 31s", "loss_scale": 1.0, "consumed_samples": 2189312, "global_step/max_steps": "8552/12700"}
{"lm loss": 2.06297517, "grad_norm": 0.33155334, "learning_rate": 2.863e-05, "elapsed_time_per_iteration": 4.86512637, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 0s", "remaining_time": "5h 38m 26s", "loss_scale": 1.0, "consumed_samples": 2189568, "global_step/max_steps": "8553/12700"}
{"lm loss": 2.05185962, "grad_norm": 0.3490479, "learning_rate": 2.862e-05, "elapsed_time_per_iteration": 4.88554502, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 5s", "remaining_time": "5h 38m 21s", "loss_scale": 1.0, "consumed_samples": 2189824, "global_step/max_steps": "8554/12700"}
{"lm loss": 2.07426786, "grad_norm": 0.35121801, "learning_rate": 2.861e-05, "elapsed_time_per_iteration": 4.84711647, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 10s", "remaining_time": "5h 38m 16s", "loss_scale": 1.0, "consumed_samples": 2190080, "global_step/max_steps": "8555/12700"}
{"lm loss": 2.08414435, "grad_norm": 0.36907166, "learning_rate": 2.86e-05, "elapsed_time_per_iteration": 4.8549571, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 15s", "remaining_time": "5h 38m 11s", "loss_scale": 1.0, "consumed_samples": 2190336, "global_step/max_steps": "8556/12700"}
{"lm loss": 2.04909325, "grad_norm": 0.33565873, "learning_rate": 2.859e-05, "elapsed_time_per_iteration": 4.7885673, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 19s", "remaining_time": "5h 38m 6s", "loss_scale": 1.0, "consumed_samples": 2190592, "global_step/max_steps": "8557/12700"}
{"lm loss": 2.05077076, "grad_norm": 0.34285119, "learning_rate": 2.858e-05, "elapsed_time_per_iteration": 4.89105201, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 24s", "remaining_time": "5h 38m 1s", "loss_scale": 1.0, "consumed_samples": 2190848, "global_step/max_steps": "8558/12700"}
{"lm loss": 2.07154202, "grad_norm": 0.35962054, "learning_rate": 2.857e-05, "elapsed_time_per_iteration": 4.8351748, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 29s", "remaining_time": "5h 37m 56s", "loss_scale": 1.0, "consumed_samples": 2191104, "global_step/max_steps": "8559/12700"}
{"lm loss": 2.07029748, "grad_norm": 0.35990787, "learning_rate": 2.856e-05, "elapsed_time_per_iteration": 4.83622074, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 34s", "remaining_time": "5h 37m 51s", "loss_scale": 1.0, "consumed_samples": 2191360, "global_step/max_steps": "8560/12700"}
{"lm loss": 2.05831075, "grad_norm": 0.34885472, "learning_rate": 2.854e-05, "elapsed_time_per_iteration": 5.01391888, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 39s", "remaining_time": "5h 37m 46s", "loss_scale": 1.0, "consumed_samples": 2191616, "global_step/max_steps": "8561/12700"}
{"lm loss": 2.0929935, "grad_norm": 0.36707339, "learning_rate": 2.853e-05, "elapsed_time_per_iteration": 4.84145975, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 44s", "remaining_time": "5h 37m 41s", "loss_scale": 1.0, "consumed_samples": 2191872, "global_step/max_steps": "8562/12700"}
{"lm loss": 2.0495162, "grad_norm": 0.33752632, "learning_rate": 2.852e-05, "elapsed_time_per_iteration": 4.88025212, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 49s", "remaining_time": "5h 37m 36s", "loss_scale": 1.0, "consumed_samples": 2192128, "global_step/max_steps": "8563/12700"}
{"lm loss": 2.09027767, "grad_norm": 0.35802177, "learning_rate": 2.851e-05, "elapsed_time_per_iteration": 4.84109426, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 53s", "remaining_time": "5h 37m 32s", "loss_scale": 1.0, "consumed_samples": 2192384, "global_step/max_steps": "8564/12700"}
{"lm loss": 2.08649254, "grad_norm": 0.35825741, "learning_rate": 2.85e-05, "elapsed_time_per_iteration": 4.87696314, "memory(GiB)": 28.98, "elapsed_time": "11h 38m 58s", "remaining_time": "5h 37m 27s", "loss_scale": 1.0, "consumed_samples": 2192640, "global_step/max_steps": "8565/12700"}
{"lm loss": 2.11123252, "grad_norm": 0.35689905, "learning_rate": 2.849e-05, "elapsed_time_per_iteration": 4.92998743, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 3s", "remaining_time": "5h 37m 22s", "loss_scale": 1.0, "consumed_samples": 2192896, "global_step/max_steps": "8566/12700"}
{"lm loss": 2.0444293, "grad_norm": 0.34062833, "learning_rate": 2.848e-05, "elapsed_time_per_iteration": 4.85882854, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 8s", "remaining_time": "5h 37m 17s", "loss_scale": 1.0, "consumed_samples": 2193152, "global_step/max_steps": "8567/12700"}
{"lm loss": 2.0697124, "grad_norm": 0.34335884, "learning_rate": 2.847e-05, "elapsed_time_per_iteration": 4.81849504, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 13s", "remaining_time": "5h 37m 12s", "loss_scale": 1.0, "consumed_samples": 2193408, "global_step/max_steps": "8568/12700"}
{"lm loss": 2.07891488, "grad_norm": 0.34345439, "learning_rate": 2.846e-05, "elapsed_time_per_iteration": 4.86973763, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 18s", "remaining_time": "5h 37m 7s", "loss_scale": 1.0, "consumed_samples": 2193664, "global_step/max_steps": "8569/12700"}
{"lm loss": 2.08810353, "grad_norm": 0.35063788, "learning_rate": 2.844e-05, "elapsed_time_per_iteration": 4.82669544, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 23s", "remaining_time": "5h 37m 2s", "loss_scale": 1.0, "consumed_samples": 2193920, "global_step/max_steps": "8570/12700"}
{"lm loss": 2.07535172, "grad_norm": 0.34951779, "learning_rate": 2.843e-05, "elapsed_time_per_iteration": 4.8640604, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 27s", "remaining_time": "5h 36m 57s", "loss_scale": 1.0, "consumed_samples": 2194176, "global_step/max_steps": "8571/12700"}
{"lm loss": 2.07331109, "grad_norm": 0.34598807, "learning_rate": 2.842e-05, "elapsed_time_per_iteration": 4.85929346, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 32s", "remaining_time": "5h 36m 52s", "loss_scale": 1.0, "consumed_samples": 2194432, "global_step/max_steps": "8572/12700"}
{"lm loss": 2.0568943, "grad_norm": 0.34600183, "learning_rate": 2.841e-05, "elapsed_time_per_iteration": 4.80206156, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 37s", "remaining_time": "5h 36m 47s", "loss_scale": 1.0, "consumed_samples": 2194688, "global_step/max_steps": "8573/12700"}
{"lm loss": 2.08557367, "grad_norm": 0.34104833, "learning_rate": 2.84e-05, "elapsed_time_per_iteration": 4.9427309, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 42s", "remaining_time": "5h 36m 42s", "loss_scale": 1.0, "consumed_samples": 2194944, "global_step/max_steps": "8574/12700"}
{"lm loss": 2.05256271, "grad_norm": 0.35571611, "learning_rate": 2.839e-05, "elapsed_time_per_iteration": 4.87985945, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 47s", "remaining_time": "5h 36m 38s", "loss_scale": 1.0, "consumed_samples": 2195200, "global_step/max_steps": "8575/12700"}
{"lm loss": 2.07931256, "grad_norm": 0.34499678, "learning_rate": 2.838e-05, "elapsed_time_per_iteration": 4.77188778, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 52s", "remaining_time": "5h 36m 33s", "loss_scale": 1.0, "consumed_samples": 2195456, "global_step/max_steps": "8576/12700"}
{"lm loss": 2.03666615, "grad_norm": 0.33808798, "learning_rate": 2.837e-05, "elapsed_time_per_iteration": 4.92702532, "memory(GiB)": 28.98, "elapsed_time": "11h 39m 57s", "remaining_time": "5h 36m 28s", "loss_scale": 1.0, "consumed_samples": 2195712, "global_step/max_steps": "8577/12700"}
{"lm loss": 2.04164481, "grad_norm": 0.34744269, "learning_rate": 2.836e-05, "elapsed_time_per_iteration": 4.86258316, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 2s", "remaining_time": "5h 36m 23s", "loss_scale": 1.0, "consumed_samples": 2195968, "global_step/max_steps": "8578/12700"}
{"lm loss": 2.05724216, "grad_norm": 0.34082323, "learning_rate": 2.834e-05, "elapsed_time_per_iteration": 4.86270356, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 6s", "remaining_time": "5h 36m 18s", "loss_scale": 1.0, "consumed_samples": 2196224, "global_step/max_steps": "8579/12700"}
{"lm loss": 2.06064749, "grad_norm": 0.37458336, "learning_rate": 2.833e-05, "elapsed_time_per_iteration": 4.94009066, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 11s", "remaining_time": "5h 36m 13s", "loss_scale": 1.0, "consumed_samples": 2196480, "global_step/max_steps": "8580/12700"}
{"lm loss": 2.04251719, "grad_norm": 0.36984509, "learning_rate": 2.832e-05, "elapsed_time_per_iteration": 4.80157924, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 16s", "remaining_time": "5h 36m 8s", "loss_scale": 1.0, "consumed_samples": 2196736, "global_step/max_steps": "8581/12700"}
{"lm loss": 2.06374359, "grad_norm": 0.34803402, "learning_rate": 2.831e-05, "elapsed_time_per_iteration": 4.84269142, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 21s", "remaining_time": "5h 36m 3s", "loss_scale": 1.0, "consumed_samples": 2196992, "global_step/max_steps": "8582/12700"}
{"lm loss": 2.08226085, "grad_norm": 0.38588291, "learning_rate": 2.83e-05, "elapsed_time_per_iteration": 5.0730207, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 26s", "remaining_time": "5h 35m 58s", "loss_scale": 1.0, "consumed_samples": 2197248, "global_step/max_steps": "8583/12700"}
{"lm loss": 2.06664062, "grad_norm": 0.36190951, "learning_rate": 2.829e-05, "elapsed_time_per_iteration": 4.91660023, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 31s", "remaining_time": "5h 35m 53s", "loss_scale": 1.0, "consumed_samples": 2197504, "global_step/max_steps": "8584/12700"}
{"lm loss": 2.09047103, "grad_norm": 0.34718663, "learning_rate": 2.828e-05, "elapsed_time_per_iteration": 4.79302406, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 36s", "remaining_time": "5h 35m 49s", "loss_scale": 1.0, "consumed_samples": 2197760, "global_step/max_steps": "8585/12700"}
{"lm loss": 2.04943204, "grad_norm": 0.32534537, "learning_rate": 2.827e-05, "elapsed_time_per_iteration": 4.90693545, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 41s", "remaining_time": "5h 35m 44s", "loss_scale": 1.0, "consumed_samples": 2198016, "global_step/max_steps": "8586/12700"}
{"lm loss": 2.0562923, "grad_norm": 0.36537868, "learning_rate": 2.826e-05, "elapsed_time_per_iteration": 4.84454823, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 46s", "remaining_time": "5h 35m 39s", "loss_scale": 1.0, "consumed_samples": 2198272, "global_step/max_steps": "8587/12700"}
{"lm loss": 2.04149866, "grad_norm": 0.33789203, "learning_rate": 2.824e-05, "elapsed_time_per_iteration": 4.82581592, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 50s", "remaining_time": "5h 35m 34s", "loss_scale": 1.0, "consumed_samples": 2198528, "global_step/max_steps": "8588/12700"}
{"lm loss": 2.06584477, "grad_norm": 0.33748385, "learning_rate": 2.823e-05, "elapsed_time_per_iteration": 4.86228728, "memory(GiB)": 28.98, "elapsed_time": "11h 40m 55s", "remaining_time": "5h 35m 29s", "loss_scale": 1.0, "consumed_samples": 2198784, "global_step/max_steps": "8589/12700"}
{"lm loss": 2.04227281, "grad_norm": 0.34375909, "learning_rate": 2.822e-05, "elapsed_time_per_iteration": 4.84614897, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 0s", "remaining_time": "5h 35m 24s", "loss_scale": 1.0, "consumed_samples": 2199040, "global_step/max_steps": "8590/12700"}
{"lm loss": 2.06586528, "grad_norm": 0.36257622, "learning_rate": 2.821e-05, "elapsed_time_per_iteration": 4.77009702, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 5s", "remaining_time": "5h 35m 19s", "loss_scale": 1.0, "consumed_samples": 2199296, "global_step/max_steps": "8591/12700"}
{"lm loss": 2.06765413, "grad_norm": 0.35863158, "learning_rate": 2.82e-05, "elapsed_time_per_iteration": 4.9077332, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 10s", "remaining_time": "5h 35m 14s", "loss_scale": 1.0, "consumed_samples": 2199552, "global_step/max_steps": "8592/12700"}
{"lm loss": 2.05148435, "grad_norm": 0.34299719, "learning_rate": 2.819e-05, "elapsed_time_per_iteration": 4.92908692, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 15s", "remaining_time": "5h 35m 9s", "loss_scale": 1.0, "consumed_samples": 2199808, "global_step/max_steps": "8593/12700"}
{"lm loss": 2.08199382, "grad_norm": 0.35955235, "learning_rate": 2.818e-05, "elapsed_time_per_iteration": 4.80684209, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 19s", "remaining_time": "5h 35m 4s", "loss_scale": 1.0, "consumed_samples": 2200064, "global_step/max_steps": "8594/12700"}
{"lm loss": 2.05686188, "grad_norm": 0.33974466, "learning_rate": 2.817e-05, "elapsed_time_per_iteration": 4.84635043, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 24s", "remaining_time": "5h 34m 59s", "loss_scale": 1.0, "consumed_samples": 2200320, "global_step/max_steps": "8595/12700"}
{"lm loss": 2.06473708, "grad_norm": 0.34932816, "learning_rate": 2.816e-05, "elapsed_time_per_iteration": 4.88827682, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 29s", "remaining_time": "5h 34m 54s", "loss_scale": 1.0, "consumed_samples": 2200576, "global_step/max_steps": "8596/12700"}
{"lm loss": 2.09132218, "grad_norm": 0.34714094, "learning_rate": 2.814e-05, "elapsed_time_per_iteration": 4.87592983, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 34s", "remaining_time": "5h 34m 50s", "loss_scale": 1.0, "consumed_samples": 2200832, "global_step/max_steps": "8597/12700"}
{"lm loss": 2.06099105, "grad_norm": 0.33385006, "learning_rate": 2.813e-05, "elapsed_time_per_iteration": 4.8784306, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 39s", "remaining_time": "5h 34m 45s", "loss_scale": 1.0, "consumed_samples": 2201088, "global_step/max_steps": "8598/12700"}
{"lm loss": 2.0850451, "grad_norm": 0.32070249, "learning_rate": 2.812e-05, "elapsed_time_per_iteration": 4.90258265, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 44s", "remaining_time": "5h 34m 40s", "loss_scale": 1.0, "consumed_samples": 2201344, "global_step/max_steps": "8599/12700"}
{"lm loss": 2.07168603, "grad_norm": 0.35509816, "learning_rate": 2.811e-05, "elapsed_time_per_iteration": 4.96996856, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 49s", "remaining_time": "5h 34m 35s", "loss_scale": 1.0, "consumed_samples": 2201600, "global_step/max_steps": "8600/12700"}
{"lm loss": 2.05609584, "grad_norm": 0.33969706, "learning_rate": 2.81e-05, "elapsed_time_per_iteration": 4.82367682, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 54s", "remaining_time": "5h 34m 30s", "loss_scale": 1.0, "consumed_samples": 2201856, "global_step/max_steps": "8601/12700"}
{"lm loss": 2.06504583, "grad_norm": 0.34952226, "learning_rate": 2.809e-05, "elapsed_time_per_iteration": 4.86573696, "memory(GiB)": 28.98, "elapsed_time": "11h 41m 59s", "remaining_time": "5h 34m 25s", "loss_scale": 1.0, "consumed_samples": 2202112, "global_step/max_steps": "8602/12700"}
{"lm loss": 2.08712316, "grad_norm": 0.32780507, "learning_rate": 2.808e-05, "elapsed_time_per_iteration": 4.95881009, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 3s", "remaining_time": "5h 34m 20s", "loss_scale": 1.0, "consumed_samples": 2202368, "global_step/max_steps": "8603/12700"}
{"lm loss": 2.06776881, "grad_norm": 0.3506836, "learning_rate": 2.807e-05, "elapsed_time_per_iteration": 4.78830171, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 8s", "remaining_time": "5h 34m 15s", "loss_scale": 1.0, "consumed_samples": 2202624, "global_step/max_steps": "8604/12700"}
{"lm loss": 2.08720994, "grad_norm": 0.37263381, "learning_rate": 2.806e-05, "elapsed_time_per_iteration": 4.75620842, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 13s", "remaining_time": "5h 34m 10s", "loss_scale": 1.0, "consumed_samples": 2202880, "global_step/max_steps": "8605/12700"}
{"lm loss": 2.06911945, "grad_norm": 0.34834924, "learning_rate": 2.805e-05, "elapsed_time_per_iteration": 4.82163024, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 18s", "remaining_time": "5h 34m 5s", "loss_scale": 1.0, "consumed_samples": 2203136, "global_step/max_steps": "8606/12700"}
{"lm loss": 2.08195567, "grad_norm": 0.33856767, "learning_rate": 2.803e-05, "elapsed_time_per_iteration": 4.87697196, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 23s", "remaining_time": "5h 34m 0s", "loss_scale": 1.0, "consumed_samples": 2203392, "global_step/max_steps": "8607/12700"}
{"lm loss": 2.0693872, "grad_norm": 0.33106226, "learning_rate": 2.802e-05, "elapsed_time_per_iteration": 4.888165, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 28s", "remaining_time": "5h 33m 56s", "loss_scale": 1.0, "consumed_samples": 2203648, "global_step/max_steps": "8608/12700"}
{"lm loss": 2.07000399, "grad_norm": 0.35272703, "learning_rate": 2.801e-05, "elapsed_time_per_iteration": 4.86706352, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 32s", "remaining_time": "5h 33m 51s", "loss_scale": 1.0, "consumed_samples": 2203904, "global_step/max_steps": "8609/12700"}
{"lm loss": 2.07200265, "grad_norm": 0.39857036, "learning_rate": 2.8e-05, "elapsed_time_per_iteration": 4.815732, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 37s", "remaining_time": "5h 33m 46s", "loss_scale": 1.0, "consumed_samples": 2204160, "global_step/max_steps": "8610/12700"}
{"lm loss": 2.07530451, "grad_norm": 0.32717812, "learning_rate": 2.799e-05, "elapsed_time_per_iteration": 4.84661627, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 42s", "remaining_time": "5h 33m 41s", "loss_scale": 1.0, "consumed_samples": 2204416, "global_step/max_steps": "8611/12700"}
{"lm loss": 2.06954622, "grad_norm": 0.40447214, "learning_rate": 2.798e-05, "elapsed_time_per_iteration": 4.8754437, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 47s", "remaining_time": "5h 33m 36s", "loss_scale": 1.0, "consumed_samples": 2204672, "global_step/max_steps": "8612/12700"}
{"lm loss": 2.05779338, "grad_norm": 0.34540945, "learning_rate": 2.797e-05, "elapsed_time_per_iteration": 5.00980663, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 52s", "remaining_time": "5h 33m 31s", "loss_scale": 1.0, "consumed_samples": 2204928, "global_step/max_steps": "8613/12700"}
{"lm loss": 2.06518412, "grad_norm": 0.33559397, "learning_rate": 2.796e-05, "elapsed_time_per_iteration": 4.83710265, "memory(GiB)": 28.98, "elapsed_time": "11h 42m 57s", "remaining_time": "5h 33m 26s", "loss_scale": 1.0, "consumed_samples": 2205184, "global_step/max_steps": "8614/12700"}
{"lm loss": 2.05902171, "grad_norm": 0.34275666, "learning_rate": 2.795e-05, "elapsed_time_per_iteration": 4.85025907, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 2s", "remaining_time": "5h 33m 21s", "loss_scale": 1.0, "consumed_samples": 2205440, "global_step/max_steps": "8615/12700"}
{"lm loss": 2.05752206, "grad_norm": 0.32335907, "learning_rate": 2.793e-05, "elapsed_time_per_iteration": 4.93222046, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 7s", "remaining_time": "5h 33m 16s", "loss_scale": 1.0, "consumed_samples": 2205696, "global_step/max_steps": "8616/12700"}
{"lm loss": 2.07466149, "grad_norm": 0.35961822, "learning_rate": 2.792e-05, "elapsed_time_per_iteration": 4.89392519, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 12s", "remaining_time": "5h 33m 11s", "loss_scale": 1.0, "consumed_samples": 2205952, "global_step/max_steps": "8617/12700"}
{"lm loss": 2.02109528, "grad_norm": 0.34947252, "learning_rate": 2.791e-05, "elapsed_time_per_iteration": 4.87937045, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 16s", "remaining_time": "5h 33m 6s", "loss_scale": 1.0, "consumed_samples": 2206208, "global_step/max_steps": "8618/12700"}
{"lm loss": 2.09301615, "grad_norm": 0.38378036, "learning_rate": 2.79e-05, "elapsed_time_per_iteration": 4.83418036, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 21s", "remaining_time": "5h 33m 2s", "loss_scale": 1.0, "consumed_samples": 2206464, "global_step/max_steps": "8619/12700"}
{"lm loss": 2.10761881, "grad_norm": 0.33564591, "learning_rate": 2.789e-05, "elapsed_time_per_iteration": 4.89021468, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 26s", "remaining_time": "5h 32m 57s", "loss_scale": 1.0, "consumed_samples": 2206720, "global_step/max_steps": "8620/12700"}
{"lm loss": 2.09249282, "grad_norm": 0.35929421, "learning_rate": 2.788e-05, "elapsed_time_per_iteration": 4.97220492, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 31s", "remaining_time": "5h 32m 52s", "loss_scale": 1.0, "consumed_samples": 2206976, "global_step/max_steps": "8621/12700"}
{"lm loss": 2.03413391, "grad_norm": 0.34448224, "learning_rate": 2.787e-05, "elapsed_time_per_iteration": 4.91694999, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 36s", "remaining_time": "5h 32m 47s", "loss_scale": 1.0, "consumed_samples": 2207232, "global_step/max_steps": "8622/12700"}
{"lm loss": 2.09322643, "grad_norm": 0.34395179, "learning_rate": 2.786e-05, "elapsed_time_per_iteration": 4.90643382, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 41s", "remaining_time": "5h 32m 42s", "loss_scale": 1.0, "consumed_samples": 2207488, "global_step/max_steps": "8623/12700"}
{"lm loss": 2.08224678, "grad_norm": 0.34674728, "learning_rate": 2.785e-05, "elapsed_time_per_iteration": 4.90062547, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 46s", "remaining_time": "5h 32m 37s", "loss_scale": 1.0, "consumed_samples": 2207744, "global_step/max_steps": "8624/12700"}
{"lm loss": 2.06384468, "grad_norm": 0.34009942, "learning_rate": 2.784e-05, "elapsed_time_per_iteration": 4.88281989, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 51s", "remaining_time": "5h 32m 32s", "loss_scale": 1.0, "consumed_samples": 2208000, "global_step/max_steps": "8625/12700"}
{"lm loss": 2.07148552, "grad_norm": 0.33675501, "learning_rate": 2.782e-05, "elapsed_time_per_iteration": 4.88180685, "memory(GiB)": 28.98, "elapsed_time": "11h 43m 56s", "remaining_time": "5h 32m 27s", "loss_scale": 1.0, "consumed_samples": 2208256, "global_step/max_steps": "8626/12700"}
{"lm loss": 2.06240845, "grad_norm": 0.34778488, "learning_rate": 2.781e-05, "elapsed_time_per_iteration": 4.8322084, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 0s", "remaining_time": "5h 32m 22s", "loss_scale": 1.0, "consumed_samples": 2208512, "global_step/max_steps": "8627/12700"}
{"lm loss": 2.06851506, "grad_norm": 0.33941612, "learning_rate": 2.78e-05, "elapsed_time_per_iteration": 4.96172285, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 5s", "remaining_time": "5h 32m 18s", "loss_scale": 1.0, "consumed_samples": 2208768, "global_step/max_steps": "8628/12700"}
{"lm loss": 2.04616356, "grad_norm": 0.3591691, "learning_rate": 2.779e-05, "elapsed_time_per_iteration": 4.85638213, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 10s", "remaining_time": "5h 32m 13s", "loss_scale": 1.0, "consumed_samples": 2209024, "global_step/max_steps": "8629/12700"}
{"lm loss": 2.03758788, "grad_norm": 0.3417035, "learning_rate": 2.778e-05, "elapsed_time_per_iteration": 4.8585968, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 15s", "remaining_time": "5h 32m 8s", "loss_scale": 1.0, "consumed_samples": 2209280, "global_step/max_steps": "8630/12700"}
{"lm loss": 2.07136369, "grad_norm": 0.34575391, "learning_rate": 2.777e-05, "elapsed_time_per_iteration": 4.84257174, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 20s", "remaining_time": "5h 32m 3s", "loss_scale": 1.0, "consumed_samples": 2209536, "global_step/max_steps": "8631/12700"}
{"lm loss": 2.04020882, "grad_norm": 0.32446751, "learning_rate": 2.776e-05, "elapsed_time_per_iteration": 4.97478247, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 25s", "remaining_time": "5h 31m 58s", "loss_scale": 1.0, "consumed_samples": 2209792, "global_step/max_steps": "8632/12700"}
{"lm loss": 2.10678601, "grad_norm": 0.33636469, "learning_rate": 2.775e-05, "elapsed_time_per_iteration": 5.00550866, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 30s", "remaining_time": "5h 31m 53s", "loss_scale": 1.0, "consumed_samples": 2210048, "global_step/max_steps": "8633/12700"}
{"lm loss": 2.03374219, "grad_norm": 0.34401858, "learning_rate": 2.774e-05, "elapsed_time_per_iteration": 4.87143898, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 35s", "remaining_time": "5h 31m 48s", "loss_scale": 1.0, "consumed_samples": 2210304, "global_step/max_steps": "8634/12700"}
{"lm loss": 2.08706951, "grad_norm": 0.34143788, "learning_rate": 2.773e-05, "elapsed_time_per_iteration": 5.00178075, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 40s", "remaining_time": "5h 31m 43s", "loss_scale": 1.0, "consumed_samples": 2210560, "global_step/max_steps": "8635/12700"}
{"lm loss": 2.08050013, "grad_norm": 0.32617545, "learning_rate": 2.771e-05, "elapsed_time_per_iteration": 4.8788445, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 45s", "remaining_time": "5h 31m 38s", "loss_scale": 1.0, "consumed_samples": 2210816, "global_step/max_steps": "8636/12700"}
{"lm loss": 2.05559111, "grad_norm": 0.34540665, "learning_rate": 2.77e-05, "elapsed_time_per_iteration": 4.82253957, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 49s", "remaining_time": "5h 31m 33s", "loss_scale": 1.0, "consumed_samples": 2211072, "global_step/max_steps": "8637/12700"}
{"lm loss": 2.05126071, "grad_norm": 0.33446175, "learning_rate": 2.769e-05, "elapsed_time_per_iteration": 4.89706945, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 54s", "remaining_time": "5h 31m 29s", "loss_scale": 1.0, "consumed_samples": 2211328, "global_step/max_steps": "8638/12700"}
{"lm loss": 2.10942769, "grad_norm": 0.37923244, "learning_rate": 2.768e-05, "elapsed_time_per_iteration": 4.85695601, "memory(GiB)": 28.98, "elapsed_time": "11h 44m 59s", "remaining_time": "5h 31m 24s", "loss_scale": 1.0, "consumed_samples": 2211584, "global_step/max_steps": "8639/12700"}
{"lm loss": 2.08568406, "grad_norm": 0.3302255, "learning_rate": 2.767e-05, "elapsed_time_per_iteration": 4.7979455, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 4s", "remaining_time": "5h 31m 19s", "loss_scale": 1.0, "consumed_samples": 2211840, "global_step/max_steps": "8640/12700"}
{"lm loss": 2.07767892, "grad_norm": 0.33902788, "learning_rate": 2.766e-05, "elapsed_time_per_iteration": 4.88691878, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 9s", "remaining_time": "5h 31m 14s", "loss_scale": 1.0, "consumed_samples": 2212096, "global_step/max_steps": "8641/12700"}
{"lm loss": 2.0785296, "grad_norm": 0.33543491, "learning_rate": 2.765e-05, "elapsed_time_per_iteration": 4.91498113, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 14s", "remaining_time": "5h 31m 9s", "loss_scale": 1.0, "consumed_samples": 2212352, "global_step/max_steps": "8642/12700"}
{"lm loss": 2.05720782, "grad_norm": 0.3190715, "learning_rate": 2.764e-05, "elapsed_time_per_iteration": 5.00171685, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 19s", "remaining_time": "5h 31m 4s", "loss_scale": 1.0, "consumed_samples": 2212608, "global_step/max_steps": "8643/12700"}
{"lm loss": 2.07570863, "grad_norm": 0.35664219, "learning_rate": 2.763e-05, "elapsed_time_per_iteration": 4.88545227, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 24s", "remaining_time": "5h 30m 59s", "loss_scale": 1.0, "consumed_samples": 2212864, "global_step/max_steps": "8644/12700"}
{"lm loss": 2.06197762, "grad_norm": 0.33166185, "learning_rate": 2.762e-05, "elapsed_time_per_iteration": 4.94869065, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 29s", "remaining_time": "5h 30m 54s", "loss_scale": 1.0, "consumed_samples": 2213120, "global_step/max_steps": "8645/12700"}
{"lm loss": 2.05127883, "grad_norm": 0.33195174, "learning_rate": 2.76e-05, "elapsed_time_per_iteration": 4.85287523, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 34s", "remaining_time": "5h 30m 49s", "loss_scale": 1.0, "consumed_samples": 2213376, "global_step/max_steps": "8646/12700"}
{"lm loss": 2.08467555, "grad_norm": 0.34211287, "learning_rate": 2.759e-05, "elapsed_time_per_iteration": 4.85409737, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 38s", "remaining_time": "5h 30m 44s", "loss_scale": 1.0, "consumed_samples": 2213632, "global_step/max_steps": "8647/12700"}
{"lm loss": 2.0681026, "grad_norm": 0.35699946, "learning_rate": 2.758e-05, "elapsed_time_per_iteration": 4.84541988, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 43s", "remaining_time": "5h 30m 40s", "loss_scale": 1.0, "consumed_samples": 2213888, "global_step/max_steps": "8648/12700"}
{"lm loss": 2.0652988, "grad_norm": 0.33223444, "learning_rate": 2.757e-05, "elapsed_time_per_iteration": 4.86712646, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 48s", "remaining_time": "5h 30m 35s", "loss_scale": 1.0, "consumed_samples": 2214144, "global_step/max_steps": "8649/12700"}
{"lm loss": 2.05961585, "grad_norm": 0.32691011, "learning_rate": 2.756e-05, "elapsed_time_per_iteration": 4.8632412, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 53s", "remaining_time": "5h 30m 30s", "loss_scale": 1.0, "consumed_samples": 2214400, "global_step/max_steps": "8650/12700"}
{"lm loss": 2.06437445, "grad_norm": 0.34445336, "learning_rate": 2.755e-05, "elapsed_time_per_iteration": 4.90600705, "memory(GiB)": 28.98, "elapsed_time": "11h 45m 58s", "remaining_time": "5h 30m 25s", "loss_scale": 1.0, "consumed_samples": 2214656, "global_step/max_steps": "8651/12700"}
{"lm loss": 2.0934639, "grad_norm": 0.36346668, "learning_rate": 2.754e-05, "elapsed_time_per_iteration": 4.99037147, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 3s", "remaining_time": "5h 30m 20s", "loss_scale": 1.0, "consumed_samples": 2214912, "global_step/max_steps": "8652/12700"}
{"lm loss": 2.04876781, "grad_norm": 0.351201, "learning_rate": 2.753e-05, "elapsed_time_per_iteration": 4.95659876, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 8s", "remaining_time": "5h 30m 15s", "loss_scale": 1.0, "consumed_samples": 2215168, "global_step/max_steps": "8653/12700"}
{"lm loss": 2.05521679, "grad_norm": 0.33385041, "learning_rate": 2.752e-05, "elapsed_time_per_iteration": 4.83828855, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 13s", "remaining_time": "5h 30m 10s", "loss_scale": 1.0, "consumed_samples": 2215424, "global_step/max_steps": "8654/12700"}
{"lm loss": 2.06390786, "grad_norm": 0.3509427, "learning_rate": 2.751e-05, "elapsed_time_per_iteration": 4.79432011, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 17s", "remaining_time": "5h 30m 5s", "loss_scale": 1.0, "consumed_samples": 2215680, "global_step/max_steps": "8655/12700"}
{"lm loss": 2.05143404, "grad_norm": 0.35373697, "learning_rate": 2.749e-05, "elapsed_time_per_iteration": 4.84168386, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 22s", "remaining_time": "5h 30m 0s", "loss_scale": 1.0, "consumed_samples": 2215936, "global_step/max_steps": "8656/12700"}
{"lm loss": 2.04771852, "grad_norm": 0.35717782, "learning_rate": 2.748e-05, "elapsed_time_per_iteration": 4.8916831, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 27s", "remaining_time": "5h 29m 55s", "loss_scale": 1.0, "consumed_samples": 2216192, "global_step/max_steps": "8657/12700"}
{"lm loss": 2.07436132, "grad_norm": 0.33670297, "learning_rate": 2.747e-05, "elapsed_time_per_iteration": 4.89563894, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 32s", "remaining_time": "5h 29m 51s", "loss_scale": 1.0, "consumed_samples": 2216448, "global_step/max_steps": "8658/12700"}
{"lm loss": 2.05948591, "grad_norm": 0.3782264, "learning_rate": 2.746e-05, "elapsed_time_per_iteration": 5.01301408, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 37s", "remaining_time": "5h 29m 46s", "loss_scale": 1.0, "consumed_samples": 2216704, "global_step/max_steps": "8659/12700"}
{"lm loss": 2.08242607, "grad_norm": 0.31910107, "learning_rate": 2.745e-05, "elapsed_time_per_iteration": 4.86005688, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 42s", "remaining_time": "5h 29m 41s", "loss_scale": 1.0, "consumed_samples": 2216960, "global_step/max_steps": "8660/12700"}
{"lm loss": 2.06899834, "grad_norm": 0.3650474, "learning_rate": 2.744e-05, "elapsed_time_per_iteration": 4.94308853, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 47s", "remaining_time": "5h 29m 36s", "loss_scale": 1.0, "consumed_samples": 2217216, "global_step/max_steps": "8661/12700"}
{"lm loss": 2.07432675, "grad_norm": 0.36944911, "learning_rate": 2.743e-05, "elapsed_time_per_iteration": 4.90003037, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 52s", "remaining_time": "5h 29m 31s", "loss_scale": 1.0, "consumed_samples": 2217472, "global_step/max_steps": "8662/12700"}
{"lm loss": 2.0730722, "grad_norm": 0.33421534, "learning_rate": 2.742e-05, "elapsed_time_per_iteration": 4.90845823, "memory(GiB)": 28.98, "elapsed_time": "11h 46m 57s", "remaining_time": "5h 29m 26s", "loss_scale": 1.0, "consumed_samples": 2217728, "global_step/max_steps": "8663/12700"}
{"lm loss": 2.0635252, "grad_norm": 0.33742234, "learning_rate": 2.741e-05, "elapsed_time_per_iteration": 4.80810595, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 2s", "remaining_time": "5h 29m 21s", "loss_scale": 1.0, "consumed_samples": 2217984, "global_step/max_steps": "8664/12700"}
{"lm loss": 2.09116387, "grad_norm": 0.35962683, "learning_rate": 2.74e-05, "elapsed_time_per_iteration": 4.90185642, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 6s", "remaining_time": "5h 29m 16s", "loss_scale": 1.0, "consumed_samples": 2218240, "global_step/max_steps": "8665/12700"}
{"lm loss": 2.04658389, "grad_norm": 0.36069199, "learning_rate": 2.739e-05, "elapsed_time_per_iteration": 4.85845518, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 11s", "remaining_time": "5h 29m 11s", "loss_scale": 1.0, "consumed_samples": 2218496, "global_step/max_steps": "8666/12700"}
{"lm loss": 2.04146528, "grad_norm": 0.33696914, "learning_rate": 2.737e-05, "elapsed_time_per_iteration": 4.82475281, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 16s", "remaining_time": "5h 29m 6s", "loss_scale": 1.0, "consumed_samples": 2218752, "global_step/max_steps": "8667/12700"}
{"lm loss": 2.06468582, "grad_norm": 0.32437548, "learning_rate": 2.736e-05, "elapsed_time_per_iteration": 4.87740302, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 21s", "remaining_time": "5h 29m 2s", "loss_scale": 1.0, "consumed_samples": 2219008, "global_step/max_steps": "8668/12700"}
{"lm loss": 2.05443335, "grad_norm": 0.35297671, "learning_rate": 2.735e-05, "elapsed_time_per_iteration": 4.87606072, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 26s", "remaining_time": "5h 28m 57s", "loss_scale": 1.0, "consumed_samples": 2219264, "global_step/max_steps": "8669/12700"}
{"lm loss": 2.09043002, "grad_norm": 0.34965175, "learning_rate": 2.734e-05, "elapsed_time_per_iteration": 4.90109181, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 31s", "remaining_time": "5h 28m 52s", "loss_scale": 1.0, "consumed_samples": 2219520, "global_step/max_steps": "8670/12700"}
{"lm loss": 2.07162619, "grad_norm": 0.35023075, "learning_rate": 2.733e-05, "elapsed_time_per_iteration": 4.90554309, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 36s", "remaining_time": "5h 28m 47s", "loss_scale": 1.0, "consumed_samples": 2219776, "global_step/max_steps": "8671/12700"}
{"lm loss": 2.06403685, "grad_norm": 0.37152448, "learning_rate": 2.732e-05, "elapsed_time_per_iteration": 4.85224557, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 41s", "remaining_time": "5h 28m 42s", "loss_scale": 1.0, "consumed_samples": 2220032, "global_step/max_steps": "8672/12700"}
{"lm loss": 2.05549431, "grad_norm": 0.34189069, "learning_rate": 2.731e-05, "elapsed_time_per_iteration": 4.8002739, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 45s", "remaining_time": "5h 28m 37s", "loss_scale": 1.0, "consumed_samples": 2220288, "global_step/max_steps": "8673/12700"}
{"lm loss": 2.06372309, "grad_norm": 0.36230949, "learning_rate": 2.73e-05, "elapsed_time_per_iteration": 4.82603407, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 50s", "remaining_time": "5h 28m 32s", "loss_scale": 1.0, "consumed_samples": 2220544, "global_step/max_steps": "8674/12700"}
{"lm loss": 2.06498337, "grad_norm": 0.34677976, "learning_rate": 2.729e-05, "elapsed_time_per_iteration": 4.97900057, "memory(GiB)": 28.98, "elapsed_time": "11h 47m 55s", "remaining_time": "5h 28m 27s", "loss_scale": 1.0, "consumed_samples": 2220800, "global_step/max_steps": "8675/12700"}
{"lm loss": 2.09264994, "grad_norm": 0.33693272, "learning_rate": 2.728e-05, "elapsed_time_per_iteration": 5.01757431, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 0s", "remaining_time": "5h 28m 22s", "loss_scale": 1.0, "consumed_samples": 2221056, "global_step/max_steps": "8676/12700"}
{"lm loss": 2.08621311, "grad_norm": 0.36928239, "learning_rate": 2.726e-05, "elapsed_time_per_iteration": 4.82379889, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 5s", "remaining_time": "5h 28m 17s", "loss_scale": 1.0, "consumed_samples": 2221312, "global_step/max_steps": "8677/12700"}
{"lm loss": 2.05159545, "grad_norm": 0.34011909, "learning_rate": 2.725e-05, "elapsed_time_per_iteration": 4.93552923, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 10s", "remaining_time": "5h 28m 13s", "loss_scale": 1.0, "consumed_samples": 2221568, "global_step/max_steps": "8678/12700"}
{"lm loss": 2.05104566, "grad_norm": 0.36058208, "learning_rate": 2.724e-05, "elapsed_time_per_iteration": 4.83556747, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 15s", "remaining_time": "5h 28m 8s", "loss_scale": 1.0, "consumed_samples": 2221824, "global_step/max_steps": "8679/12700"}
{"lm loss": 2.06119776, "grad_norm": 0.32551846, "learning_rate": 2.723e-05, "elapsed_time_per_iteration": 4.83333349, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 20s", "remaining_time": "5h 28m 3s", "loss_scale": 1.0, "consumed_samples": 2222080, "global_step/max_steps": "8680/12700"}
{"lm loss": 2.06224227, "grad_norm": 0.35480055, "learning_rate": 2.722e-05, "elapsed_time_per_iteration": 4.85363078, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 24s", "remaining_time": "5h 27m 58s", "loss_scale": 1.0, "consumed_samples": 2222336, "global_step/max_steps": "8681/12700"}
{"lm loss": 2.07162642, "grad_norm": 0.36208054, "learning_rate": 2.721e-05, "elapsed_time_per_iteration": 4.80066371, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 29s", "remaining_time": "5h 27m 53s", "loss_scale": 1.0, "consumed_samples": 2222592, "global_step/max_steps": "8682/12700"}
{"lm loss": 2.07707477, "grad_norm": 0.34619138, "learning_rate": 2.72e-05, "elapsed_time_per_iteration": 4.94431925, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 34s", "remaining_time": "5h 27m 48s", "loss_scale": 1.0, "consumed_samples": 2222848, "global_step/max_steps": "8683/12700"}
{"lm loss": 2.05067492, "grad_norm": 0.34807825, "learning_rate": 2.719e-05, "elapsed_time_per_iteration": 4.8502903, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 39s", "remaining_time": "5h 27m 43s", "loss_scale": 1.0, "consumed_samples": 2223104, "global_step/max_steps": "8684/12700"}
{"lm loss": 2.09323192, "grad_norm": 0.35790032, "learning_rate": 2.718e-05, "elapsed_time_per_iteration": 4.88791442, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 44s", "remaining_time": "5h 27m 38s", "loss_scale": 1.0, "consumed_samples": 2223360, "global_step/max_steps": "8685/12700"}
{"lm loss": 2.07024956, "grad_norm": 0.3861641, "learning_rate": 2.717e-05, "elapsed_time_per_iteration": 4.79802489, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 49s", "remaining_time": "5h 27m 33s", "loss_scale": 1.0, "consumed_samples": 2223616, "global_step/max_steps": "8686/12700"}
{"lm loss": 2.06631136, "grad_norm": 0.3443388, "learning_rate": 2.716e-05, "elapsed_time_per_iteration": 4.90582538, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 54s", "remaining_time": "5h 27m 28s", "loss_scale": 1.0, "consumed_samples": 2223872, "global_step/max_steps": "8687/12700"}
{"lm loss": 2.02616024, "grad_norm": 0.35474902, "learning_rate": 2.714e-05, "elapsed_time_per_iteration": 4.97030115, "memory(GiB)": 28.98, "elapsed_time": "11h 48m 59s", "remaining_time": "5h 27m 23s", "loss_scale": 1.0, "consumed_samples": 2224128, "global_step/max_steps": "8688/12700"}
{"lm loss": 2.06062126, "grad_norm": 0.34681457, "learning_rate": 2.713e-05, "elapsed_time_per_iteration": 4.90413404, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 3s", "remaining_time": "5h 27m 19s", "loss_scale": 1.0, "consumed_samples": 2224384, "global_step/max_steps": "8689/12700"}
{"lm loss": 2.06979704, "grad_norm": 0.33448625, "learning_rate": 2.712e-05, "elapsed_time_per_iteration": 4.91184568, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 8s", "remaining_time": "5h 27m 14s", "loss_scale": 1.0, "consumed_samples": 2224640, "global_step/max_steps": "8690/12700"}
{"lm loss": 2.0957253, "grad_norm": 0.3722291, "learning_rate": 2.711e-05, "elapsed_time_per_iteration": 4.91728044, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 13s", "remaining_time": "5h 27m 9s", "loss_scale": 1.0, "consumed_samples": 2224896, "global_step/max_steps": "8691/12700"}
{"lm loss": 2.10023475, "grad_norm": 0.37992397, "learning_rate": 2.71e-05, "elapsed_time_per_iteration": 4.85098839, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 18s", "remaining_time": "5h 27m 4s", "loss_scale": 1.0, "consumed_samples": 2225152, "global_step/max_steps": "8692/12700"}
{"lm loss": 2.03469944, "grad_norm": 0.33973336, "learning_rate": 2.709e-05, "elapsed_time_per_iteration": 4.82409048, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 23s", "remaining_time": "5h 26m 59s", "loss_scale": 1.0, "consumed_samples": 2225408, "global_step/max_steps": "8693/12700"}
{"lm loss": 2.07842636, "grad_norm": 0.36101261, "learning_rate": 2.708e-05, "elapsed_time_per_iteration": 4.79158092, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 28s", "remaining_time": "5h 26m 54s", "loss_scale": 1.0, "consumed_samples": 2225664, "global_step/max_steps": "8694/12700"}
{"lm loss": 2.06777334, "grad_norm": 0.35180074, "learning_rate": 2.707e-05, "elapsed_time_per_iteration": 4.88489056, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 33s", "remaining_time": "5h 26m 49s", "loss_scale": 1.0, "consumed_samples": 2225920, "global_step/max_steps": "8695/12700"}
{"lm loss": 2.06587696, "grad_norm": 0.34979525, "learning_rate": 2.706e-05, "elapsed_time_per_iteration": 4.87850404, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 38s", "remaining_time": "5h 26m 44s", "loss_scale": 1.0, "consumed_samples": 2226176, "global_step/max_steps": "8696/12700"}
{"lm loss": 2.0368166, "grad_norm": 0.38469493, "learning_rate": 2.705e-05, "elapsed_time_per_iteration": 4.81984925, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 42s", "remaining_time": "5h 26m 39s", "loss_scale": 1.0, "consumed_samples": 2226432, "global_step/max_steps": "8697/12700"}
{"lm loss": 2.06822395, "grad_norm": 0.3544772, "learning_rate": 2.704e-05, "elapsed_time_per_iteration": 4.8333056, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 47s", "remaining_time": "5h 26m 34s", "loss_scale": 1.0, "consumed_samples": 2226688, "global_step/max_steps": "8698/12700"}
{"lm loss": 2.07731056, "grad_norm": 0.3435691, "learning_rate": 2.702e-05, "elapsed_time_per_iteration": 4.85842943, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 52s", "remaining_time": "5h 26m 29s", "loss_scale": 1.0, "consumed_samples": 2226944, "global_step/max_steps": "8699/12700"}
{"lm loss": 2.05488324, "grad_norm": 0.36653998, "learning_rate": 2.701e-05, "elapsed_time_per_iteration": 4.95427132, "memory(GiB)": 28.98, "elapsed_time": "11h 49m 57s", "remaining_time": "5h 26m 25s", "loss_scale": 1.0, "consumed_samples": 2227200, "global_step/max_steps": "8700/12700"}
{"lm loss": 2.08085179, "grad_norm": 0.34596622, "learning_rate": 2.7e-05, "elapsed_time_per_iteration": 4.71744394, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 2s", "remaining_time": "5h 26m 20s", "loss_scale": 1.0, "consumed_samples": 2227456, "global_step/max_steps": "8701/12700"}
{"lm loss": 2.09229684, "grad_norm": 0.34960446, "learning_rate": 2.699e-05, "elapsed_time_per_iteration": 4.91454554, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 7s", "remaining_time": "5h 26m 15s", "loss_scale": 1.0, "consumed_samples": 2227712, "global_step/max_steps": "8702/12700"}
{"lm loss": 2.05357027, "grad_norm": 0.34831193, "learning_rate": 2.698e-05, "elapsed_time_per_iteration": 4.93410325, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 12s", "remaining_time": "5h 26m 10s", "loss_scale": 1.0, "consumed_samples": 2227968, "global_step/max_steps": "8703/12700"}
{"lm loss": 2.09301114, "grad_norm": 0.32770592, "learning_rate": 2.697e-05, "elapsed_time_per_iteration": 4.84502912, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 16s", "remaining_time": "5h 26m 5s", "loss_scale": 1.0, "consumed_samples": 2228224, "global_step/max_steps": "8704/12700"}
{"lm loss": 2.08952332, "grad_norm": 0.40372407, "learning_rate": 2.696e-05, "elapsed_time_per_iteration": 4.8284471, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 21s", "remaining_time": "5h 26m 0s", "loss_scale": 1.0, "consumed_samples": 2228480, "global_step/max_steps": "8705/12700"}
{"lm loss": 2.07586002, "grad_norm": 0.34883204, "learning_rate": 2.695e-05, "elapsed_time_per_iteration": 4.82318759, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 26s", "remaining_time": "5h 25m 55s", "loss_scale": 1.0, "consumed_samples": 2228736, "global_step/max_steps": "8706/12700"}
{"lm loss": 2.04798412, "grad_norm": 0.31408948, "learning_rate": 2.694e-05, "elapsed_time_per_iteration": 4.85393715, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 31s", "remaining_time": "5h 25m 50s", "loss_scale": 1.0, "consumed_samples": 2228992, "global_step/max_steps": "8707/12700"}
{"lm loss": 2.07504654, "grad_norm": 0.33411977, "learning_rate": 2.693e-05, "elapsed_time_per_iteration": 4.96553802, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 36s", "remaining_time": "5h 25m 45s", "loss_scale": 1.0, "consumed_samples": 2229248, "global_step/max_steps": "8708/12700"}
{"lm loss": 2.06190801, "grad_norm": 0.33943784, "learning_rate": 2.692e-05, "elapsed_time_per_iteration": 4.86556554, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 41s", "remaining_time": "5h 25m 40s", "loss_scale": 1.0, "consumed_samples": 2229504, "global_step/max_steps": "8709/12700"}
{"lm loss": 2.06750393, "grad_norm": 0.34566718, "learning_rate": 2.69e-05, "elapsed_time_per_iteration": 4.97498274, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 46s", "remaining_time": "5h 25m 35s", "loss_scale": 1.0, "consumed_samples": 2229760, "global_step/max_steps": "8710/12700"}
{"lm loss": 2.05390382, "grad_norm": 0.33433336, "learning_rate": 2.689e-05, "elapsed_time_per_iteration": 4.88943553, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 51s", "remaining_time": "5h 25m 31s", "loss_scale": 1.0, "consumed_samples": 2230016, "global_step/max_steps": "8711/12700"}
{"lm loss": 2.05305648, "grad_norm": 0.34685352, "learning_rate": 2.688e-05, "elapsed_time_per_iteration": 4.95859146, "memory(GiB)": 28.98, "elapsed_time": "11h 50m 56s", "remaining_time": "5h 25m 26s", "loss_scale": 1.0, "consumed_samples": 2230272, "global_step/max_steps": "8712/12700"}
{"lm loss": 2.06097841, "grad_norm": 0.33489874, "learning_rate": 2.687e-05, "elapsed_time_per_iteration": 4.91411161, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 0s", "remaining_time": "5h 25m 21s", "loss_scale": 1.0, "consumed_samples": 2230528, "global_step/max_steps": "8713/12700"}
{"lm loss": 2.09616804, "grad_norm": 0.32721022, "learning_rate": 2.686e-05, "elapsed_time_per_iteration": 4.91839099, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 5s", "remaining_time": "5h 25m 16s", "loss_scale": 1.0, "consumed_samples": 2230784, "global_step/max_steps": "8714/12700"}
{"lm loss": 2.09309745, "grad_norm": 0.33005106, "learning_rate": 2.685e-05, "elapsed_time_per_iteration": 4.79322505, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 10s", "remaining_time": "5h 25m 11s", "loss_scale": 1.0, "consumed_samples": 2231040, "global_step/max_steps": "8715/12700"}
{"lm loss": 2.0586977, "grad_norm": 0.33663532, "learning_rate": 2.684e-05, "elapsed_time_per_iteration": 4.8589561, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 15s", "remaining_time": "5h 25m 6s", "loss_scale": 1.0, "consumed_samples": 2231296, "global_step/max_steps": "8716/12700"}
{"lm loss": 2.07267785, "grad_norm": 0.34863481, "learning_rate": 2.683e-05, "elapsed_time_per_iteration": 4.91419172, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 20s", "remaining_time": "5h 25m 1s", "loss_scale": 1.0, "consumed_samples": 2231552, "global_step/max_steps": "8717/12700"}
{"lm loss": 2.03395557, "grad_norm": 0.33511758, "learning_rate": 2.682e-05, "elapsed_time_per_iteration": 4.91195869, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 25s", "remaining_time": "5h 24m 56s", "loss_scale": 1.0, "consumed_samples": 2231808, "global_step/max_steps": "8718/12700"}
{"lm loss": 2.05531025, "grad_norm": 0.36608729, "learning_rate": 2.681e-05, "elapsed_time_per_iteration": 4.870193, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 30s", "remaining_time": "5h 24m 51s", "loss_scale": 1.0, "consumed_samples": 2232064, "global_step/max_steps": "8719/12700"}
{"lm loss": 2.06418467, "grad_norm": 0.34593728, "learning_rate": 2.68e-05, "elapsed_time_per_iteration": 4.89425039, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 35s", "remaining_time": "5h 24m 47s", "loss_scale": 1.0, "consumed_samples": 2232320, "global_step/max_steps": "8720/12700"}
{"lm loss": 2.06839824, "grad_norm": 0.34771082, "learning_rate": 2.678e-05, "elapsed_time_per_iteration": 4.83333516, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 39s", "remaining_time": "5h 24m 42s", "loss_scale": 1.0, "consumed_samples": 2232576, "global_step/max_steps": "8721/12700"}
{"lm loss": 2.08941031, "grad_norm": 0.33969846, "learning_rate": 2.677e-05, "elapsed_time_per_iteration": 4.93719888, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 44s", "remaining_time": "5h 24m 37s", "loss_scale": 1.0, "consumed_samples": 2232832, "global_step/max_steps": "8722/12700"}
{"lm loss": 2.04064584, "grad_norm": 0.36996463, "learning_rate": 2.676e-05, "elapsed_time_per_iteration": 4.87979794, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 49s", "remaining_time": "5h 24m 32s", "loss_scale": 1.0, "consumed_samples": 2233088, "global_step/max_steps": "8723/12700"}
{"lm loss": 2.07701015, "grad_norm": 0.3390013, "learning_rate": 2.675e-05, "elapsed_time_per_iteration": 4.85412788, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 54s", "remaining_time": "5h 24m 27s", "loss_scale": 1.0, "consumed_samples": 2233344, "global_step/max_steps": "8724/12700"}
{"lm loss": 2.06969905, "grad_norm": 0.3373718, "learning_rate": 2.674e-05, "elapsed_time_per_iteration": 4.85464907, "memory(GiB)": 28.98, "elapsed_time": "11h 51m 59s", "remaining_time": "5h 24m 22s", "loss_scale": 1.0, "consumed_samples": 2233600, "global_step/max_steps": "8725/12700"}
{"lm loss": 2.08272552, "grad_norm": 0.34520066, "learning_rate": 2.673e-05, "elapsed_time_per_iteration": 4.8436842, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 4s", "remaining_time": "5h 24m 17s", "loss_scale": 1.0, "consumed_samples": 2233856, "global_step/max_steps": "8726/12700"}
{"lm loss": 2.07896113, "grad_norm": 0.38196731, "learning_rate": 2.672e-05, "elapsed_time_per_iteration": 4.86311889, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 9s", "remaining_time": "5h 24m 12s", "loss_scale": 1.0, "consumed_samples": 2234112, "global_step/max_steps": "8727/12700"}
{"lm loss": 2.0347333, "grad_norm": 0.35894012, "learning_rate": 2.671e-05, "elapsed_time_per_iteration": 4.88731194, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 14s", "remaining_time": "5h 24m 7s", "loss_scale": 1.0, "consumed_samples": 2234368, "global_step/max_steps": "8728/12700"}
{"lm loss": 2.03474903, "grad_norm": 0.32858178, "learning_rate": 2.67e-05, "elapsed_time_per_iteration": 4.89008498, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 18s", "remaining_time": "5h 24m 2s", "loss_scale": 1.0, "consumed_samples": 2234624, "global_step/max_steps": "8729/12700"}
{"lm loss": 2.03014469, "grad_norm": 0.36623126, "learning_rate": 2.669e-05, "elapsed_time_per_iteration": 4.87867689, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 23s", "remaining_time": "5h 23m 57s", "loss_scale": 1.0, "consumed_samples": 2234880, "global_step/max_steps": "8730/12700"}
{"lm loss": 2.09858584, "grad_norm": 0.33309257, "learning_rate": 2.668e-05, "elapsed_time_per_iteration": 4.96162486, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 28s", "remaining_time": "5h 23m 53s", "loss_scale": 1.0, "consumed_samples": 2235136, "global_step/max_steps": "8731/12700"}
{"lm loss": 2.0660429, "grad_norm": 0.37028816, "learning_rate": 2.667e-05, "elapsed_time_per_iteration": 4.91937041, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 33s", "remaining_time": "5h 23m 48s", "loss_scale": 1.0, "consumed_samples": 2235392, "global_step/max_steps": "8732/12700"}
{"lm loss": 2.05330062, "grad_norm": 0.33389285, "learning_rate": 2.665e-05, "elapsed_time_per_iteration": 4.89843655, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 38s", "remaining_time": "5h 23m 43s", "loss_scale": 1.0, "consumed_samples": 2235648, "global_step/max_steps": "8733/12700"}
{"lm loss": 2.04369473, "grad_norm": 0.33890754, "learning_rate": 2.664e-05, "elapsed_time_per_iteration": 4.85909081, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 43s", "remaining_time": "5h 23m 38s", "loss_scale": 1.0, "consumed_samples": 2235904, "global_step/max_steps": "8734/12700"}
{"lm loss": 2.05097842, "grad_norm": 0.35553804, "learning_rate": 2.663e-05, "elapsed_time_per_iteration": 4.90933466, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 48s", "remaining_time": "5h 23m 33s", "loss_scale": 1.0, "consumed_samples": 2236160, "global_step/max_steps": "8735/12700"}
{"lm loss": 2.05751371, "grad_norm": 0.35641068, "learning_rate": 2.662e-05, "elapsed_time_per_iteration": 4.90796781, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 53s", "remaining_time": "5h 23m 28s", "loss_scale": 1.0, "consumed_samples": 2236416, "global_step/max_steps": "8736/12700"}
{"lm loss": 2.05331087, "grad_norm": 0.35850248, "learning_rate": 2.661e-05, "elapsed_time_per_iteration": 4.87665915, "memory(GiB)": 28.98, "elapsed_time": "11h 52m 58s", "remaining_time": "5h 23m 23s", "loss_scale": 1.0, "consumed_samples": 2236672, "global_step/max_steps": "8737/12700"}
{"lm loss": 2.05839324, "grad_norm": 0.32564327, "learning_rate": 2.66e-05, "elapsed_time_per_iteration": 4.89814401, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 3s", "remaining_time": "5h 23m 18s", "loss_scale": 1.0, "consumed_samples": 2236928, "global_step/max_steps": "8738/12700"}
{"lm loss": 2.07154202, "grad_norm": 0.33941409, "learning_rate": 2.659e-05, "elapsed_time_per_iteration": 4.82711172, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 7s", "remaining_time": "5h 23m 13s", "loss_scale": 1.0, "consumed_samples": 2237184, "global_step/max_steps": "8739/12700"}
{"lm loss": 2.06359673, "grad_norm": 0.33316794, "learning_rate": 2.658e-05, "elapsed_time_per_iteration": 4.84925342, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 12s", "remaining_time": "5h 23m 8s", "loss_scale": 1.0, "consumed_samples": 2237440, "global_step/max_steps": "8740/12700"}
{"lm loss": 2.06426549, "grad_norm": 0.367937, "learning_rate": 2.657e-05, "elapsed_time_per_iteration": 4.88022542, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 17s", "remaining_time": "5h 23m 4s", "loss_scale": 1.0, "consumed_samples": 2237696, "global_step/max_steps": "8741/12700"}
{"lm loss": 2.04442644, "grad_norm": 0.34048995, "learning_rate": 2.656e-05, "elapsed_time_per_iteration": 4.86641979, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 22s", "remaining_time": "5h 22m 59s", "loss_scale": 1.0, "consumed_samples": 2237952, "global_step/max_steps": "8742/12700"}
{"lm loss": 2.07069898, "grad_norm": 0.34743214, "learning_rate": 2.655e-05, "elapsed_time_per_iteration": 5.01788259, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 27s", "remaining_time": "5h 22m 54s", "loss_scale": 1.0, "consumed_samples": 2238208, "global_step/max_steps": "8743/12700"}
{"lm loss": 2.06598759, "grad_norm": 0.33607647, "learning_rate": 2.654e-05, "elapsed_time_per_iteration": 4.89496684, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 32s", "remaining_time": "5h 22m 49s", "loss_scale": 1.0, "consumed_samples": 2238464, "global_step/max_steps": "8744/12700"}
{"lm loss": 2.05065942, "grad_norm": 0.33834949, "learning_rate": 2.652e-05, "elapsed_time_per_iteration": 4.94711614, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 37s", "remaining_time": "5h 22m 44s", "loss_scale": 1.0, "consumed_samples": 2238720, "global_step/max_steps": "8745/12700"}
{"lm loss": 2.06160307, "grad_norm": 0.33553019, "learning_rate": 2.651e-05, "elapsed_time_per_iteration": 4.88969707, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 42s", "remaining_time": "5h 22m 39s", "loss_scale": 1.0, "consumed_samples": 2238976, "global_step/max_steps": "8746/12700"}
{"lm loss": 2.07931089, "grad_norm": 0.36136118, "learning_rate": 2.65e-05, "elapsed_time_per_iteration": 4.89500999, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 47s", "remaining_time": "5h 22m 34s", "loss_scale": 1.0, "consumed_samples": 2239232, "global_step/max_steps": "8747/12700"}
{"lm loss": 2.07814598, "grad_norm": 0.3480764, "learning_rate": 2.649e-05, "elapsed_time_per_iteration": 4.84581375, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 52s", "remaining_time": "5h 22m 29s", "loss_scale": 1.0, "consumed_samples": 2239488, "global_step/max_steps": "8748/12700"}
{"lm loss": 2.05102205, "grad_norm": 0.37266052, "learning_rate": 2.648e-05, "elapsed_time_per_iteration": 4.84285784, "memory(GiB)": 28.98, "elapsed_time": "11h 53m 56s", "remaining_time": "5h 22m 24s", "loss_scale": 1.0, "consumed_samples": 2239744, "global_step/max_steps": "8749/12700"}
{"lm loss": 2.04384923, "grad_norm": 0.35659748, "learning_rate": 2.647e-05, "elapsed_time_per_iteration": 4.80089355, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 1s", "remaining_time": "5h 22m 19s", "loss_scale": 1.0, "consumed_samples": 2240000, "global_step/max_steps": "8750/12700"}
{"lm loss": 2.05291009, "grad_norm": 0.36128172, "learning_rate": 2.646e-05, "elapsed_time_per_iteration": 4.90825152, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 6s", "remaining_time": "5h 22m 15s", "loss_scale": 1.0, "consumed_samples": 2240256, "global_step/max_steps": "8751/12700"}
{"lm loss": 2.11475182, "grad_norm": 0.36276916, "learning_rate": 2.645e-05, "elapsed_time_per_iteration": 4.7661705, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 11s", "remaining_time": "5h 22m 10s", "loss_scale": 1.0, "consumed_samples": 2240512, "global_step/max_steps": "8752/12700"}
{"lm loss": 2.05928731, "grad_norm": 0.36942685, "learning_rate": 2.644e-05, "elapsed_time_per_iteration": 4.8524611, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 16s", "remaining_time": "5h 22m 5s", "loss_scale": 1.0, "consumed_samples": 2240768, "global_step/max_steps": "8753/12700"}
{"lm loss": 2.05178761, "grad_norm": 0.36373726, "learning_rate": 2.643e-05, "elapsed_time_per_iteration": 4.82520461, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 21s", "remaining_time": "5h 22m 0s", "loss_scale": 1.0, "consumed_samples": 2241024, "global_step/max_steps": "8754/12700"}
{"lm loss": 2.08109093, "grad_norm": 0.37271586, "learning_rate": 2.642e-05, "elapsed_time_per_iteration": 4.84841275, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 25s", "remaining_time": "5h 21m 55s", "loss_scale": 1.0, "consumed_samples": 2241280, "global_step/max_steps": "8755/12700"}
{"lm loss": 2.05160236, "grad_norm": 0.39066085, "learning_rate": 2.641e-05, "elapsed_time_per_iteration": 4.77019715, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 30s", "remaining_time": "5h 21m 50s", "loss_scale": 1.0, "consumed_samples": 2241536, "global_step/max_steps": "8756/12700"}
{"lm loss": 2.0443871, "grad_norm": 0.35440177, "learning_rate": 2.639e-05, "elapsed_time_per_iteration": 4.89158607, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 35s", "remaining_time": "5h 21m 45s", "loss_scale": 1.0, "consumed_samples": 2241792, "global_step/max_steps": "8757/12700"}
{"lm loss": 2.04115319, "grad_norm": 0.40175408, "learning_rate": 2.638e-05, "elapsed_time_per_iteration": 4.84214616, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 40s", "remaining_time": "5h 21m 40s", "loss_scale": 1.0, "consumed_samples": 2242048, "global_step/max_steps": "8758/12700"}
{"lm loss": 2.105407, "grad_norm": 0.37725341, "learning_rate": 2.637e-05, "elapsed_time_per_iteration": 4.97583699, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 45s", "remaining_time": "5h 21m 35s", "loss_scale": 1.0, "consumed_samples": 2242304, "global_step/max_steps": "8759/12700"}
{"lm loss": 2.074754, "grad_norm": 0.43755758, "learning_rate": 2.636e-05, "elapsed_time_per_iteration": 4.93002439, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 50s", "remaining_time": "5h 21m 30s", "loss_scale": 1.0, "consumed_samples": 2242560, "global_step/max_steps": "8760/12700"}
{"lm loss": 2.07066107, "grad_norm": 0.3635098, "learning_rate": 2.635e-05, "elapsed_time_per_iteration": 4.81986237, "memory(GiB)": 28.98, "elapsed_time": "11h 54m 55s", "remaining_time": "5h 21m 25s", "loss_scale": 1.0, "consumed_samples": 2242816, "global_step/max_steps": "8761/12700"}
{"lm loss": 2.08245039, "grad_norm": 0.34749976, "learning_rate": 2.634e-05, "elapsed_time_per_iteration": 5.03234816, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 0s", "remaining_time": "5h 21m 21s", "loss_scale": 1.0, "consumed_samples": 2243072, "global_step/max_steps": "8762/12700"}
{"lm loss": 2.04839849, "grad_norm": 0.37222418, "learning_rate": 2.633e-05, "elapsed_time_per_iteration": 4.92003179, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 5s", "remaining_time": "5h 21m 16s", "loss_scale": 1.0, "consumed_samples": 2243328, "global_step/max_steps": "8763/12700"}
{"lm loss": 2.03063273, "grad_norm": 0.35159296, "learning_rate": 2.632e-05, "elapsed_time_per_iteration": 4.92334628, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 9s", "remaining_time": "5h 21m 11s", "loss_scale": 1.0, "consumed_samples": 2243584, "global_step/max_steps": "8764/12700"}
{"lm loss": 2.09935308, "grad_norm": 0.36725694, "learning_rate": 2.631e-05, "elapsed_time_per_iteration": 4.87534571, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 14s", "remaining_time": "5h 21m 6s", "loss_scale": 1.0, "consumed_samples": 2243840, "global_step/max_steps": "8765/12700"}
{"lm loss": 2.07089424, "grad_norm": 0.35904136, "learning_rate": 2.63e-05, "elapsed_time_per_iteration": 4.8528614, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 19s", "remaining_time": "5h 21m 1s", "loss_scale": 1.0, "consumed_samples": 2244096, "global_step/max_steps": "8766/12700"}
{"lm loss": 2.06875038, "grad_norm": 0.3329303, "learning_rate": 2.629e-05, "elapsed_time_per_iteration": 4.90658259, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 24s", "remaining_time": "5h 20m 56s", "loss_scale": 1.0, "consumed_samples": 2244352, "global_step/max_steps": "8767/12700"}
{"lm loss": 2.05724931, "grad_norm": 0.3366777, "learning_rate": 2.628e-05, "elapsed_time_per_iteration": 4.96166492, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 29s", "remaining_time": "5h 20m 51s", "loss_scale": 1.0, "consumed_samples": 2244608, "global_step/max_steps": "8768/12700"}
{"lm loss": 2.06869125, "grad_norm": 0.35163081, "learning_rate": 2.627e-05, "elapsed_time_per_iteration": 4.94242644, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 34s", "remaining_time": "5h 20m 46s", "loss_scale": 1.0, "consumed_samples": 2244864, "global_step/max_steps": "8769/12700"}
{"lm loss": 2.06165028, "grad_norm": 0.33838177, "learning_rate": 2.625e-05, "elapsed_time_per_iteration": 4.78998971, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 39s", "remaining_time": "5h 20m 41s", "loss_scale": 1.0, "consumed_samples": 2245120, "global_step/max_steps": "8770/12700"}
{"lm loss": 2.07538366, "grad_norm": 0.35303771, "learning_rate": 2.624e-05, "elapsed_time_per_iteration": 4.94843626, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 44s", "remaining_time": "5h 20m 37s", "loss_scale": 1.0, "consumed_samples": 2245376, "global_step/max_steps": "8771/12700"}
{"lm loss": 2.06139708, "grad_norm": 0.33507875, "learning_rate": 2.623e-05, "elapsed_time_per_iteration": 4.85068941, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 49s", "remaining_time": "5h 20m 32s", "loss_scale": 1.0, "consumed_samples": 2245632, "global_step/max_steps": "8772/12700"}
{"lm loss": 2.03654575, "grad_norm": 0.35342461, "learning_rate": 2.622e-05, "elapsed_time_per_iteration": 4.84377241, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 53s", "remaining_time": "5h 20m 27s", "loss_scale": 1.0, "consumed_samples": 2245888, "global_step/max_steps": "8773/12700"}
{"lm loss": 2.06938457, "grad_norm": 0.33747676, "learning_rate": 2.621e-05, "elapsed_time_per_iteration": 4.98586464, "memory(GiB)": 28.98, "elapsed_time": "11h 55m 58s", "remaining_time": "5h 20m 22s", "loss_scale": 1.0, "consumed_samples": 2246144, "global_step/max_steps": "8774/12700"}
{"lm loss": 2.08842564, "grad_norm": 0.34286392, "learning_rate": 2.62e-05, "elapsed_time_per_iteration": 4.76762772, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 3s", "remaining_time": "5h 20m 17s", "loss_scale": 1.0, "consumed_samples": 2246400, "global_step/max_steps": "8775/12700"}
{"lm loss": 2.0402503, "grad_norm": 0.34519485, "learning_rate": 2.619e-05, "elapsed_time_per_iteration": 4.81866717, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 8s", "remaining_time": "5h 20m 12s", "loss_scale": 1.0, "consumed_samples": 2246656, "global_step/max_steps": "8776/12700"}
{"lm loss": 2.07093453, "grad_norm": 0.31870353, "learning_rate": 2.618e-05, "elapsed_time_per_iteration": 4.93152881, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 13s", "remaining_time": "5h 20m 7s", "loss_scale": 1.0, "consumed_samples": 2246912, "global_step/max_steps": "8777/12700"}
{"lm loss": 2.03593946, "grad_norm": 0.3428039, "learning_rate": 2.617e-05, "elapsed_time_per_iteration": 4.90928864, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 18s", "remaining_time": "5h 20m 2s", "loss_scale": 1.0, "consumed_samples": 2247168, "global_step/max_steps": "8778/12700"}
{"lm loss": 2.08062792, "grad_norm": 0.37508821, "learning_rate": 2.616e-05, "elapsed_time_per_iteration": 5.0432806, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 23s", "remaining_time": "5h 19m 57s", "loss_scale": 1.0, "consumed_samples": 2247424, "global_step/max_steps": "8779/12700"}
{"lm loss": 2.07359982, "grad_norm": 0.33739233, "learning_rate": 2.615e-05, "elapsed_time_per_iteration": 4.85219789, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 28s", "remaining_time": "5h 19m 52s", "loss_scale": 1.0, "consumed_samples": 2247680, "global_step/max_steps": "8780/12700"}
{"lm loss": 2.06114602, "grad_norm": 0.35079128, "learning_rate": 2.614e-05, "elapsed_time_per_iteration": 4.88425231, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 33s", "remaining_time": "5h 19m 48s", "loss_scale": 1.0, "consumed_samples": 2247936, "global_step/max_steps": "8781/12700"}
{"lm loss": 2.05483484, "grad_norm": 0.35238594, "learning_rate": 2.613e-05, "elapsed_time_per_iteration": 4.88733435, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 38s", "remaining_time": "5h 19m 43s", "loss_scale": 1.0, "consumed_samples": 2248192, "global_step/max_steps": "8782/12700"}
{"lm loss": 2.08579302, "grad_norm": 0.33288267, "learning_rate": 2.611e-05, "elapsed_time_per_iteration": 4.87713146, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 42s", "remaining_time": "5h 19m 38s", "loss_scale": 1.0, "consumed_samples": 2248448, "global_step/max_steps": "8783/12700"}
{"lm loss": 2.05373287, "grad_norm": 0.3474679, "learning_rate": 2.61e-05, "elapsed_time_per_iteration": 4.88426995, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 47s", "remaining_time": "5h 19m 33s", "loss_scale": 1.0, "consumed_samples": 2248704, "global_step/max_steps": "8784/12700"}
{"lm loss": 2.06711745, "grad_norm": 0.33489555, "learning_rate": 2.609e-05, "elapsed_time_per_iteration": 4.91331267, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 52s", "remaining_time": "5h 19m 28s", "loss_scale": 1.0, "consumed_samples": 2248960, "global_step/max_steps": "8785/12700"}
{"lm loss": 2.06796694, "grad_norm": 0.363846, "learning_rate": 2.608e-05, "elapsed_time_per_iteration": 4.89871287, "memory(GiB)": 28.98, "elapsed_time": "11h 56m 57s", "remaining_time": "5h 19m 23s", "loss_scale": 1.0, "consumed_samples": 2249216, "global_step/max_steps": "8786/12700"}
{"lm loss": 2.06275058, "grad_norm": 0.34589463, "learning_rate": 2.607e-05, "elapsed_time_per_iteration": 4.93029785, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 2s", "remaining_time": "5h 19m 18s", "loss_scale": 1.0, "consumed_samples": 2249472, "global_step/max_steps": "8787/12700"}
{"lm loss": 2.0659647, "grad_norm": 0.34550291, "learning_rate": 2.606e-05, "elapsed_time_per_iteration": 5.06497431, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 7s", "remaining_time": "5h 19m 13s", "loss_scale": 1.0, "consumed_samples": 2249728, "global_step/max_steps": "8788/12700"}
{"lm loss": 2.03722, "grad_norm": 0.33745134, "learning_rate": 2.605e-05, "elapsed_time_per_iteration": 4.89522266, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 12s", "remaining_time": "5h 19m 8s", "loss_scale": 1.0, "consumed_samples": 2249984, "global_step/max_steps": "8789/12700"}
{"lm loss": 2.05302954, "grad_norm": 0.35399806, "learning_rate": 2.604e-05, "elapsed_time_per_iteration": 4.92888737, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 17s", "remaining_time": "5h 19m 4s", "loss_scale": 1.0, "consumed_samples": 2250240, "global_step/max_steps": "8790/12700"}
{"lm loss": 2.06723118, "grad_norm": 0.35353962, "learning_rate": 2.603e-05, "elapsed_time_per_iteration": 4.86715627, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 22s", "remaining_time": "5h 18m 59s", "loss_scale": 1.0, "consumed_samples": 2250496, "global_step/max_steps": "8791/12700"}
{"lm loss": 2.04092789, "grad_norm": 0.3510977, "learning_rate": 2.602e-05, "elapsed_time_per_iteration": 4.99060702, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 27s", "remaining_time": "5h 18m 54s", "loss_scale": 1.0, "consumed_samples": 2250752, "global_step/max_steps": "8792/12700"}
{"lm loss": 2.06611156, "grad_norm": 0.34370163, "learning_rate": 2.601e-05, "elapsed_time_per_iteration": 4.93383288, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 32s", "remaining_time": "5h 18m 49s", "loss_scale": 1.0, "consumed_samples": 2251008, "global_step/max_steps": "8793/12700"}
{"lm loss": 2.10515213, "grad_norm": 0.31963089, "learning_rate": 2.6e-05, "elapsed_time_per_iteration": 4.86284113, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 37s", "remaining_time": "5h 18m 44s", "loss_scale": 1.0, "consumed_samples": 2251264, "global_step/max_steps": "8794/12700"}
{"lm loss": 2.12004685, "grad_norm": 0.3568463, "learning_rate": 2.599e-05, "elapsed_time_per_iteration": 4.82057238, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 41s", "remaining_time": "5h 18m 39s", "loss_scale": 1.0, "consumed_samples": 2251520, "global_step/max_steps": "8795/12700"}
{"lm loss": 2.03148842, "grad_norm": 0.35561547, "learning_rate": 2.597e-05, "elapsed_time_per_iteration": 4.85593486, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 46s", "remaining_time": "5h 18m 34s", "loss_scale": 1.0, "consumed_samples": 2251776, "global_step/max_steps": "8796/12700"}
{"lm loss": 2.05170608, "grad_norm": 0.33216402, "learning_rate": 2.596e-05, "elapsed_time_per_iteration": 4.97393537, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 51s", "remaining_time": "5h 18m 29s", "loss_scale": 1.0, "consumed_samples": 2252032, "global_step/max_steps": "8797/12700"}
{"lm loss": 2.10572171, "grad_norm": 0.33104527, "learning_rate": 2.595e-05, "elapsed_time_per_iteration": 4.91065121, "memory(GiB)": 28.98, "elapsed_time": "11h 57m 56s", "remaining_time": "5h 18m 24s", "loss_scale": 1.0, "consumed_samples": 2252288, "global_step/max_steps": "8798/12700"}
{"lm loss": 2.01988745, "grad_norm": 0.3462019, "learning_rate": 2.594e-05, "elapsed_time_per_iteration": 4.87658358, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 1s", "remaining_time": "5h 18m 20s", "loss_scale": 1.0, "consumed_samples": 2252544, "global_step/max_steps": "8799/12700"}
{"lm loss": 2.05618405, "grad_norm": 0.34735206, "learning_rate": 2.593e-05, "elapsed_time_per_iteration": 4.82464409, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 6s", "remaining_time": "5h 18m 15s", "loss_scale": 1.0, "consumed_samples": 2252800, "global_step/max_steps": "8800/12700"}
{"lm loss": 2.04814029, "grad_norm": 0.35955074, "learning_rate": 2.592e-05, "elapsed_time_per_iteration": 4.87187076, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 11s", "remaining_time": "5h 18m 10s", "loss_scale": 1.0, "consumed_samples": 2253056, "global_step/max_steps": "8801/12700"}
{"lm loss": 2.0695672, "grad_norm": 0.33805582, "learning_rate": 2.591e-05, "elapsed_time_per_iteration": 4.84299111, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 16s", "remaining_time": "5h 18m 5s", "loss_scale": 1.0, "consumed_samples": 2253312, "global_step/max_steps": "8802/12700"}
{"lm loss": 2.07356262, "grad_norm": 0.31719911, "learning_rate": 2.59e-05, "elapsed_time_per_iteration": 4.87228203, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 20s", "remaining_time": "5h 18m 0s", "loss_scale": 1.0, "consumed_samples": 2253568, "global_step/max_steps": "8803/12700"}
{"lm loss": 2.04492974, "grad_norm": 0.35639548, "learning_rate": 2.589e-05, "elapsed_time_per_iteration": 4.85510588, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 25s", "remaining_time": "5h 17m 55s", "loss_scale": 1.0, "consumed_samples": 2253824, "global_step/max_steps": "8804/12700"}
{"lm loss": 2.06931782, "grad_norm": 0.35724723, "learning_rate": 2.588e-05, "elapsed_time_per_iteration": 4.92090082, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 30s", "remaining_time": "5h 17m 50s", "loss_scale": 1.0, "consumed_samples": 2254080, "global_step/max_steps": "8805/12700"}
{"lm loss": 2.08002615, "grad_norm": 0.37328598, "learning_rate": 2.587e-05, "elapsed_time_per_iteration": 4.87095356, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 35s", "remaining_time": "5h 17m 45s", "loss_scale": 1.0, "consumed_samples": 2254336, "global_step/max_steps": "8806/12700"}
{"lm loss": 2.06409693, "grad_norm": 0.34514549, "learning_rate": 2.586e-05, "elapsed_time_per_iteration": 4.86955667, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 40s", "remaining_time": "5h 17m 40s", "loss_scale": 1.0, "consumed_samples": 2254592, "global_step/max_steps": "8807/12700"}
{"lm loss": 2.04208088, "grad_norm": 0.36560455, "learning_rate": 2.585e-05, "elapsed_time_per_iteration": 4.88132501, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 45s", "remaining_time": "5h 17m 35s", "loss_scale": 1.0, "consumed_samples": 2254848, "global_step/max_steps": "8808/12700"}
{"lm loss": 2.06488156, "grad_norm": 0.37246814, "learning_rate": 2.584e-05, "elapsed_time_per_iteration": 4.89815331, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 50s", "remaining_time": "5h 17m 30s", "loss_scale": 1.0, "consumed_samples": 2255104, "global_step/max_steps": "8809/12700"}
{"lm loss": 2.06592727, "grad_norm": 0.32910258, "learning_rate": 2.582e-05, "elapsed_time_per_iteration": 4.93451905, "memory(GiB)": 28.98, "elapsed_time": "11h 58m 55s", "remaining_time": "5h 17m 26s", "loss_scale": 1.0, "consumed_samples": 2255360, "global_step/max_steps": "8810/12700"}
{"lm loss": 2.02990413, "grad_norm": 0.40015209, "learning_rate": 2.581e-05, "elapsed_time_per_iteration": 4.92898202, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 0s", "remaining_time": "5h 17m 21s", "loss_scale": 1.0, "consumed_samples": 2255616, "global_step/max_steps": "8811/12700"}
{"lm loss": 2.02559471, "grad_norm": 0.36826184, "learning_rate": 2.58e-05, "elapsed_time_per_iteration": 4.8087666, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 4s", "remaining_time": "5h 17m 16s", "loss_scale": 1.0, "consumed_samples": 2255872, "global_step/max_steps": "8812/12700"}
{"lm loss": 2.09160709, "grad_norm": 0.36736795, "learning_rate": 2.579e-05, "elapsed_time_per_iteration": 4.82579494, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 9s", "remaining_time": "5h 17m 11s", "loss_scale": 1.0, "consumed_samples": 2256128, "global_step/max_steps": "8813/12700"}
{"lm loss": 2.0996356, "grad_norm": 0.37283656, "learning_rate": 2.578e-05, "elapsed_time_per_iteration": 4.86244202, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 14s", "remaining_time": "5h 17m 6s", "loss_scale": 1.0, "consumed_samples": 2256384, "global_step/max_steps": "8814/12700"}
{"lm loss": 2.05253053, "grad_norm": 0.35190269, "learning_rate": 2.577e-05, "elapsed_time_per_iteration": 4.84272742, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 19s", "remaining_time": "5h 17m 1s", "loss_scale": 1.0, "consumed_samples": 2256640, "global_step/max_steps": "8815/12700"}
{"lm loss": 2.0648849, "grad_norm": 0.34730202, "learning_rate": 2.576e-05, "elapsed_time_per_iteration": 4.94636297, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 24s", "remaining_time": "5h 16m 56s", "loss_scale": 1.0, "consumed_samples": 2256896, "global_step/max_steps": "8816/12700"}
{"lm loss": 2.05205059, "grad_norm": 0.34590593, "learning_rate": 2.575e-05, "elapsed_time_per_iteration": 4.94646525, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 29s", "remaining_time": "5h 16m 51s", "loss_scale": 1.0, "consumed_samples": 2257152, "global_step/max_steps": "8817/12700"}
{"lm loss": 2.04201126, "grad_norm": 0.32622582, "learning_rate": 2.574e-05, "elapsed_time_per_iteration": 4.76451612, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 34s", "remaining_time": "5h 16m 46s", "loss_scale": 1.0, "consumed_samples": 2257408, "global_step/max_steps": "8818/12700"}
{"lm loss": 2.04134226, "grad_norm": 0.33422014, "learning_rate": 2.573e-05, "elapsed_time_per_iteration": 4.7998023, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 38s", "remaining_time": "5h 16m 41s", "loss_scale": 1.0, "consumed_samples": 2257664, "global_step/max_steps": "8819/12700"}
{"lm loss": 2.06225514, "grad_norm": 0.36458489, "learning_rate": 2.572e-05, "elapsed_time_per_iteration": 4.86307788, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 43s", "remaining_time": "5h 16m 36s", "loss_scale": 1.0, "consumed_samples": 2257920, "global_step/max_steps": "8820/12700"}
{"lm loss": 2.01490378, "grad_norm": 0.33868691, "learning_rate": 2.571e-05, "elapsed_time_per_iteration": 4.82966018, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 48s", "remaining_time": "5h 16m 31s", "loss_scale": 1.0, "consumed_samples": 2258176, "global_step/max_steps": "8821/12700"}
{"lm loss": 2.06635904, "grad_norm": 0.34711844, "learning_rate": 2.57e-05, "elapsed_time_per_iteration": 4.82110834, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 53s", "remaining_time": "5h 16m 27s", "loss_scale": 1.0, "consumed_samples": 2258432, "global_step/max_steps": "8822/12700"}
{"lm loss": 2.08263707, "grad_norm": 0.3573156, "learning_rate": 2.569e-05, "elapsed_time_per_iteration": 4.8643446, "memory(GiB)": 28.98, "elapsed_time": "11h 59m 58s", "remaining_time": "5h 16m 22s", "loss_scale": 1.0, "consumed_samples": 2258688, "global_step/max_steps": "8823/12700"}
{"lm loss": 2.09634805, "grad_norm": 0.35146704, "learning_rate": 2.567e-05, "elapsed_time_per_iteration": 4.82349539, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 3s", "remaining_time": "5h 16m 17s", "loss_scale": 1.0, "consumed_samples": 2258944, "global_step/max_steps": "8824/12700"}
{"lm loss": 2.08917999, "grad_norm": 0.36337033, "learning_rate": 2.566e-05, "elapsed_time_per_iteration": 4.94236708, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 8s", "remaining_time": "5h 16m 12s", "loss_scale": 1.0, "consumed_samples": 2259200, "global_step/max_steps": "8825/12700"}
{"lm loss": 2.07313633, "grad_norm": 0.32923427, "learning_rate": 2.565e-05, "elapsed_time_per_iteration": 4.90076995, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 12s", "remaining_time": "5h 16m 7s", "loss_scale": 1.0, "consumed_samples": 2259456, "global_step/max_steps": "8826/12700"}
{"lm loss": 2.05103374, "grad_norm": 0.35158673, "learning_rate": 2.564e-05, "elapsed_time_per_iteration": 4.88823295, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 17s", "remaining_time": "5h 16m 2s", "loss_scale": 1.0, "consumed_samples": 2259712, "global_step/max_steps": "8827/12700"}
{"lm loss": 2.05022788, "grad_norm": 0.3728759, "learning_rate": 2.563e-05, "elapsed_time_per_iteration": 4.89968777, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 22s", "remaining_time": "5h 15m 57s", "loss_scale": 1.0, "consumed_samples": 2259968, "global_step/max_steps": "8828/12700"}
{"lm loss": 2.0612669, "grad_norm": 0.35123602, "learning_rate": 2.562e-05, "elapsed_time_per_iteration": 4.90979743, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 27s", "remaining_time": "5h 15m 52s", "loss_scale": 1.0, "consumed_samples": 2260224, "global_step/max_steps": "8829/12700"}
{"lm loss": 2.08167434, "grad_norm": 0.37685364, "learning_rate": 2.561e-05, "elapsed_time_per_iteration": 5.12753963, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 32s", "remaining_time": "5h 15m 47s", "loss_scale": 1.0, "consumed_samples": 2260480, "global_step/max_steps": "8830/12700"}
{"lm loss": 2.04800892, "grad_norm": 0.34182906, "learning_rate": 2.56e-05, "elapsed_time_per_iteration": 4.90134168, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 37s", "remaining_time": "5h 15m 43s", "loss_scale": 1.0, "consumed_samples": 2260736, "global_step/max_steps": "8831/12700"}
{"lm loss": 2.08335853, "grad_norm": 0.38227591, "learning_rate": 2.559e-05, "elapsed_time_per_iteration": 4.82574439, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 42s", "remaining_time": "5h 15m 38s", "loss_scale": 1.0, "consumed_samples": 2260992, "global_step/max_steps": "8832/12700"}
{"lm loss": 2.06543398, "grad_norm": 0.36355472, "learning_rate": 2.558e-05, "elapsed_time_per_iteration": 4.89293218, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 47s", "remaining_time": "5h 15m 33s", "loss_scale": 1.0, "consumed_samples": 2261248, "global_step/max_steps": "8833/12700"}
{"lm loss": 2.09413886, "grad_norm": 0.36367437, "learning_rate": 2.557e-05, "elapsed_time_per_iteration": 4.80553746, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 52s", "remaining_time": "5h 15m 28s", "loss_scale": 1.0, "consumed_samples": 2261504, "global_step/max_steps": "8834/12700"}
{"lm loss": 2.09248137, "grad_norm": 0.37990111, "learning_rate": 2.556e-05, "elapsed_time_per_iteration": 4.81740642, "memory(GiB)": 28.98, "elapsed_time": "12h 0m 56s", "remaining_time": "5h 15m 23s", "loss_scale": 1.0, "consumed_samples": 2261760, "global_step/max_steps": "8835/12700"}
{"lm loss": 2.03373504, "grad_norm": 0.35831478, "learning_rate": 2.555e-05, "elapsed_time_per_iteration": 4.90943503, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 1s", "remaining_time": "5h 15m 18s", "loss_scale": 1.0, "consumed_samples": 2262016, "global_step/max_steps": "8836/12700"}
{"lm loss": 2.05580115, "grad_norm": 0.3488515, "learning_rate": 2.554e-05, "elapsed_time_per_iteration": 4.7986455, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 6s", "remaining_time": "5h 15m 13s", "loss_scale": 1.0, "consumed_samples": 2262272, "global_step/max_steps": "8837/12700"}
{"lm loss": 2.1039381, "grad_norm": 0.3495551, "learning_rate": 2.553e-05, "elapsed_time_per_iteration": 4.85194468, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 11s", "remaining_time": "5h 15m 8s", "loss_scale": 1.0, "consumed_samples": 2262528, "global_step/max_steps": "8838/12700"}
{"lm loss": 2.08343029, "grad_norm": 0.35966864, "learning_rate": 2.551e-05, "elapsed_time_per_iteration": 4.86959982, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 16s", "remaining_time": "5h 15m 3s", "loss_scale": 1.0, "consumed_samples": 2262784, "global_step/max_steps": "8839/12700"}
{"lm loss": 2.04539561, "grad_norm": 0.36389542, "learning_rate": 2.55e-05, "elapsed_time_per_iteration": 4.79944944, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 21s", "remaining_time": "5h 14m 58s", "loss_scale": 1.0, "consumed_samples": 2263040, "global_step/max_steps": "8840/12700"}
{"lm loss": 2.06840062, "grad_norm": 0.33987141, "learning_rate": 2.549e-05, "elapsed_time_per_iteration": 4.90401411, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 26s", "remaining_time": "5h 14m 53s", "loss_scale": 1.0, "consumed_samples": 2263296, "global_step/max_steps": "8841/12700"}
{"lm loss": 2.04357457, "grad_norm": 0.34639069, "learning_rate": 2.548e-05, "elapsed_time_per_iteration": 4.96397424, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 31s", "remaining_time": "5h 14m 49s", "loss_scale": 1.0, "consumed_samples": 2263552, "global_step/max_steps": "8842/12700"}
{"lm loss": 2.04393983, "grad_norm": 0.33021459, "learning_rate": 2.547e-05, "elapsed_time_per_iteration": 4.85333991, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 35s", "remaining_time": "5h 14m 44s", "loss_scale": 1.0, "consumed_samples": 2263808, "global_step/max_steps": "8843/12700"}
{"lm loss": 2.08625293, "grad_norm": 0.3323001, "learning_rate": 2.546e-05, "elapsed_time_per_iteration": 4.88693142, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 40s", "remaining_time": "5h 14m 39s", "loss_scale": 1.0, "consumed_samples": 2264064, "global_step/max_steps": "8844/12700"}
{"lm loss": 2.07005978, "grad_norm": 0.33864915, "learning_rate": 2.545e-05, "elapsed_time_per_iteration": 4.88203001, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 45s", "remaining_time": "5h 14m 34s", "loss_scale": 1.0, "consumed_samples": 2264320, "global_step/max_steps": "8845/12700"}
{"lm loss": 2.0343287, "grad_norm": 0.33544725, "learning_rate": 2.544e-05, "elapsed_time_per_iteration": 4.95954895, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 50s", "remaining_time": "5h 14m 29s", "loss_scale": 1.0, "consumed_samples": 2264576, "global_step/max_steps": "8846/12700"}
{"lm loss": 2.0701611, "grad_norm": 0.34298703, "learning_rate": 2.543e-05, "elapsed_time_per_iteration": 4.97797179, "memory(GiB)": 28.98, "elapsed_time": "12h 1m 55s", "remaining_time": "5h 14m 24s", "loss_scale": 1.0, "consumed_samples": 2264832, "global_step/max_steps": "8847/12700"}
{"lm loss": 2.08101416, "grad_norm": 0.3450529, "learning_rate": 2.542e-05, "elapsed_time_per_iteration": 4.85930228, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 0s", "remaining_time": "5h 14m 19s", "loss_scale": 1.0, "consumed_samples": 2265088, "global_step/max_steps": "8848/12700"}
{"lm loss": 2.08643723, "grad_norm": 0.3245101, "learning_rate": 2.541e-05, "elapsed_time_per_iteration": 4.80167389, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 5s", "remaining_time": "5h 14m 14s", "loss_scale": 1.0, "consumed_samples": 2265344, "global_step/max_steps": "8849/12700"}
{"lm loss": 2.06313109, "grad_norm": 0.3562721, "learning_rate": 2.54e-05, "elapsed_time_per_iteration": 4.91631913, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 10s", "remaining_time": "5h 14m 9s", "loss_scale": 1.0, "consumed_samples": 2265600, "global_step/max_steps": "8850/12700"}
{"lm loss": 2.05119801, "grad_norm": 0.33495796, "learning_rate": 2.539e-05, "elapsed_time_per_iteration": 4.90857029, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 15s", "remaining_time": "5h 14m 4s", "loss_scale": 1.0, "consumed_samples": 2265856, "global_step/max_steps": "8851/12700"}
{"lm loss": 2.06893587, "grad_norm": 0.32193115, "learning_rate": 2.538e-05, "elapsed_time_per_iteration": 4.90700293, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 20s", "remaining_time": "5h 14m 0s", "loss_scale": 1.0, "consumed_samples": 2266112, "global_step/max_steps": "8852/12700"}
{"lm loss": 2.0734868, "grad_norm": 0.33859652, "learning_rate": 2.537e-05, "elapsed_time_per_iteration": 4.86829209, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 24s", "remaining_time": "5h 13m 55s", "loss_scale": 1.0, "consumed_samples": 2266368, "global_step/max_steps": "8853/12700"}
{"lm loss": 2.07489204, "grad_norm": 0.32795256, "learning_rate": 2.535e-05, "elapsed_time_per_iteration": 5.0217464, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 29s", "remaining_time": "5h 13m 50s", "loss_scale": 1.0, "consumed_samples": 2266624, "global_step/max_steps": "8854/12700"}
{"lm loss": 2.0653913, "grad_norm": 0.3431038, "learning_rate": 2.534e-05, "elapsed_time_per_iteration": 4.88464832, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 34s", "remaining_time": "5h 13m 45s", "loss_scale": 1.0, "consumed_samples": 2266880, "global_step/max_steps": "8855/12700"}
{"lm loss": 2.0583086, "grad_norm": 0.34743047, "learning_rate": 2.533e-05, "elapsed_time_per_iteration": 4.95680714, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 39s", "remaining_time": "5h 13m 40s", "loss_scale": 1.0, "consumed_samples": 2267136, "global_step/max_steps": "8856/12700"}
{"lm loss": 2.05324721, "grad_norm": 0.31915572, "learning_rate": 2.532e-05, "elapsed_time_per_iteration": 4.82065868, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 44s", "remaining_time": "5h 13m 35s", "loss_scale": 1.0, "consumed_samples": 2267392, "global_step/max_steps": "8857/12700"}
{"lm loss": 2.03737211, "grad_norm": 0.33770409, "learning_rate": 2.531e-05, "elapsed_time_per_iteration": 4.92468643, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 49s", "remaining_time": "5h 13m 30s", "loss_scale": 1.0, "consumed_samples": 2267648, "global_step/max_steps": "8858/12700"}
{"lm loss": 1.99510407, "grad_norm": 0.36563665, "learning_rate": 2.53e-05, "elapsed_time_per_iteration": 4.90169549, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 54s", "remaining_time": "5h 13m 25s", "loss_scale": 1.0, "consumed_samples": 2267904, "global_step/max_steps": "8859/12700"}
{"lm loss": 2.10570765, "grad_norm": 0.35594624, "learning_rate": 2.529e-05, "elapsed_time_per_iteration": 4.81280231, "memory(GiB)": 28.98, "elapsed_time": "12h 2m 59s", "remaining_time": "5h 13m 20s", "loss_scale": 1.0, "consumed_samples": 2268160, "global_step/max_steps": "8860/12700"}
{"lm loss": 2.04791784, "grad_norm": 0.32370666, "learning_rate": 2.528e-05, "elapsed_time_per_iteration": 4.9768858, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 4s", "remaining_time": "5h 13m 16s", "loss_scale": 1.0, "consumed_samples": 2268416, "global_step/max_steps": "8861/12700"}
{"lm loss": 2.03383422, "grad_norm": 0.3685523, "learning_rate": 2.527e-05, "elapsed_time_per_iteration": 4.85273767, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 9s", "remaining_time": "5h 13m 11s", "loss_scale": 1.0, "consumed_samples": 2268672, "global_step/max_steps": "8862/12700"}
{"lm loss": 2.07977104, "grad_norm": 0.33381721, "learning_rate": 2.526e-05, "elapsed_time_per_iteration": 4.87503409, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 13s", "remaining_time": "5h 13m 6s", "loss_scale": 1.0, "consumed_samples": 2268928, "global_step/max_steps": "8863/12700"}
{"lm loss": 2.04023862, "grad_norm": 0.34585646, "learning_rate": 2.525e-05, "elapsed_time_per_iteration": 4.87841582, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 18s", "remaining_time": "5h 13m 1s", "loss_scale": 1.0, "consumed_samples": 2269184, "global_step/max_steps": "8864/12700"}
{"lm loss": 2.05713201, "grad_norm": 0.34574732, "learning_rate": 2.524e-05, "elapsed_time_per_iteration": 4.8896873, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 23s", "remaining_time": "5h 12m 56s", "loss_scale": 1.0, "consumed_samples": 2269440, "global_step/max_steps": "8865/12700"}
{"lm loss": 2.08438754, "grad_norm": 0.3428033, "learning_rate": 2.523e-05, "elapsed_time_per_iteration": 4.88641906, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 28s", "remaining_time": "5h 12m 51s", "loss_scale": 1.0, "consumed_samples": 2269696, "global_step/max_steps": "8866/12700"}
{"lm loss": 2.05686212, "grad_norm": 0.33857006, "learning_rate": 2.522e-05, "elapsed_time_per_iteration": 4.91868997, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 33s", "remaining_time": "5h 12m 46s", "loss_scale": 1.0, "consumed_samples": 2269952, "global_step/max_steps": "8867/12700"}
{"lm loss": 2.09777069, "grad_norm": 0.36199164, "learning_rate": 2.521e-05, "elapsed_time_per_iteration": 4.85622025, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 38s", "remaining_time": "5h 12m 41s", "loss_scale": 1.0, "consumed_samples": 2270208, "global_step/max_steps": "8868/12700"}
{"lm loss": 2.05253148, "grad_norm": 0.35731378, "learning_rate": 2.52e-05, "elapsed_time_per_iteration": 4.96950722, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 43s", "remaining_time": "5h 12m 36s", "loss_scale": 1.0, "consumed_samples": 2270464, "global_step/max_steps": "8869/12700"}
{"lm loss": 2.0683527, "grad_norm": 0.33760792, "learning_rate": 2.518e-05, "elapsed_time_per_iteration": 4.87891078, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 48s", "remaining_time": "5h 12m 31s", "loss_scale": 1.0, "consumed_samples": 2270720, "global_step/max_steps": "8870/12700"}
{"lm loss": 2.04234958, "grad_norm": 0.35598817, "learning_rate": 2.517e-05, "elapsed_time_per_iteration": 5.00156283, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 53s", "remaining_time": "5h 12m 27s", "loss_scale": 1.0, "consumed_samples": 2270976, "global_step/max_steps": "8871/12700"}
{"lm loss": 2.07281137, "grad_norm": 0.32512632, "learning_rate": 2.516e-05, "elapsed_time_per_iteration": 4.77844834, "memory(GiB)": 28.98, "elapsed_time": "12h 3m 57s", "remaining_time": "5h 12m 22s", "loss_scale": 1.0, "consumed_samples": 2271232, "global_step/max_steps": "8872/12700"}
{"lm loss": 2.0618186, "grad_norm": 0.33006427, "learning_rate": 2.515e-05, "elapsed_time_per_iteration": 4.95899868, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 2s", "remaining_time": "5h 12m 17s", "loss_scale": 1.0, "consumed_samples": 2271488, "global_step/max_steps": "8873/12700"}
{"lm loss": 2.05847216, "grad_norm": 0.34012705, "learning_rate": 2.514e-05, "elapsed_time_per_iteration": 4.87325191, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 7s", "remaining_time": "5h 12m 12s", "loss_scale": 1.0, "consumed_samples": 2271744, "global_step/max_steps": "8874/12700"}
{"lm loss": 2.05106211, "grad_norm": 0.3312569, "learning_rate": 2.513e-05, "elapsed_time_per_iteration": 4.84338045, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 12s", "remaining_time": "5h 12m 7s", "loss_scale": 1.0, "consumed_samples": 2272000, "global_step/max_steps": "8875/12700"}
{"lm loss": 2.07581449, "grad_norm": 0.3399764, "learning_rate": 2.512e-05, "elapsed_time_per_iteration": 4.77365088, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 17s", "remaining_time": "5h 12m 2s", "loss_scale": 1.0, "consumed_samples": 2272256, "global_step/max_steps": "8876/12700"}
{"lm loss": 2.04825354, "grad_norm": 0.321253, "learning_rate": 2.511e-05, "elapsed_time_per_iteration": 4.87267065, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 22s", "remaining_time": "5h 11m 57s", "loss_scale": 1.0, "consumed_samples": 2272512, "global_step/max_steps": "8877/12700"}
{"lm loss": 2.04315615, "grad_norm": 0.32866722, "learning_rate": 2.51e-05, "elapsed_time_per_iteration": 4.90974569, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 27s", "remaining_time": "5h 11m 52s", "loss_scale": 1.0, "consumed_samples": 2272768, "global_step/max_steps": "8878/12700"}
{"lm loss": 2.0474689, "grad_norm": 0.33982688, "learning_rate": 2.509e-05, "elapsed_time_per_iteration": 4.83358049, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 32s", "remaining_time": "5h 11m 47s", "loss_scale": 1.0, "consumed_samples": 2273024, "global_step/max_steps": "8879/12700"}
{"lm loss": 2.04236889, "grad_norm": 0.35335577, "learning_rate": 2.508e-05, "elapsed_time_per_iteration": 4.87506342, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 36s", "remaining_time": "5h 11m 42s", "loss_scale": 1.0, "consumed_samples": 2273280, "global_step/max_steps": "8880/12700"}
{"lm loss": 2.06117177, "grad_norm": 0.3505086, "learning_rate": 2.507e-05, "elapsed_time_per_iteration": 4.89122677, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 41s", "remaining_time": "5h 11m 38s", "loss_scale": 1.0, "consumed_samples": 2273536, "global_step/max_steps": "8881/12700"}
{"lm loss": 2.0676477, "grad_norm": 0.34117278, "learning_rate": 2.506e-05, "elapsed_time_per_iteration": 4.71488333, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 46s", "remaining_time": "5h 11m 33s", "loss_scale": 1.0, "consumed_samples": 2273792, "global_step/max_steps": "8882/12700"}
{"lm loss": 2.0549233, "grad_norm": 0.32884076, "learning_rate": 2.505e-05, "elapsed_time_per_iteration": 4.86830139, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 51s", "remaining_time": "5h 11m 28s", "loss_scale": 1.0, "consumed_samples": 2274048, "global_step/max_steps": "8883/12700"}
{"lm loss": 2.04463196, "grad_norm": 0.35753357, "learning_rate": 2.504e-05, "elapsed_time_per_iteration": 4.88801074, "memory(GiB)": 28.98, "elapsed_time": "12h 4m 56s", "remaining_time": "5h 11m 23s", "loss_scale": 1.0, "consumed_samples": 2274304, "global_step/max_steps": "8884/12700"}
{"lm loss": 2.06883597, "grad_norm": 0.33664322, "learning_rate": 2.503e-05, "elapsed_time_per_iteration": 4.94613552, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 1s", "remaining_time": "5h 11m 18s", "loss_scale": 1.0, "consumed_samples": 2274560, "global_step/max_steps": "8885/12700"}
{"lm loss": 2.06084251, "grad_norm": 0.35075289, "learning_rate": 2.502e-05, "elapsed_time_per_iteration": 4.89742851, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 6s", "remaining_time": "5h 11m 13s", "loss_scale": 1.0, "consumed_samples": 2274816, "global_step/max_steps": "8886/12700"}
{"lm loss": 2.10119796, "grad_norm": 0.34088674, "learning_rate": 2.5e-05, "elapsed_time_per_iteration": 4.88401675, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 11s", "remaining_time": "5h 11m 8s", "loss_scale": 1.0, "consumed_samples": 2275072, "global_step/max_steps": "8887/12700"}
{"lm loss": 2.10494399, "grad_norm": 0.34190384, "learning_rate": 2.499e-05, "elapsed_time_per_iteration": 4.91788626, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 15s", "remaining_time": "5h 11m 3s", "loss_scale": 1.0, "consumed_samples": 2275328, "global_step/max_steps": "8888/12700"}
{"lm loss": 2.06840873, "grad_norm": 0.34007519, "learning_rate": 2.498e-05, "elapsed_time_per_iteration": 4.89069486, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 20s", "remaining_time": "5h 10m 58s", "loss_scale": 1.0, "consumed_samples": 2275584, "global_step/max_steps": "8889/12700"}
{"lm loss": 2.08595991, "grad_norm": 0.33131623, "learning_rate": 2.497e-05, "elapsed_time_per_iteration": 4.82907701, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 25s", "remaining_time": "5h 10m 53s", "loss_scale": 1.0, "consumed_samples": 2275840, "global_step/max_steps": "8890/12700"}
{"lm loss": 2.07287788, "grad_norm": 0.36505005, "learning_rate": 2.496e-05, "elapsed_time_per_iteration": 4.85162759, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 30s", "remaining_time": "5h 10m 48s", "loss_scale": 1.0, "consumed_samples": 2276096, "global_step/max_steps": "8891/12700"}
{"lm loss": 2.08112812, "grad_norm": 0.34705028, "learning_rate": 2.495e-05, "elapsed_time_per_iteration": 4.87413836, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 35s", "remaining_time": "5h 10m 44s", "loss_scale": 1.0, "consumed_samples": 2276352, "global_step/max_steps": "8892/12700"}
{"lm loss": 2.05816936, "grad_norm": 0.32756117, "learning_rate": 2.494e-05, "elapsed_time_per_iteration": 4.86038947, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 40s", "remaining_time": "5h 10m 39s", "loss_scale": 1.0, "consumed_samples": 2276608, "global_step/max_steps": "8893/12700"}
{"lm loss": 2.04553628, "grad_norm": 0.34573355, "learning_rate": 2.493e-05, "elapsed_time_per_iteration": 4.92583752, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 45s", "remaining_time": "5h 10m 34s", "loss_scale": 1.0, "consumed_samples": 2276864, "global_step/max_steps": "8894/12700"}
{"lm loss": 2.09315586, "grad_norm": 0.35502279, "learning_rate": 2.492e-05, "elapsed_time_per_iteration": 4.92695141, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 50s", "remaining_time": "5h 10m 29s", "loss_scale": 1.0, "consumed_samples": 2277120, "global_step/max_steps": "8895/12700"}
{"lm loss": 2.04042006, "grad_norm": 0.34796026, "learning_rate": 2.491e-05, "elapsed_time_per_iteration": 4.8513689, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 54s", "remaining_time": "5h 10m 24s", "loss_scale": 1.0, "consumed_samples": 2277376, "global_step/max_steps": "8896/12700"}
{"lm loss": 2.04441738, "grad_norm": 0.35495755, "learning_rate": 2.49e-05, "elapsed_time_per_iteration": 4.87695646, "memory(GiB)": 28.98, "elapsed_time": "12h 5m 59s", "remaining_time": "5h 10m 19s", "loss_scale": 1.0, "consumed_samples": 2277632, "global_step/max_steps": "8897/12700"}
{"lm loss": 2.04100394, "grad_norm": 0.33906713, "learning_rate": 2.489e-05, "elapsed_time_per_iteration": 4.7745657, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 4s", "remaining_time": "5h 10m 14s", "loss_scale": 1.0, "consumed_samples": 2277888, "global_step/max_steps": "8898/12700"}
{"lm loss": 2.04721951, "grad_norm": 0.3378824, "learning_rate": 2.488e-05, "elapsed_time_per_iteration": 4.88726878, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 9s", "remaining_time": "5h 10m 9s", "loss_scale": 1.0, "consumed_samples": 2278144, "global_step/max_steps": "8899/12700"}
{"lm loss": 2.05880785, "grad_norm": 0.33393779, "learning_rate": 2.487e-05, "elapsed_time_per_iteration": 4.94822502, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 14s", "remaining_time": "5h 10m 4s", "loss_scale": 1.0, "consumed_samples": 2278400, "global_step/max_steps": "8900/12700"}
{"lm loss": 2.08764195, "grad_norm": 0.35450897, "learning_rate": 2.486e-05, "elapsed_time_per_iteration": 4.81407285, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 19s", "remaining_time": "5h 9m 59s", "loss_scale": 1.0, "consumed_samples": 2278656, "global_step/max_steps": "8901/12700"}
{"lm loss": 2.06190848, "grad_norm": 0.35599166, "learning_rate": 2.485e-05, "elapsed_time_per_iteration": 4.86863399, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 24s", "remaining_time": "5h 9m 54s", "loss_scale": 1.0, "consumed_samples": 2278912, "global_step/max_steps": "8902/12700"}
{"lm loss": 2.05855489, "grad_norm": 0.32536063, "learning_rate": 2.484e-05, "elapsed_time_per_iteration": 4.96007037, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 29s", "remaining_time": "5h 9m 50s", "loss_scale": 1.0, "consumed_samples": 2279168, "global_step/max_steps": "8903/12700"}
{"lm loss": 2.09363842, "grad_norm": 0.34107646, "learning_rate": 2.483e-05, "elapsed_time_per_iteration": 5.02024627, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 34s", "remaining_time": "5h 9m 45s", "loss_scale": 1.0, "consumed_samples": 2279424, "global_step/max_steps": "8904/12700"}
{"lm loss": 2.05908012, "grad_norm": 0.34396842, "learning_rate": 2.481e-05, "elapsed_time_per_iteration": 4.96639919, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 39s", "remaining_time": "5h 9m 40s", "loss_scale": 1.0, "consumed_samples": 2279680, "global_step/max_steps": "8905/12700"}
{"lm loss": 2.07960081, "grad_norm": 0.3273322, "learning_rate": 2.48e-05, "elapsed_time_per_iteration": 4.88243532, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 43s", "remaining_time": "5h 9m 35s", "loss_scale": 1.0, "consumed_samples": 2279936, "global_step/max_steps": "8906/12700"}
{"lm loss": 2.05234504, "grad_norm": 0.32757589, "learning_rate": 2.479e-05, "elapsed_time_per_iteration": 5.90213871, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 49s", "remaining_time": "5h 9m 31s", "loss_scale": 1.0, "consumed_samples": 2280192, "global_step/max_steps": "8907/12700"}
{"lm loss": 2.05444193, "grad_norm": 0.32723886, "learning_rate": 2.478e-05, "elapsed_time_per_iteration": 4.83477926, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 54s", "remaining_time": "5h 9m 26s", "loss_scale": 1.0, "consumed_samples": 2280448, "global_step/max_steps": "8908/12700"}
{"lm loss": 2.07647562, "grad_norm": 0.36720228, "learning_rate": 2.477e-05, "elapsed_time_per_iteration": 4.81432152, "memory(GiB)": 28.98, "elapsed_time": "12h 6m 59s", "remaining_time": "5h 9m 21s", "loss_scale": 1.0, "consumed_samples": 2280704, "global_step/max_steps": "8909/12700"}
{"lm loss": 2.09206557, "grad_norm": 0.32984656, "learning_rate": 2.476e-05, "elapsed_time_per_iteration": 4.99052072, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 4s", "remaining_time": "5h 9m 16s", "loss_scale": 1.0, "consumed_samples": 2280960, "global_step/max_steps": "8910/12700"}
{"lm loss": 2.10616231, "grad_norm": 0.3382827, "learning_rate": 2.475e-05, "elapsed_time_per_iteration": 4.80698657, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 9s", "remaining_time": "5h 9m 11s", "loss_scale": 1.0, "consumed_samples": 2281216, "global_step/max_steps": "8911/12700"}
{"lm loss": 2.06930232, "grad_norm": 0.34581554, "learning_rate": 2.474e-05, "elapsed_time_per_iteration": 4.8926897, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 14s", "remaining_time": "5h 9m 6s", "loss_scale": 1.0, "consumed_samples": 2281472, "global_step/max_steps": "8912/12700"}
{"lm loss": 2.08606982, "grad_norm": 0.34525418, "learning_rate": 2.473e-05, "elapsed_time_per_iteration": 4.94622064, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 19s", "remaining_time": "5h 9m 1s", "loss_scale": 1.0, "consumed_samples": 2281728, "global_step/max_steps": "8913/12700"}
{"lm loss": 2.05248475, "grad_norm": 0.36179632, "learning_rate": 2.472e-05, "elapsed_time_per_iteration": 4.89345217, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 24s", "remaining_time": "5h 8m 56s", "loss_scale": 1.0, "consumed_samples": 2281984, "global_step/max_steps": "8914/12700"}
{"lm loss": 2.09783959, "grad_norm": 0.31885841, "learning_rate": 2.471e-05, "elapsed_time_per_iteration": 4.86349845, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 28s", "remaining_time": "5h 8m 51s", "loss_scale": 1.0, "consumed_samples": 2282240, "global_step/max_steps": "8915/12700"}
{"lm loss": 2.07471704, "grad_norm": 0.34845263, "learning_rate": 2.47e-05, "elapsed_time_per_iteration": 4.76321149, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 33s", "remaining_time": "5h 8m 46s", "loss_scale": 1.0, "consumed_samples": 2282496, "global_step/max_steps": "8916/12700"}
{"lm loss": 2.07305765, "grad_norm": 0.34731779, "learning_rate": 2.469e-05, "elapsed_time_per_iteration": 4.95087385, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 38s", "remaining_time": "5h 8m 41s", "loss_scale": 1.0, "consumed_samples": 2282752, "global_step/max_steps": "8917/12700"}
{"lm loss": 2.06631565, "grad_norm": 0.33686784, "learning_rate": 2.468e-05, "elapsed_time_per_iteration": 4.92130423, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 43s", "remaining_time": "5h 8m 37s", "loss_scale": 1.0, "consumed_samples": 2283008, "global_step/max_steps": "8918/12700"}
{"lm loss": 2.06686187, "grad_norm": 0.34852031, "learning_rate": 2.467e-05, "elapsed_time_per_iteration": 4.81605911, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 48s", "remaining_time": "5h 8m 32s", "loss_scale": 1.0, "consumed_samples": 2283264, "global_step/max_steps": "8919/12700"}
{"lm loss": 2.07278275, "grad_norm": 0.33918571, "learning_rate": 2.466e-05, "elapsed_time_per_iteration": 4.80080581, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 53s", "remaining_time": "5h 8m 27s", "loss_scale": 1.0, "consumed_samples": 2283520, "global_step/max_steps": "8920/12700"}
{"lm loss": 2.05770802, "grad_norm": 0.3505598, "learning_rate": 2.465e-05, "elapsed_time_per_iteration": 4.84060478, "memory(GiB)": 28.98, "elapsed_time": "12h 7m 57s", "remaining_time": "5h 8m 22s", "loss_scale": 1.0, "consumed_samples": 2283776, "global_step/max_steps": "8921/12700"}
{"lm loss": 2.03309965, "grad_norm": 0.34289736, "learning_rate": 2.464e-05, "elapsed_time_per_iteration": 4.87345243, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 2s", "remaining_time": "5h 8m 17s", "loss_scale": 1.0, "consumed_samples": 2284032, "global_step/max_steps": "8922/12700"}
{"lm loss": 2.0493319, "grad_norm": 0.33433324, "learning_rate": 2.463e-05, "elapsed_time_per_iteration": 4.87967014, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 7s", "remaining_time": "5h 8m 12s", "loss_scale": 1.0, "consumed_samples": 2284288, "global_step/max_steps": "8923/12700"}
{"lm loss": 2.04764652, "grad_norm": 0.31941479, "learning_rate": 2.461e-05, "elapsed_time_per_iteration": 5.6973176, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 13s", "remaining_time": "5h 8m 7s", "loss_scale": 1.0, "consumed_samples": 2284544, "global_step/max_steps": "8924/12700"}
{"lm loss": 2.07464457, "grad_norm": 0.32649449, "learning_rate": 2.46e-05, "elapsed_time_per_iteration": 4.97382832, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 18s", "remaining_time": "5h 8m 3s", "loss_scale": 1.0, "consumed_samples": 2284800, "global_step/max_steps": "8925/12700"}
{"lm loss": 2.07813144, "grad_norm": 0.33938399, "learning_rate": 2.459e-05, "elapsed_time_per_iteration": 4.91159034, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 23s", "remaining_time": "5h 7m 58s", "loss_scale": 1.0, "consumed_samples": 2285056, "global_step/max_steps": "8926/12700"}
{"lm loss": 2.08269095, "grad_norm": 0.34652379, "learning_rate": 2.458e-05, "elapsed_time_per_iteration": 4.8001802, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 28s", "remaining_time": "5h 7m 53s", "loss_scale": 1.0, "consumed_samples": 2285312, "global_step/max_steps": "8927/12700"}
{"lm loss": 2.02544928, "grad_norm": 0.3249718, "learning_rate": 2.457e-05, "elapsed_time_per_iteration": 4.88509774, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 33s", "remaining_time": "5h 7m 48s", "loss_scale": 1.0, "consumed_samples": 2285568, "global_step/max_steps": "8928/12700"}
{"lm loss": 2.06469226, "grad_norm": 0.36009756, "learning_rate": 2.456e-05, "elapsed_time_per_iteration": 4.86114788, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 37s", "remaining_time": "5h 7m 43s", "loss_scale": 1.0, "consumed_samples": 2285824, "global_step/max_steps": "8929/12700"}
{"lm loss": 2.04872513, "grad_norm": 0.35860571, "learning_rate": 2.455e-05, "elapsed_time_per_iteration": 4.80311847, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 42s", "remaining_time": "5h 7m 38s", "loss_scale": 1.0, "consumed_samples": 2286080, "global_step/max_steps": "8930/12700"}
{"lm loss": 2.07043266, "grad_norm": 0.34799689, "learning_rate": 2.454e-05, "elapsed_time_per_iteration": 4.88771081, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 47s", "remaining_time": "5h 7m 33s", "loss_scale": 1.0, "consumed_samples": 2286336, "global_step/max_steps": "8931/12700"}
{"lm loss": 2.08435941, "grad_norm": 0.35181719, "learning_rate": 2.453e-05, "elapsed_time_per_iteration": 4.95555186, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 52s", "remaining_time": "5h 7m 28s", "loss_scale": 1.0, "consumed_samples": 2286592, "global_step/max_steps": "8932/12700"}
{"lm loss": 2.08128428, "grad_norm": 0.32952192, "learning_rate": 2.452e-05, "elapsed_time_per_iteration": 4.95614767, "memory(GiB)": 28.98, "elapsed_time": "12h 8m 57s", "remaining_time": "5h 7m 23s", "loss_scale": 1.0, "consumed_samples": 2286848, "global_step/max_steps": "8933/12700"}
{"lm loss": 2.06633735, "grad_norm": 0.36258543, "learning_rate": 2.451e-05, "elapsed_time_per_iteration": 5.03287625, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 2s", "remaining_time": "5h 7m 19s", "loss_scale": 1.0, "consumed_samples": 2287104, "global_step/max_steps": "8934/12700"}
{"lm loss": 2.06028628, "grad_norm": 0.33194876, "learning_rate": 2.45e-05, "elapsed_time_per_iteration": 4.94446087, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 7s", "remaining_time": "5h 7m 14s", "loss_scale": 1.0, "consumed_samples": 2287360, "global_step/max_steps": "8935/12700"}
{"lm loss": 2.07858253, "grad_norm": 0.37716818, "learning_rate": 2.449e-05, "elapsed_time_per_iteration": 4.96882558, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 12s", "remaining_time": "5h 7m 9s", "loss_scale": 1.0, "consumed_samples": 2287616, "global_step/max_steps": "8936/12700"}
{"lm loss": 2.05439973, "grad_norm": 0.36772436, "learning_rate": 2.448e-05, "elapsed_time_per_iteration": 4.82235169, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 17s", "remaining_time": "5h 7m 4s", "loss_scale": 1.0, "consumed_samples": 2287872, "global_step/max_steps": "8937/12700"}
{"lm loss": 2.05306101, "grad_norm": 0.32396221, "learning_rate": 2.447e-05, "elapsed_time_per_iteration": 4.93235636, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 22s", "remaining_time": "5h 6m 59s", "loss_scale": 1.0, "consumed_samples": 2288128, "global_step/max_steps": "8938/12700"}
{"lm loss": 2.06468701, "grad_norm": 0.35403422, "learning_rate": 2.446e-05, "elapsed_time_per_iteration": 4.96588206, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 27s", "remaining_time": "5h 6m 54s", "loss_scale": 1.0, "consumed_samples": 2288384, "global_step/max_steps": "8939/12700"}
{"lm loss": 2.04569149, "grad_norm": 0.33489007, "learning_rate": 2.445e-05, "elapsed_time_per_iteration": 5.08520436, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 32s", "remaining_time": "5h 6m 49s", "loss_scale": 1.0, "consumed_samples": 2288640, "global_step/max_steps": "8940/12700"}
{"lm loss": 2.06199312, "grad_norm": 0.35005015, "learning_rate": 2.444e-05, "elapsed_time_per_iteration": 4.87054062, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 37s", "remaining_time": "5h 6m 44s", "loss_scale": 1.0, "consumed_samples": 2288896, "global_step/max_steps": "8941/12700"}
{"lm loss": 2.07069564, "grad_norm": 0.34555918, "learning_rate": 2.443e-05, "elapsed_time_per_iteration": 4.96036792, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 42s", "remaining_time": "5h 6m 40s", "loss_scale": 1.0, "consumed_samples": 2289152, "global_step/max_steps": "8942/12700"}
{"lm loss": 2.08156395, "grad_norm": 0.33474398, "learning_rate": 2.442e-05, "elapsed_time_per_iteration": 4.93424773, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 46s", "remaining_time": "5h 6m 35s", "loss_scale": 1.0, "consumed_samples": 2289408, "global_step/max_steps": "8943/12700"}
{"lm loss": 2.07989192, "grad_norm": 0.35903212, "learning_rate": 2.44e-05, "elapsed_time_per_iteration": 5.24258518, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 52s", "remaining_time": "5h 6m 30s", "loss_scale": 1.0, "consumed_samples": 2289664, "global_step/max_steps": "8944/12700"}
{"lm loss": 2.05709791, "grad_norm": 0.3685481, "learning_rate": 2.439e-05, "elapsed_time_per_iteration": 4.97049713, "memory(GiB)": 28.98, "elapsed_time": "12h 9m 57s", "remaining_time": "5h 6m 25s", "loss_scale": 1.0, "consumed_samples": 2289920, "global_step/max_steps": "8945/12700"}
{"lm loss": 2.05215096, "grad_norm": 0.32915708, "learning_rate": 2.438e-05, "elapsed_time_per_iteration": 5.01983929, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 2s", "remaining_time": "5h 6m 20s", "loss_scale": 1.0, "consumed_samples": 2290176, "global_step/max_steps": "8946/12700"}
{"lm loss": 2.04403353, "grad_norm": 0.37356034, "learning_rate": 2.437e-05, "elapsed_time_per_iteration": 4.9052515, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 7s", "remaining_time": "5h 6m 15s", "loss_scale": 1.0, "consumed_samples": 2290432, "global_step/max_steps": "8947/12700"}
{"lm loss": 2.06880426, "grad_norm": 0.34034142, "learning_rate": 2.436e-05, "elapsed_time_per_iteration": 5.01915503, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 12s", "remaining_time": "5h 6m 10s", "loss_scale": 1.0, "consumed_samples": 2290688, "global_step/max_steps": "8948/12700"}
{"lm loss": 2.04755735, "grad_norm": 0.35161862, "learning_rate": 2.435e-05, "elapsed_time_per_iteration": 4.90105271, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 17s", "remaining_time": "5h 6m 6s", "loss_scale": 1.0, "consumed_samples": 2290944, "global_step/max_steps": "8949/12700"}
{"lm loss": 2.04282355, "grad_norm": 0.36090541, "learning_rate": 2.434e-05, "elapsed_time_per_iteration": 4.82218218, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 21s", "remaining_time": "5h 6m 1s", "loss_scale": 1.0, "consumed_samples": 2291200, "global_step/max_steps": "8950/12700"}
{"lm loss": 2.0587523, "grad_norm": 0.34594968, "learning_rate": 2.433e-05, "elapsed_time_per_iteration": 4.78323174, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 26s", "remaining_time": "5h 5m 56s", "loss_scale": 1.0, "consumed_samples": 2291456, "global_step/max_steps": "8951/12700"}
{"lm loss": 2.03264928, "grad_norm": 0.34487784, "learning_rate": 2.432e-05, "elapsed_time_per_iteration": 4.87205982, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 31s", "remaining_time": "5h 5m 51s", "loss_scale": 1.0, "consumed_samples": 2291712, "global_step/max_steps": "8952/12700"}
{"lm loss": 2.00057364, "grad_norm": 0.33214957, "learning_rate": 2.431e-05, "elapsed_time_per_iteration": 4.91048789, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 36s", "remaining_time": "5h 5m 46s", "loss_scale": 1.0, "consumed_samples": 2291968, "global_step/max_steps": "8953/12700"}
{"lm loss": 2.04790139, "grad_norm": 0.34821528, "learning_rate": 2.43e-05, "elapsed_time_per_iteration": 4.8499794, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 41s", "remaining_time": "5h 5m 41s", "loss_scale": 1.0, "consumed_samples": 2292224, "global_step/max_steps": "8954/12700"}
{"lm loss": 2.05007052, "grad_norm": 0.33787918, "learning_rate": 2.429e-05, "elapsed_time_per_iteration": 4.89011884, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 46s", "remaining_time": "5h 5m 36s", "loss_scale": 1.0, "consumed_samples": 2292480, "global_step/max_steps": "8955/12700"}
{"lm loss": 2.07304955, "grad_norm": 0.37273306, "learning_rate": 2.428e-05, "elapsed_time_per_iteration": 4.85701704, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 51s", "remaining_time": "5h 5m 31s", "loss_scale": 1.0, "consumed_samples": 2292736, "global_step/max_steps": "8956/12700"}
{"lm loss": 2.05248976, "grad_norm": 0.38876358, "learning_rate": 2.427e-05, "elapsed_time_per_iteration": 5.02297616, "memory(GiB)": 28.98, "elapsed_time": "12h 10m 56s", "remaining_time": "5h 5m 26s", "loss_scale": 1.0, "consumed_samples": 2292992, "global_step/max_steps": "8957/12700"}
{"lm loss": 2.0883441, "grad_norm": 0.33963653, "learning_rate": 2.426e-05, "elapsed_time_per_iteration": 4.94409966, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 0s", "remaining_time": "5h 5m 21s", "loss_scale": 1.0, "consumed_samples": 2293248, "global_step/max_steps": "8958/12700"}
{"lm loss": 2.04475212, "grad_norm": 0.34741807, "learning_rate": 2.425e-05, "elapsed_time_per_iteration": 4.85280061, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 5s", "remaining_time": "5h 5m 17s", "loss_scale": 1.0, "consumed_samples": 2293504, "global_step/max_steps": "8959/12700"}
{"lm loss": 2.06926203, "grad_norm": 0.32987317, "learning_rate": 2.424e-05, "elapsed_time_per_iteration": 4.89984012, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 10s", "remaining_time": "5h 5m 12s", "loss_scale": 1.0, "consumed_samples": 2293760, "global_step/max_steps": "8960/12700"}
{"lm loss": 2.02725625, "grad_norm": 0.33935836, "learning_rate": 2.423e-05, "elapsed_time_per_iteration": 4.82906556, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 15s", "remaining_time": "5h 5m 7s", "loss_scale": 1.0, "consumed_samples": 2294016, "global_step/max_steps": "8961/12700"}
{"lm loss": 2.03621483, "grad_norm": 0.34899023, "learning_rate": 2.422e-05, "elapsed_time_per_iteration": 4.89793611, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 20s", "remaining_time": "5h 5m 2s", "loss_scale": 1.0, "consumed_samples": 2294272, "global_step/max_steps": "8962/12700"}
{"lm loss": 2.05861712, "grad_norm": 0.32298419, "learning_rate": 2.421e-05, "elapsed_time_per_iteration": 4.78122139, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 25s", "remaining_time": "5h 4m 57s", "loss_scale": 1.0, "consumed_samples": 2294528, "global_step/max_steps": "8963/12700"}
{"lm loss": 2.07904363, "grad_norm": 0.33504149, "learning_rate": 2.42e-05, "elapsed_time_per_iteration": 4.94163752, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 30s", "remaining_time": "5h 4m 52s", "loss_scale": 1.0, "consumed_samples": 2294784, "global_step/max_steps": "8964/12700"}
{"lm loss": 2.05003762, "grad_norm": 0.35820141, "learning_rate": 2.419e-05, "elapsed_time_per_iteration": 4.8726449, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 35s", "remaining_time": "5h 4m 47s", "loss_scale": 1.0, "consumed_samples": 2295040, "global_step/max_steps": "8965/12700"}
{"lm loss": 2.09210515, "grad_norm": 0.32942954, "learning_rate": 2.417e-05, "elapsed_time_per_iteration": 4.85828257, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 39s", "remaining_time": "5h 4m 42s", "loss_scale": 1.0, "consumed_samples": 2295296, "global_step/max_steps": "8966/12700"}
{"lm loss": 2.07253027, "grad_norm": 0.33637288, "learning_rate": 2.416e-05, "elapsed_time_per_iteration": 4.96640086, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 44s", "remaining_time": "5h 4m 37s", "loss_scale": 1.0, "consumed_samples": 2295552, "global_step/max_steps": "8967/12700"}
{"lm loss": 2.0847218, "grad_norm": 0.31626293, "learning_rate": 2.415e-05, "elapsed_time_per_iteration": 4.86814094, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 49s", "remaining_time": "5h 4m 32s", "loss_scale": 1.0, "consumed_samples": 2295808, "global_step/max_steps": "8968/12700"}
{"lm loss": 2.07502365, "grad_norm": 0.34024596, "learning_rate": 2.414e-05, "elapsed_time_per_iteration": 4.92755151, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 54s", "remaining_time": "5h 4m 28s", "loss_scale": 1.0, "consumed_samples": 2296064, "global_step/max_steps": "8969/12700"}
{"lm loss": 2.09391665, "grad_norm": 0.34027687, "learning_rate": 2.413e-05, "elapsed_time_per_iteration": 4.95321012, "memory(GiB)": 28.98, "elapsed_time": "12h 11m 59s", "remaining_time": "5h 4m 23s", "loss_scale": 1.0, "consumed_samples": 2296320, "global_step/max_steps": "8970/12700"}
{"lm loss": 2.04146433, "grad_norm": 0.32012752, "learning_rate": 2.412e-05, "elapsed_time_per_iteration": 4.85949183, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 4s", "remaining_time": "5h 4m 18s", "loss_scale": 1.0, "consumed_samples": 2296576, "global_step/max_steps": "8971/12700"}
{"lm loss": 2.04582882, "grad_norm": 0.3524009, "learning_rate": 2.411e-05, "elapsed_time_per_iteration": 4.88725924, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 9s", "remaining_time": "5h 4m 13s", "loss_scale": 1.0, "consumed_samples": 2296832, "global_step/max_steps": "8972/12700"}
{"lm loss": 2.05531764, "grad_norm": 0.34166336, "learning_rate": 2.41e-05, "elapsed_time_per_iteration": 4.97085738, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 14s", "remaining_time": "5h 4m 8s", "loss_scale": 1.0, "consumed_samples": 2297088, "global_step/max_steps": "8973/12700"}
{"lm loss": 2.10333753, "grad_norm": 0.34567606, "learning_rate": 2.409e-05, "elapsed_time_per_iteration": 4.8561182, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 19s", "remaining_time": "5h 4m 3s", "loss_scale": 1.0, "consumed_samples": 2297344, "global_step/max_steps": "8974/12700"}
{"lm loss": 2.06601763, "grad_norm": 0.32803273, "learning_rate": 2.408e-05, "elapsed_time_per_iteration": 4.90419602, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 24s", "remaining_time": "5h 3m 58s", "loss_scale": 1.0, "consumed_samples": 2297600, "global_step/max_steps": "8975/12700"}
{"lm loss": 2.03854799, "grad_norm": 0.37096661, "learning_rate": 2.407e-05, "elapsed_time_per_iteration": 4.8399837, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 28s", "remaining_time": "5h 3m 53s", "loss_scale": 1.0, "consumed_samples": 2297856, "global_step/max_steps": "8976/12700"}
{"lm loss": 2.0812397, "grad_norm": 0.34837243, "learning_rate": 2.406e-05, "elapsed_time_per_iteration": 4.98153806, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 33s", "remaining_time": "5h 3m 48s", "loss_scale": 1.0, "consumed_samples": 2298112, "global_step/max_steps": "8977/12700"}
{"lm loss": 2.06204391, "grad_norm": 0.36621937, "learning_rate": 2.405e-05, "elapsed_time_per_iteration": 4.83143711, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 38s", "remaining_time": "5h 3m 43s", "loss_scale": 1.0, "consumed_samples": 2298368, "global_step/max_steps": "8978/12700"}
{"lm loss": 2.06120968, "grad_norm": 0.33740595, "learning_rate": 2.404e-05, "elapsed_time_per_iteration": 4.93690848, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 43s", "remaining_time": "5h 3m 39s", "loss_scale": 1.0, "consumed_samples": 2298624, "global_step/max_steps": "8979/12700"}
{"lm loss": 2.06111956, "grad_norm": 0.34256512, "learning_rate": 2.403e-05, "elapsed_time_per_iteration": 4.80518031, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 48s", "remaining_time": "5h 3m 34s", "loss_scale": 1.0, "consumed_samples": 2298880, "global_step/max_steps": "8980/12700"}
{"lm loss": 2.02758932, "grad_norm": 0.34352311, "learning_rate": 2.402e-05, "elapsed_time_per_iteration": 4.92768741, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 53s", "remaining_time": "5h 3m 29s", "loss_scale": 1.0, "consumed_samples": 2299136, "global_step/max_steps": "8981/12700"}
{"lm loss": 2.05542207, "grad_norm": 0.35341582, "learning_rate": 2.401e-05, "elapsed_time_per_iteration": 4.84052253, "memory(GiB)": 28.98, "elapsed_time": "12h 12m 58s", "remaining_time": "5h 3m 24s", "loss_scale": 1.0, "consumed_samples": 2299392, "global_step/max_steps": "8982/12700"}
{"lm loss": 2.09675026, "grad_norm": 0.33392367, "learning_rate": 2.4e-05, "elapsed_time_per_iteration": 5.00852609, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 3s", "remaining_time": "5h 3m 19s", "loss_scale": 1.0, "consumed_samples": 2299648, "global_step/max_steps": "8983/12700"}
{"lm loss": 2.0995822, "grad_norm": 0.35305494, "learning_rate": 2.399e-05, "elapsed_time_per_iteration": 4.92997289, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 8s", "remaining_time": "5h 3m 14s", "loss_scale": 1.0, "consumed_samples": 2299904, "global_step/max_steps": "8984/12700"}
{"lm loss": 2.05464411, "grad_norm": 0.32829294, "learning_rate": 2.398e-05, "elapsed_time_per_iteration": 4.83228993, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 13s", "remaining_time": "5h 3m 9s", "loss_scale": 1.0, "consumed_samples": 2300160, "global_step/max_steps": "8985/12700"}
{"lm loss": 2.02490854, "grad_norm": 0.33092332, "learning_rate": 2.397e-05, "elapsed_time_per_iteration": 4.91352582, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 17s", "remaining_time": "5h 3m 4s", "loss_scale": 1.0, "consumed_samples": 2300416, "global_step/max_steps": "8986/12700"}
{"lm loss": 2.04866076, "grad_norm": 0.33697614, "learning_rate": 2.396e-05, "elapsed_time_per_iteration": 4.96128368, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 22s", "remaining_time": "5h 2m 59s", "loss_scale": 1.0, "consumed_samples": 2300672, "global_step/max_steps": "8987/12700"}
{"lm loss": 2.07483149, "grad_norm": 0.36437646, "learning_rate": 2.395e-05, "elapsed_time_per_iteration": 4.80112028, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 27s", "remaining_time": "5h 2m 54s", "loss_scale": 1.0, "consumed_samples": 2300928, "global_step/max_steps": "8988/12700"}
{"lm loss": 2.09049034, "grad_norm": 0.34162015, "learning_rate": 2.394e-05, "elapsed_time_per_iteration": 4.88210917, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 32s", "remaining_time": "5h 2m 50s", "loss_scale": 1.0, "consumed_samples": 2301184, "global_step/max_steps": "8989/12700"}
{"lm loss": 2.03433704, "grad_norm": 0.32357174, "learning_rate": 2.392e-05, "elapsed_time_per_iteration": 4.94801664, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 37s", "remaining_time": "5h 2m 45s", "loss_scale": 1.0, "consumed_samples": 2301440, "global_step/max_steps": "8990/12700"}
{"lm loss": 2.08372951, "grad_norm": 0.34314933, "learning_rate": 2.391e-05, "elapsed_time_per_iteration": 4.87821341, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 42s", "remaining_time": "5h 2m 40s", "loss_scale": 1.0, "consumed_samples": 2301696, "global_step/max_steps": "8991/12700"}
{"lm loss": 2.08478522, "grad_norm": 0.35796013, "learning_rate": 2.39e-05, "elapsed_time_per_iteration": 4.8693676, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 47s", "remaining_time": "5h 2m 35s", "loss_scale": 1.0, "consumed_samples": 2301952, "global_step/max_steps": "8992/12700"}
{"lm loss": 2.06403494, "grad_norm": 0.31942901, "learning_rate": 2.389e-05, "elapsed_time_per_iteration": 4.90214181, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 52s", "remaining_time": "5h 2m 30s", "loss_scale": 1.0, "consumed_samples": 2302208, "global_step/max_steps": "8993/12700"}
{"lm loss": 2.03342772, "grad_norm": 0.327344, "learning_rate": 2.388e-05, "elapsed_time_per_iteration": 4.96482205, "memory(GiB)": 28.98, "elapsed_time": "12h 13m 57s", "remaining_time": "5h 2m 25s", "loss_scale": 1.0, "consumed_samples": 2302464, "global_step/max_steps": "8994/12700"}
{"lm loss": 2.04510593, "grad_norm": 0.32621858, "learning_rate": 2.387e-05, "elapsed_time_per_iteration": 4.84943366, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 2s", "remaining_time": "5h 2m 20s", "loss_scale": 1.0, "consumed_samples": 2302720, "global_step/max_steps": "8995/12700"}
{"lm loss": 2.09119105, "grad_norm": 0.35637888, "learning_rate": 2.386e-05, "elapsed_time_per_iteration": 5.07401752, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 7s", "remaining_time": "5h 2m 15s", "loss_scale": 1.0, "consumed_samples": 2302976, "global_step/max_steps": "8996/12700"}
{"lm loss": 2.05602407, "grad_norm": 0.32605916, "learning_rate": 2.385e-05, "elapsed_time_per_iteration": 4.8830049, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 11s", "remaining_time": "5h 2m 10s", "loss_scale": 1.0, "consumed_samples": 2303232, "global_step/max_steps": "8997/12700"}
{"lm loss": 2.07833505, "grad_norm": 0.33912003, "learning_rate": 2.384e-05, "elapsed_time_per_iteration": 4.96759844, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 16s", "remaining_time": "5h 2m 6s", "loss_scale": 1.0, "consumed_samples": 2303488, "global_step/max_steps": "8998/12700"}
{"lm loss": 2.05670261, "grad_norm": 0.32803854, "learning_rate": 2.383e-05, "elapsed_time_per_iteration": 4.83513546, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 21s", "remaining_time": "5h 2m 1s", "loss_scale": 1.0, "consumed_samples": 2303744, "global_step/max_steps": "8999/12700"}
{"lm loss": 2.05338907, "grad_norm": 0.32981822, "learning_rate": 2.382e-05, "elapsed_time_per_iteration": 4.84030318, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 26s", "remaining_time": "5h 1m 56s", "loss_scale": 1.0, "consumed_samples": 2304000, "global_step/max_steps": "9000/12700"}
{"lm loss": 2.07476616, "grad_norm": 0.35322562, "learning_rate": 2.381e-05, "elapsed_time_per_iteration": 4.85384321, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 31s", "remaining_time": "5h 1m 51s", "loss_scale": 1.0, "consumed_samples": 2304256, "global_step/max_steps": "9001/12700"}
{"lm loss": 2.02997851, "grad_norm": 0.31314689, "learning_rate": 2.38e-05, "elapsed_time_per_iteration": 5.01714158, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 36s", "remaining_time": "5h 1m 46s", "loss_scale": 1.0, "consumed_samples": 2304512, "global_step/max_steps": "9002/12700"}
{"lm loss": 2.0720048, "grad_norm": 0.33550724, "learning_rate": 2.379e-05, "elapsed_time_per_iteration": 4.89212418, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 41s", "remaining_time": "5h 1m 41s", "loss_scale": 1.0, "consumed_samples": 2304768, "global_step/max_steps": "9003/12700"}
{"lm loss": 2.06356001, "grad_norm": 0.33045262, "learning_rate": 2.378e-05, "elapsed_time_per_iteration": 4.87323713, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 46s", "remaining_time": "5h 1m 36s", "loss_scale": 1.0, "consumed_samples": 2305024, "global_step/max_steps": "9004/12700"}
{"lm loss": 2.10679102, "grad_norm": 0.3250894, "learning_rate": 2.377e-05, "elapsed_time_per_iteration": 4.93721795, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 51s", "remaining_time": "5h 1m 31s", "loss_scale": 1.0, "consumed_samples": 2305280, "global_step/max_steps": "9005/12700"}
{"lm loss": 2.03853154, "grad_norm": 0.34840888, "learning_rate": 2.376e-05, "elapsed_time_per_iteration": 5.00508857, "memory(GiB)": 28.98, "elapsed_time": "12h 14m 56s", "remaining_time": "5h 1m 26s", "loss_scale": 1.0, "consumed_samples": 2305536, "global_step/max_steps": "9006/12700"}
{"lm loss": 2.04360151, "grad_norm": 0.35697654, "learning_rate": 2.375e-05, "elapsed_time_per_iteration": 4.81407499, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 1s", "remaining_time": "5h 1m 22s", "loss_scale": 1.0, "consumed_samples": 2305792, "global_step/max_steps": "9007/12700"}
{"lm loss": 2.06206608, "grad_norm": 0.3673597, "learning_rate": 2.374e-05, "elapsed_time_per_iteration": 4.87026334, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 5s", "remaining_time": "5h 1m 17s", "loss_scale": 1.0, "consumed_samples": 2306048, "global_step/max_steps": "9008/12700"}
{"lm loss": 2.05661988, "grad_norm": 0.34575018, "learning_rate": 2.373e-05, "elapsed_time_per_iteration": 4.93404794, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 10s", "remaining_time": "5h 1m 12s", "loss_scale": 1.0, "consumed_samples": 2306304, "global_step/max_steps": "9009/12700"}
{"lm loss": 1.99850678, "grad_norm": 0.33318198, "learning_rate": 2.372e-05, "elapsed_time_per_iteration": 4.87161422, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 15s", "remaining_time": "5h 1m 7s", "loss_scale": 1.0, "consumed_samples": 2306560, "global_step/max_steps": "9010/12700"}
{"lm loss": 2.07449365, "grad_norm": 0.34188953, "learning_rate": 2.371e-05, "elapsed_time_per_iteration": 4.88721943, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 20s", "remaining_time": "5h 1m 2s", "loss_scale": 1.0, "consumed_samples": 2306816, "global_step/max_steps": "9011/12700"}
{"lm loss": 2.06530404, "grad_norm": 0.34313414, "learning_rate": 2.37e-05, "elapsed_time_per_iteration": 4.83381319, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 25s", "remaining_time": "5h 0m 57s", "loss_scale": 1.0, "consumed_samples": 2307072, "global_step/max_steps": "9012/12700"}
{"lm loss": 2.0506947, "grad_norm": 0.37955171, "learning_rate": 2.369e-05, "elapsed_time_per_iteration": 4.86161113, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 30s", "remaining_time": "5h 0m 52s", "loss_scale": 1.0, "consumed_samples": 2307328, "global_step/max_steps": "9013/12700"}
{"lm loss": 2.02622938, "grad_norm": 0.36506963, "learning_rate": 2.368e-05, "elapsed_time_per_iteration": 4.97037292, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 35s", "remaining_time": "5h 0m 47s", "loss_scale": 1.0, "consumed_samples": 2307584, "global_step/max_steps": "9014/12700"}
{"lm loss": 2.0706284, "grad_norm": 0.34971514, "learning_rate": 2.367e-05, "elapsed_time_per_iteration": 4.94927812, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 40s", "remaining_time": "5h 0m 42s", "loss_scale": 1.0, "consumed_samples": 2307840, "global_step/max_steps": "9015/12700"}
{"lm loss": 2.09299016, "grad_norm": 0.33962771, "learning_rate": 2.366e-05, "elapsed_time_per_iteration": 4.95161057, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 45s", "remaining_time": "5h 0m 38s", "loss_scale": 1.0, "consumed_samples": 2308096, "global_step/max_steps": "9016/12700"}
{"lm loss": 2.06803918, "grad_norm": 0.34404355, "learning_rate": 2.365e-05, "elapsed_time_per_iteration": 4.93255854, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 50s", "remaining_time": "5h 0m 33s", "loss_scale": 1.0, "consumed_samples": 2308352, "global_step/max_steps": "9017/12700"}
{"lm loss": 2.058604, "grad_norm": 0.34527957, "learning_rate": 2.363e-05, "elapsed_time_per_iteration": 4.93801546, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 55s", "remaining_time": "5h 0m 28s", "loss_scale": 1.0, "consumed_samples": 2308608, "global_step/max_steps": "9018/12700"}
{"lm loss": 2.07082558, "grad_norm": 0.32436749, "learning_rate": 2.362e-05, "elapsed_time_per_iteration": 4.84680867, "memory(GiB)": 28.98, "elapsed_time": "12h 15m 59s", "remaining_time": "5h 0m 23s", "loss_scale": 1.0, "consumed_samples": 2308864, "global_step/max_steps": "9019/12700"}
{"lm loss": 2.08189654, "grad_norm": 0.33198264, "learning_rate": 2.361e-05, "elapsed_time_per_iteration": 4.83770704, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 4s", "remaining_time": "5h 0m 18s", "loss_scale": 1.0, "consumed_samples": 2309120, "global_step/max_steps": "9020/12700"}
{"lm loss": 2.03109479, "grad_norm": 0.35399783, "learning_rate": 2.36e-05, "elapsed_time_per_iteration": 4.85381341, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 9s", "remaining_time": "5h 0m 13s", "loss_scale": 1.0, "consumed_samples": 2309376, "global_step/max_steps": "9021/12700"}
{"lm loss": 2.07436776, "grad_norm": 0.3306728, "learning_rate": 2.359e-05, "elapsed_time_per_iteration": 4.82439184, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 14s", "remaining_time": "5h 0m 8s", "loss_scale": 1.0, "consumed_samples": 2309632, "global_step/max_steps": "9022/12700"}
{"lm loss": 2.11400819, "grad_norm": 0.33359191, "learning_rate": 2.358e-05, "elapsed_time_per_iteration": 4.93088078, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 19s", "remaining_time": "5h 0m 3s", "loss_scale": 1.0, "consumed_samples": 2309888, "global_step/max_steps": "9023/12700"}
{"lm loss": 2.07060599, "grad_norm": 0.33181858, "learning_rate": 2.357e-05, "elapsed_time_per_iteration": 5.04189062, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 24s", "remaining_time": "4h 59m 58s", "loss_scale": 1.0, "consumed_samples": 2310144, "global_step/max_steps": "9024/12700"}
{"lm loss": 2.03557181, "grad_norm": 0.34188497, "learning_rate": 2.356e-05, "elapsed_time_per_iteration": 4.98782325, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 29s", "remaining_time": "4h 59m 53s", "loss_scale": 1.0, "consumed_samples": 2310400, "global_step/max_steps": "9025/12700"}
{"lm loss": 2.07835937, "grad_norm": 0.32793593, "learning_rate": 2.355e-05, "elapsed_time_per_iteration": 4.86321974, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 34s", "remaining_time": "4h 59m 49s", "loss_scale": 1.0, "consumed_samples": 2310656, "global_step/max_steps": "9026/12700"}
{"lm loss": 2.06202602, "grad_norm": 0.3292926, "learning_rate": 2.354e-05, "elapsed_time_per_iteration": 4.82316446, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 39s", "remaining_time": "4h 59m 44s", "loss_scale": 1.0, "consumed_samples": 2310912, "global_step/max_steps": "9027/12700"}
{"lm loss": 2.08966851, "grad_norm": 0.33717367, "learning_rate": 2.353e-05, "elapsed_time_per_iteration": 4.86528206, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 43s", "remaining_time": "4h 59m 39s", "loss_scale": 1.0, "consumed_samples": 2311168, "global_step/max_steps": "9028/12700"}
{"lm loss": 2.03867078, "grad_norm": 0.32252964, "learning_rate": 2.352e-05, "elapsed_time_per_iteration": 4.90120173, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 48s", "remaining_time": "4h 59m 34s", "loss_scale": 1.0, "consumed_samples": 2311424, "global_step/max_steps": "9029/12700"}
{"lm loss": 2.07600141, "grad_norm": 0.32735664, "learning_rate": 2.351e-05, "elapsed_time_per_iteration": 4.77872038, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 53s", "remaining_time": "4h 59m 29s", "loss_scale": 1.0, "consumed_samples": 2311680, "global_step/max_steps": "9030/12700"}
{"lm loss": 2.03418374, "grad_norm": 0.33417377, "learning_rate": 2.35e-05, "elapsed_time_per_iteration": 4.80808425, "memory(GiB)": 28.98, "elapsed_time": "12h 16m 58s", "remaining_time": "4h 59m 24s", "loss_scale": 1.0, "consumed_samples": 2311936, "global_step/max_steps": "9031/12700"}
{"lm loss": 2.10157824, "grad_norm": 0.33050382, "learning_rate": 2.349e-05, "elapsed_time_per_iteration": 4.78536415, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 3s", "remaining_time": "4h 59m 19s", "loss_scale": 1.0, "consumed_samples": 2312192, "global_step/max_steps": "9032/12700"}
{"lm loss": 2.08500648, "grad_norm": 0.32597157, "learning_rate": 2.348e-05, "elapsed_time_per_iteration": 5.13551402, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 8s", "remaining_time": "4h 59m 14s", "loss_scale": 1.0, "consumed_samples": 2312448, "global_step/max_steps": "9033/12700"}
{"lm loss": 2.06238127, "grad_norm": 0.34166959, "learning_rate": 2.347e-05, "elapsed_time_per_iteration": 4.85605001, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 13s", "remaining_time": "4h 59m 9s", "loss_scale": 1.0, "consumed_samples": 2312704, "global_step/max_steps": "9034/12700"}
{"lm loss": 2.08785009, "grad_norm": 0.33078432, "learning_rate": 2.346e-05, "elapsed_time_per_iteration": 4.84780288, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 18s", "remaining_time": "4h 59m 4s", "loss_scale": 1.0, "consumed_samples": 2312960, "global_step/max_steps": "9035/12700"}
{"lm loss": 2.08372259, "grad_norm": 0.35685441, "learning_rate": 2.345e-05, "elapsed_time_per_iteration": 4.86311531, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 22s", "remaining_time": "4h 59m 0s", "loss_scale": 1.0, "consumed_samples": 2313216, "global_step/max_steps": "9036/12700"}
{"lm loss": 2.05330014, "grad_norm": 0.33220428, "learning_rate": 2.344e-05, "elapsed_time_per_iteration": 4.85646224, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 27s", "remaining_time": "4h 58m 55s", "loss_scale": 1.0, "consumed_samples": 2313472, "global_step/max_steps": "9037/12700"}
{"lm loss": 2.08284521, "grad_norm": 0.33558345, "learning_rate": 2.343e-05, "elapsed_time_per_iteration": 4.9205606, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 32s", "remaining_time": "4h 58m 50s", "loss_scale": 1.0, "consumed_samples": 2313728, "global_step/max_steps": "9038/12700"}
{"lm loss": 2.07495403, "grad_norm": 0.33084294, "learning_rate": 2.342e-05, "elapsed_time_per_iteration": 4.89387369, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 37s", "remaining_time": "4h 58m 45s", "loss_scale": 1.0, "consumed_samples": 2313984, "global_step/max_steps": "9039/12700"}
{"lm loss": 2.06994128, "grad_norm": 0.32404673, "learning_rate": 2.341e-05, "elapsed_time_per_iteration": 4.94992709, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 42s", "remaining_time": "4h 58m 40s", "loss_scale": 1.0, "consumed_samples": 2314240, "global_step/max_steps": "9040/12700"}
{"lm loss": 2.06912208, "grad_norm": 0.34281164, "learning_rate": 2.34e-05, "elapsed_time_per_iteration": 4.93538165, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 47s", "remaining_time": "4h 58m 35s", "loss_scale": 1.0, "consumed_samples": 2314496, "global_step/max_steps": "9041/12700"}
{"lm loss": 2.05538607, "grad_norm": 0.33314562, "learning_rate": 2.339e-05, "elapsed_time_per_iteration": 4.78796625, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 52s", "remaining_time": "4h 58m 30s", "loss_scale": 1.0, "consumed_samples": 2314752, "global_step/max_steps": "9042/12700"}
{"lm loss": 2.05148101, "grad_norm": 0.31951472, "learning_rate": 2.338e-05, "elapsed_time_per_iteration": 4.82617307, "memory(GiB)": 28.98, "elapsed_time": "12h 17m 57s", "remaining_time": "4h 58m 25s", "loss_scale": 1.0, "consumed_samples": 2315008, "global_step/max_steps": "9043/12700"}
{"lm loss": 2.05352688, "grad_norm": 0.34803349, "learning_rate": 2.337e-05, "elapsed_time_per_iteration": 4.81661081, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 1s", "remaining_time": "4h 58m 20s", "loss_scale": 1.0, "consumed_samples": 2315264, "global_step/max_steps": "9044/12700"}
{"lm loss": 2.03199458, "grad_norm": 0.32367599, "learning_rate": 2.336e-05, "elapsed_time_per_iteration": 4.91835523, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 6s", "remaining_time": "4h 58m 15s", "loss_scale": 1.0, "consumed_samples": 2315520, "global_step/max_steps": "9045/12700"}
{"lm loss": 2.08303761, "grad_norm": 0.34328422, "learning_rate": 2.335e-05, "elapsed_time_per_iteration": 4.95820379, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 11s", "remaining_time": "4h 58m 10s", "loss_scale": 1.0, "consumed_samples": 2315776, "global_step/max_steps": "9046/12700"}
{"lm loss": 2.01958704, "grad_norm": 0.3436158, "learning_rate": 2.334e-05, "elapsed_time_per_iteration": 4.90177631, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 16s", "remaining_time": "4h 58m 6s", "loss_scale": 1.0, "consumed_samples": 2316032, "global_step/max_steps": "9047/12700"}
{"lm loss": 2.07941461, "grad_norm": 0.34039259, "learning_rate": 2.333e-05, "elapsed_time_per_iteration": 4.92380691, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 21s", "remaining_time": "4h 58m 1s", "loss_scale": 1.0, "consumed_samples": 2316288, "global_step/max_steps": "9048/12700"}
{"lm loss": 2.07583904, "grad_norm": 0.36793292, "learning_rate": 2.332e-05, "elapsed_time_per_iteration": 4.89299583, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 26s", "remaining_time": "4h 57m 56s", "loss_scale": 1.0, "consumed_samples": 2316544, "global_step/max_steps": "9049/12700"}
{"lm loss": 2.06546545, "grad_norm": 0.34304607, "learning_rate": 2.33e-05, "elapsed_time_per_iteration": 4.85749841, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 31s", "remaining_time": "4h 57m 51s", "loss_scale": 1.0, "consumed_samples": 2316800, "global_step/max_steps": "9050/12700"}
{"lm loss": 2.08909583, "grad_norm": 0.32777593, "learning_rate": 2.329e-05, "elapsed_time_per_iteration": 4.87099695, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 36s", "remaining_time": "4h 57m 46s", "loss_scale": 1.0, "consumed_samples": 2317056, "global_step/max_steps": "9051/12700"}
{"lm loss": 2.06978536, "grad_norm": 0.36135781, "learning_rate": 2.328e-05, "elapsed_time_per_iteration": 4.8619988, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 41s", "remaining_time": "4h 57m 41s", "loss_scale": 1.0, "consumed_samples": 2317312, "global_step/max_steps": "9052/12700"}
{"lm loss": 2.05646491, "grad_norm": 0.33105201, "learning_rate": 2.327e-05, "elapsed_time_per_iteration": 4.9805522, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 46s", "remaining_time": "4h 57m 36s", "loss_scale": 1.0, "consumed_samples": 2317568, "global_step/max_steps": "9053/12700"}
{"lm loss": 2.05596113, "grad_norm": 0.32169056, "learning_rate": 2.326e-05, "elapsed_time_per_iteration": 4.93895602, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 50s", "remaining_time": "4h 57m 31s", "loss_scale": 1.0, "consumed_samples": 2317824, "global_step/max_steps": "9054/12700"}
{"lm loss": 2.06847811, "grad_norm": 0.36241105, "learning_rate": 2.325e-05, "elapsed_time_per_iteration": 4.92938828, "memory(GiB)": 28.98, "elapsed_time": "12h 18m 55s", "remaining_time": "4h 57m 26s", "loss_scale": 1.0, "consumed_samples": 2318080, "global_step/max_steps": "9055/12700"}
{"lm loss": 2.03627086, "grad_norm": 0.34764075, "learning_rate": 2.324e-05, "elapsed_time_per_iteration": 4.82643414, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 0s", "remaining_time": "4h 57m 22s", "loss_scale": 1.0, "consumed_samples": 2318336, "global_step/max_steps": "9056/12700"}
{"lm loss": 2.07957935, "grad_norm": 0.33846119, "learning_rate": 2.323e-05, "elapsed_time_per_iteration": 4.8506732, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 5s", "remaining_time": "4h 57m 17s", "loss_scale": 1.0, "consumed_samples": 2318592, "global_step/max_steps": "9057/12700"}
{"lm loss": 2.08271623, "grad_norm": 0.33082834, "learning_rate": 2.322e-05, "elapsed_time_per_iteration": 4.82120252, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 10s", "remaining_time": "4h 57m 12s", "loss_scale": 1.0, "consumed_samples": 2318848, "global_step/max_steps": "9058/12700"}
{"lm loss": 2.05209446, "grad_norm": 0.35258335, "learning_rate": 2.321e-05, "elapsed_time_per_iteration": 4.85743737, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 15s", "remaining_time": "4h 57m 7s", "loss_scale": 1.0, "consumed_samples": 2319104, "global_step/max_steps": "9059/12700"}
{"lm loss": 2.0855875, "grad_norm": 0.33224028, "learning_rate": 2.32e-05, "elapsed_time_per_iteration": 4.90091896, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 20s", "remaining_time": "4h 57m 2s", "loss_scale": 1.0, "consumed_samples": 2319360, "global_step/max_steps": "9060/12700"}
{"lm loss": 2.07020283, "grad_norm": 0.37972867, "learning_rate": 2.319e-05, "elapsed_time_per_iteration": 4.87552285, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 25s", "remaining_time": "4h 56m 57s", "loss_scale": 1.0, "consumed_samples": 2319616, "global_step/max_steps": "9061/12700"}
{"lm loss": 2.06373429, "grad_norm": 0.34981272, "learning_rate": 2.318e-05, "elapsed_time_per_iteration": 4.89346552, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 29s", "remaining_time": "4h 56m 52s", "loss_scale": 1.0, "consumed_samples": 2319872, "global_step/max_steps": "9062/12700"}
{"lm loss": 2.04602051, "grad_norm": 0.35340086, "learning_rate": 2.317e-05, "elapsed_time_per_iteration": 4.9374373, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 34s", "remaining_time": "4h 56m 47s", "loss_scale": 1.0, "consumed_samples": 2320128, "global_step/max_steps": "9063/12700"}
{"lm loss": 2.07780027, "grad_norm": 0.35523808, "learning_rate": 2.316e-05, "elapsed_time_per_iteration": 4.88407946, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 39s", "remaining_time": "4h 56m 42s", "loss_scale": 1.0, "consumed_samples": 2320384, "global_step/max_steps": "9064/12700"}
{"lm loss": 2.04831362, "grad_norm": 0.32674351, "learning_rate": 2.315e-05, "elapsed_time_per_iteration": 4.94064093, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 44s", "remaining_time": "4h 56m 37s", "loss_scale": 1.0, "consumed_samples": 2320640, "global_step/max_steps": "9065/12700"}
{"lm loss": 2.06712532, "grad_norm": 0.34556463, "learning_rate": 2.314e-05, "elapsed_time_per_iteration": 4.78746796, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 49s", "remaining_time": "4h 56m 32s", "loss_scale": 1.0, "consumed_samples": 2320896, "global_step/max_steps": "9066/12700"}
{"lm loss": 2.08047962, "grad_norm": 0.34277245, "learning_rate": 2.313e-05, "elapsed_time_per_iteration": 4.99270892, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 54s", "remaining_time": "4h 56m 28s", "loss_scale": 1.0, "consumed_samples": 2321152, "global_step/max_steps": "9067/12700"}
{"lm loss": 2.07501078, "grad_norm": 0.33591762, "learning_rate": 2.312e-05, "elapsed_time_per_iteration": 4.83422089, "memory(GiB)": 28.98, "elapsed_time": "12h 19m 59s", "remaining_time": "4h 56m 23s", "loss_scale": 1.0, "consumed_samples": 2321408, "global_step/max_steps": "9068/12700"}
{"lm loss": 2.06412506, "grad_norm": 0.31768364, "learning_rate": 2.311e-05, "elapsed_time_per_iteration": 4.88338733, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 4s", "remaining_time": "4h 56m 18s", "loss_scale": 1.0, "consumed_samples": 2321664, "global_step/max_steps": "9069/12700"}
{"lm loss": 2.0687573, "grad_norm": 0.34509984, "learning_rate": 2.31e-05, "elapsed_time_per_iteration": 4.80034328, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 8s", "remaining_time": "4h 56m 13s", "loss_scale": 1.0, "consumed_samples": 2321920, "global_step/max_steps": "9070/12700"}
{"lm loss": 2.06495333, "grad_norm": 0.34129843, "learning_rate": 2.309e-05, "elapsed_time_per_iteration": 4.86859941, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 13s", "remaining_time": "4h 56m 8s", "loss_scale": 1.0, "consumed_samples": 2322176, "global_step/max_steps": "9071/12700"}
{"lm loss": 2.06779194, "grad_norm": 0.33489546, "learning_rate": 2.308e-05, "elapsed_time_per_iteration": 4.81711245, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 18s", "remaining_time": "4h 56m 3s", "loss_scale": 1.0, "consumed_samples": 2322432, "global_step/max_steps": "9072/12700"}
{"lm loss": 2.04841113, "grad_norm": 0.35303062, "learning_rate": 2.307e-05, "elapsed_time_per_iteration": 4.96131063, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 23s", "remaining_time": "4h 55m 58s", "loss_scale": 1.0, "consumed_samples": 2322688, "global_step/max_steps": "9073/12700"}
{"lm loss": 2.04743624, "grad_norm": 0.34836799, "learning_rate": 2.306e-05, "elapsed_time_per_iteration": 5.04841781, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 28s", "remaining_time": "4h 55m 53s", "loss_scale": 1.0, "consumed_samples": 2322944, "global_step/max_steps": "9074/12700"}
{"lm loss": 2.06522942, "grad_norm": 0.33006033, "learning_rate": 2.305e-05, "elapsed_time_per_iteration": 4.94140387, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 33s", "remaining_time": "4h 55m 48s", "loss_scale": 1.0, "consumed_samples": 2323200, "global_step/max_steps": "9075/12700"}
{"lm loss": 2.0717411, "grad_norm": 0.34171888, "learning_rate": 2.304e-05, "elapsed_time_per_iteration": 4.80598116, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 38s", "remaining_time": "4h 55m 44s", "loss_scale": 1.0, "consumed_samples": 2323456, "global_step/max_steps": "9076/12700"}
{"lm loss": 2.06790733, "grad_norm": 0.34654585, "learning_rate": 2.303e-05, "elapsed_time_per_iteration": 4.85085988, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 43s", "remaining_time": "4h 55m 39s", "loss_scale": 1.0, "consumed_samples": 2323712, "global_step/max_steps": "9077/12700"}
{"lm loss": 2.05097961, "grad_norm": 0.33687642, "learning_rate": 2.302e-05, "elapsed_time_per_iteration": 4.88858795, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 48s", "remaining_time": "4h 55m 34s", "loss_scale": 1.0, "consumed_samples": 2323968, "global_step/max_steps": "9078/12700"}
{"lm loss": 2.08108139, "grad_norm": 0.3423638, "learning_rate": 2.301e-05, "elapsed_time_per_iteration": 4.85419154, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 53s", "remaining_time": "4h 55m 29s", "loss_scale": 1.0, "consumed_samples": 2324224, "global_step/max_steps": "9079/12700"}
{"lm loss": 2.01708961, "grad_norm": 0.3465803, "learning_rate": 2.3e-05, "elapsed_time_per_iteration": 4.7971921, "memory(GiB)": 28.98, "elapsed_time": "12h 20m 57s", "remaining_time": "4h 55m 24s", "loss_scale": 1.0, "consumed_samples": 2324480, "global_step/max_steps": "9080/12700"}
{"lm loss": 2.02498555, "grad_norm": 0.35102752, "learning_rate": 2.299e-05, "elapsed_time_per_iteration": 4.96836424, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 2s", "remaining_time": "4h 55m 19s", "loss_scale": 1.0, "consumed_samples": 2324736, "global_step/max_steps": "9081/12700"}
{"lm loss": 2.06006694, "grad_norm": 0.32655752, "learning_rate": 2.298e-05, "elapsed_time_per_iteration": 4.87692642, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 7s", "remaining_time": "4h 55m 14s", "loss_scale": 1.0, "consumed_samples": 2324992, "global_step/max_steps": "9082/12700"}
{"lm loss": 2.05789232, "grad_norm": 0.35134962, "learning_rate": 2.297e-05, "elapsed_time_per_iteration": 4.86917925, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 12s", "remaining_time": "4h 55m 9s", "loss_scale": 1.0, "consumed_samples": 2325248, "global_step/max_steps": "9083/12700"}
{"lm loss": 2.05117321, "grad_norm": 0.33833113, "learning_rate": 2.296e-05, "elapsed_time_per_iteration": 4.87920451, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 17s", "remaining_time": "4h 55m 4s", "loss_scale": 1.0, "consumed_samples": 2325504, "global_step/max_steps": "9084/12700"}
{"lm loss": 2.06659651, "grad_norm": 0.31992164, "learning_rate": 2.295e-05, "elapsed_time_per_iteration": 4.87782669, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 22s", "remaining_time": "4h 54m 59s", "loss_scale": 1.0, "consumed_samples": 2325760, "global_step/max_steps": "9085/12700"}
{"lm loss": 2.04845381, "grad_norm": 0.33422026, "learning_rate": 2.294e-05, "elapsed_time_per_iteration": 4.86545563, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 27s", "remaining_time": "4h 54m 54s", "loss_scale": 1.0, "consumed_samples": 2326016, "global_step/max_steps": "9086/12700"}
{"lm loss": 2.03638315, "grad_norm": 0.32596537, "learning_rate": 2.293e-05, "elapsed_time_per_iteration": 4.95457554, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 32s", "remaining_time": "4h 54m 50s", "loss_scale": 1.0, "consumed_samples": 2326272, "global_step/max_steps": "9087/12700"}
{"lm loss": 2.07601452, "grad_norm": 0.36047015, "learning_rate": 2.292e-05, "elapsed_time_per_iteration": 4.89684653, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 36s", "remaining_time": "4h 54m 45s", "loss_scale": 1.0, "consumed_samples": 2326528, "global_step/max_steps": "9088/12700"}
{"lm loss": 2.0574832, "grad_norm": 0.32511961, "learning_rate": 2.291e-05, "elapsed_time_per_iteration": 4.96120048, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 41s", "remaining_time": "4h 54m 40s", "loss_scale": 1.0, "consumed_samples": 2326784, "global_step/max_steps": "9089/12700"}
{"lm loss": 2.06453395, "grad_norm": 0.32315114, "learning_rate": 2.29e-05, "elapsed_time_per_iteration": 4.86785603, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 46s", "remaining_time": "4h 54m 35s", "loss_scale": 1.0, "consumed_samples": 2327040, "global_step/max_steps": "9090/12700"}
{"lm loss": 2.09865403, "grad_norm": 0.34082836, "learning_rate": 2.289e-05, "elapsed_time_per_iteration": 4.78404331, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 51s", "remaining_time": "4h 54m 30s", "loss_scale": 1.0, "consumed_samples": 2327296, "global_step/max_steps": "9091/12700"}
{"lm loss": 2.05845666, "grad_norm": 0.35046941, "learning_rate": 2.288e-05, "elapsed_time_per_iteration": 4.85545063, "memory(GiB)": 28.98, "elapsed_time": "12h 21m 56s", "remaining_time": "4h 54m 25s", "loss_scale": 1.0, "consumed_samples": 2327552, "global_step/max_steps": "9092/12700"}
{"lm loss": 2.07920527, "grad_norm": 0.3521888, "learning_rate": 2.286e-05, "elapsed_time_per_iteration": 4.8754859, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 1s", "remaining_time": "4h 54m 20s", "loss_scale": 1.0, "consumed_samples": 2327808, "global_step/max_steps": "9093/12700"}
{"lm loss": 2.06810594, "grad_norm": 0.31875008, "learning_rate": 2.285e-05, "elapsed_time_per_iteration": 4.96822119, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 6s", "remaining_time": "4h 54m 15s", "loss_scale": 1.0, "consumed_samples": 2328064, "global_step/max_steps": "9094/12700"}
{"lm loss": 2.06992841, "grad_norm": 0.35360926, "learning_rate": 2.284e-05, "elapsed_time_per_iteration": 4.96512151, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 11s", "remaining_time": "4h 54m 10s", "loss_scale": 1.0, "consumed_samples": 2328320, "global_step/max_steps": "9095/12700"}
{"lm loss": 2.04281211, "grad_norm": 0.33615506, "learning_rate": 2.283e-05, "elapsed_time_per_iteration": 4.88630199, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 16s", "remaining_time": "4h 54m 6s", "loss_scale": 1.0, "consumed_samples": 2328576, "global_step/max_steps": "9096/12700"}
{"lm loss": 2.12477207, "grad_norm": 0.36328876, "learning_rate": 2.282e-05, "elapsed_time_per_iteration": 4.90235639, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 21s", "remaining_time": "4h 54m 1s", "loss_scale": 1.0, "consumed_samples": 2328832, "global_step/max_steps": "9097/12700"}
{"lm loss": 2.06956553, "grad_norm": 0.32733092, "learning_rate": 2.281e-05, "elapsed_time_per_iteration": 4.87024307, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 25s", "remaining_time": "4h 53m 56s", "loss_scale": 1.0, "consumed_samples": 2329088, "global_step/max_steps": "9098/12700"}
{"lm loss": 2.0475173, "grad_norm": 0.32880247, "learning_rate": 2.28e-05, "elapsed_time_per_iteration": 4.89647746, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 30s", "remaining_time": "4h 53m 51s", "loss_scale": 1.0, "consumed_samples": 2329344, "global_step/max_steps": "9099/12700"}
{"lm loss": 2.02738261, "grad_norm": 0.34108394, "learning_rate": 2.279e-05, "elapsed_time_per_iteration": 4.9791739, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 35s", "remaining_time": "4h 53m 46s", "loss_scale": 1.0, "consumed_samples": 2329600, "global_step/max_steps": "9100/12700"}
{"lm loss": 2.0466094, "grad_norm": 0.36948019, "learning_rate": 2.278e-05, "elapsed_time_per_iteration": 4.97014117, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 40s", "remaining_time": "4h 53m 41s", "loss_scale": 1.0, "consumed_samples": 2329856, "global_step/max_steps": "9101/12700"}
{"lm loss": 2.00765085, "grad_norm": 0.34836894, "learning_rate": 2.277e-05, "elapsed_time_per_iteration": 4.92069983, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 45s", "remaining_time": "4h 53m 36s", "loss_scale": 1.0, "consumed_samples": 2330112, "global_step/max_steps": "9102/12700"}
{"lm loss": 2.09355521, "grad_norm": 0.34633094, "learning_rate": 2.276e-05, "elapsed_time_per_iteration": 4.86900353, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 50s", "remaining_time": "4h 53m 31s", "loss_scale": 1.0, "consumed_samples": 2330368, "global_step/max_steps": "9103/12700"}
{"lm loss": 2.07670069, "grad_norm": 0.3450509, "learning_rate": 2.275e-05, "elapsed_time_per_iteration": 4.87539053, "memory(GiB)": 28.98, "elapsed_time": "12h 22m 55s", "remaining_time": "4h 53m 26s", "loss_scale": 1.0, "consumed_samples": 2330624, "global_step/max_steps": "9104/12700"}
{"lm loss": 2.08707285, "grad_norm": 0.3427144, "learning_rate": 2.274e-05, "elapsed_time_per_iteration": 4.96586037, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 0s", "remaining_time": "4h 53m 22s", "loss_scale": 1.0, "consumed_samples": 2330880, "global_step/max_steps": "9105/12700"}
{"lm loss": 2.06957126, "grad_norm": 0.34014815, "learning_rate": 2.273e-05, "elapsed_time_per_iteration": 4.80766773, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 5s", "remaining_time": "4h 53m 17s", "loss_scale": 1.0, "consumed_samples": 2331136, "global_step/max_steps": "9106/12700"}
{"lm loss": 2.07256961, "grad_norm": 0.33952248, "learning_rate": 2.272e-05, "elapsed_time_per_iteration": 4.76645803, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 9s", "remaining_time": "4h 53m 12s", "loss_scale": 1.0, "consumed_samples": 2331392, "global_step/max_steps": "9107/12700"}
{"lm loss": 2.08084464, "grad_norm": 0.33022764, "learning_rate": 2.271e-05, "elapsed_time_per_iteration": 4.94181466, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 14s", "remaining_time": "4h 53m 7s", "loss_scale": 1.0, "consumed_samples": 2331648, "global_step/max_steps": "9108/12700"}
{"lm loss": 2.0555563, "grad_norm": 0.34206674, "learning_rate": 2.27e-05, "elapsed_time_per_iteration": 4.83680129, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 19s", "remaining_time": "4h 53m 2s", "loss_scale": 1.0, "consumed_samples": 2331904, "global_step/max_steps": "9109/12700"}
{"lm loss": 2.07208514, "grad_norm": 0.36272332, "learning_rate": 2.269e-05, "elapsed_time_per_iteration": 4.8641274, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 24s", "remaining_time": "4h 52m 57s", "loss_scale": 1.0, "consumed_samples": 2332160, "global_step/max_steps": "9110/12700"}
{"lm loss": 2.06067133, "grad_norm": 0.3440108, "learning_rate": 2.268e-05, "elapsed_time_per_iteration": 4.92454457, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 29s", "remaining_time": "4h 52m 52s", "loss_scale": 1.0, "consumed_samples": 2332416, "global_step/max_steps": "9111/12700"}
{"lm loss": 2.04468179, "grad_norm": 0.35458902, "learning_rate": 2.267e-05, "elapsed_time_per_iteration": 4.84272671, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 34s", "remaining_time": "4h 52m 47s", "loss_scale": 1.0, "consumed_samples": 2332672, "global_step/max_steps": "9112/12700"}
{"lm loss": 2.05359054, "grad_norm": 0.34670988, "learning_rate": 2.266e-05, "elapsed_time_per_iteration": 4.7452569, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 39s", "remaining_time": "4h 52m 42s", "loss_scale": 1.0, "consumed_samples": 2332928, "global_step/max_steps": "9113/12700"}
{"lm loss": 2.05808163, "grad_norm": 0.35713863, "learning_rate": 2.265e-05, "elapsed_time_per_iteration": 4.85920167, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 43s", "remaining_time": "4h 52m 37s", "loss_scale": 1.0, "consumed_samples": 2333184, "global_step/max_steps": "9114/12700"}
{"lm loss": 2.089252, "grad_norm": 0.35802507, "learning_rate": 2.264e-05, "elapsed_time_per_iteration": 4.82743931, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 48s", "remaining_time": "4h 52m 32s", "loss_scale": 1.0, "consumed_samples": 2333440, "global_step/max_steps": "9115/12700"}
{"lm loss": 2.083565, "grad_norm": 0.33241627, "learning_rate": 2.263e-05, "elapsed_time_per_iteration": 4.83957863, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 53s", "remaining_time": "4h 52m 27s", "loss_scale": 1.0, "consumed_samples": 2333696, "global_step/max_steps": "9116/12700"}
{"lm loss": 2.05559635, "grad_norm": 0.34594211, "learning_rate": 2.262e-05, "elapsed_time_per_iteration": 4.80672193, "memory(GiB)": 28.98, "elapsed_time": "12h 23m 58s", "remaining_time": "4h 52m 23s", "loss_scale": 1.0, "consumed_samples": 2333952, "global_step/max_steps": "9117/12700"}
{"lm loss": 2.06016731, "grad_norm": 0.35271844, "learning_rate": 2.261e-05, "elapsed_time_per_iteration": 4.93156171, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 3s", "remaining_time": "4h 52m 18s", "loss_scale": 1.0, "consumed_samples": 2334208, "global_step/max_steps": "9118/12700"}
{"lm loss": 2.09292293, "grad_norm": 0.33060643, "learning_rate": 2.26e-05, "elapsed_time_per_iteration": 4.87248683, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 8s", "remaining_time": "4h 52m 13s", "loss_scale": 1.0, "consumed_samples": 2334464, "global_step/max_steps": "9119/12700"}
{"lm loss": 2.08554816, "grad_norm": 0.34738621, "learning_rate": 2.259e-05, "elapsed_time_per_iteration": 4.8109684, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 13s", "remaining_time": "4h 52m 8s", "loss_scale": 1.0, "consumed_samples": 2334720, "global_step/max_steps": "9120/12700"}
{"lm loss": 2.07709312, "grad_norm": 0.36005068, "learning_rate": 2.258e-05, "elapsed_time_per_iteration": 4.9626224, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 18s", "remaining_time": "4h 52m 3s", "loss_scale": 1.0, "consumed_samples": 2334976, "global_step/max_steps": "9121/12700"}
{"lm loss": 2.09181118, "grad_norm": 0.3354888, "learning_rate": 2.257e-05, "elapsed_time_per_iteration": 4.86830926, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 22s", "remaining_time": "4h 51m 58s", "loss_scale": 1.0, "consumed_samples": 2335232, "global_step/max_steps": "9122/12700"}
{"lm loss": 2.05202031, "grad_norm": 0.3463726, "learning_rate": 2.256e-05, "elapsed_time_per_iteration": 4.86305714, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 27s", "remaining_time": "4h 51m 53s", "loss_scale": 1.0, "consumed_samples": 2335488, "global_step/max_steps": "9123/12700"}
{"lm loss": 2.04145122, "grad_norm": 0.32322815, "learning_rate": 2.255e-05, "elapsed_time_per_iteration": 4.83028197, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 32s", "remaining_time": "4h 51m 48s", "loss_scale": 1.0, "consumed_samples": 2335744, "global_step/max_steps": "9124/12700"}
{"lm loss": 2.07080841, "grad_norm": 0.34129375, "learning_rate": 2.254e-05, "elapsed_time_per_iteration": 4.81017613, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 37s", "remaining_time": "4h 51m 43s", "loss_scale": 1.0, "consumed_samples": 2336000, "global_step/max_steps": "9125/12700"}
{"lm loss": 2.0704155, "grad_norm": 0.35764492, "learning_rate": 2.253e-05, "elapsed_time_per_iteration": 4.83717847, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 42s", "remaining_time": "4h 51m 38s", "loss_scale": 1.0, "consumed_samples": 2336256, "global_step/max_steps": "9126/12700"}
{"lm loss": 2.08969069, "grad_norm": 0.32643637, "learning_rate": 2.252e-05, "elapsed_time_per_iteration": 4.87413383, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 47s", "remaining_time": "4h 51m 33s", "loss_scale": 1.0, "consumed_samples": 2336512, "global_step/max_steps": "9127/12700"}
{"lm loss": 2.06520152, "grad_norm": 0.39167765, "learning_rate": 2.251e-05, "elapsed_time_per_iteration": 4.92979383, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 52s", "remaining_time": "4h 51m 29s", "loss_scale": 1.0, "consumed_samples": 2336768, "global_step/max_steps": "9128/12700"}
{"lm loss": 2.04396653, "grad_norm": 0.33401886, "learning_rate": 2.25e-05, "elapsed_time_per_iteration": 4.7745676, "memory(GiB)": 28.98, "elapsed_time": "12h 24m 56s", "remaining_time": "4h 51m 24s", "loss_scale": 1.0, "consumed_samples": 2337024, "global_step/max_steps": "9129/12700"}
{"lm loss": 2.09144306, "grad_norm": 0.35089579, "learning_rate": 2.249e-05, "elapsed_time_per_iteration": 4.84624958, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 1s", "remaining_time": "4h 51m 19s", "loss_scale": 1.0, "consumed_samples": 2337280, "global_step/max_steps": "9130/12700"}
{"lm loss": 2.04505253, "grad_norm": 0.35225499, "learning_rate": 2.248e-05, "elapsed_time_per_iteration": 4.99698353, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 6s", "remaining_time": "4h 51m 14s", "loss_scale": 1.0, "consumed_samples": 2337536, "global_step/max_steps": "9131/12700"}
{"lm loss": 2.07108665, "grad_norm": 0.34887859, "learning_rate": 2.247e-05, "elapsed_time_per_iteration": 5.00579762, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 11s", "remaining_time": "4h 51m 9s", "loss_scale": 1.0, "consumed_samples": 2337792, "global_step/max_steps": "9132/12700"}
{"lm loss": 2.04193568, "grad_norm": 0.36163473, "learning_rate": 2.246e-05, "elapsed_time_per_iteration": 4.9481864, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 16s", "remaining_time": "4h 51m 4s", "loss_scale": 1.0, "consumed_samples": 2338048, "global_step/max_steps": "9133/12700"}
{"lm loss": 2.05049777, "grad_norm": 0.33290708, "learning_rate": 2.245e-05, "elapsed_time_per_iteration": 4.90421295, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 21s", "remaining_time": "4h 50m 59s", "loss_scale": 1.0, "consumed_samples": 2338304, "global_step/max_steps": "9134/12700"}
{"lm loss": 2.08055949, "grad_norm": 0.3317169, "learning_rate": 2.244e-05, "elapsed_time_per_iteration": 4.84235597, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 26s", "remaining_time": "4h 50m 54s", "loss_scale": 1.0, "consumed_samples": 2338560, "global_step/max_steps": "9135/12700"}
{"lm loss": 2.07287621, "grad_norm": 0.35226125, "learning_rate": 2.243e-05, "elapsed_time_per_iteration": 4.89016199, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 31s", "remaining_time": "4h 50m 49s", "loss_scale": 1.0, "consumed_samples": 2338816, "global_step/max_steps": "9136/12700"}
{"lm loss": 2.08517146, "grad_norm": 0.34002277, "learning_rate": 2.242e-05, "elapsed_time_per_iteration": 4.88079429, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 36s", "remaining_time": "4h 50m 44s", "loss_scale": 1.0, "consumed_samples": 2339072, "global_step/max_steps": "9137/12700"}
{"lm loss": 2.04999352, "grad_norm": 0.34259853, "learning_rate": 2.241e-05, "elapsed_time_per_iteration": 4.83770442, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 40s", "remaining_time": "4h 50m 40s", "loss_scale": 1.0, "consumed_samples": 2339328, "global_step/max_steps": "9138/12700"}
{"lm loss": 2.05244398, "grad_norm": 0.34042904, "learning_rate": 2.24e-05, "elapsed_time_per_iteration": 4.96376443, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 45s", "remaining_time": "4h 50m 35s", "loss_scale": 1.0, "consumed_samples": 2339584, "global_step/max_steps": "9139/12700"}
{"lm loss": 2.06336236, "grad_norm": 0.32158038, "learning_rate": 2.239e-05, "elapsed_time_per_iteration": 4.81330633, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 50s", "remaining_time": "4h 50m 30s", "loss_scale": 1.0, "consumed_samples": 2339840, "global_step/max_steps": "9140/12700"}
{"lm loss": 2.04319906, "grad_norm": 0.35520285, "learning_rate": 2.238e-05, "elapsed_time_per_iteration": 4.81173897, "memory(GiB)": 28.98, "elapsed_time": "12h 25m 55s", "remaining_time": "4h 50m 25s", "loss_scale": 1.0, "consumed_samples": 2340096, "global_step/max_steps": "9141/12700"}
{"lm loss": 2.05955458, "grad_norm": 0.33962134, "learning_rate": 2.237e-05, "elapsed_time_per_iteration": 4.88998675, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 0s", "remaining_time": "4h 50m 20s", "loss_scale": 1.0, "consumed_samples": 2340352, "global_step/max_steps": "9142/12700"}
{"lm loss": 2.06003094, "grad_norm": 0.34171915, "learning_rate": 2.236e-05, "elapsed_time_per_iteration": 4.82537389, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 5s", "remaining_time": "4h 50m 15s", "loss_scale": 1.0, "consumed_samples": 2340608, "global_step/max_steps": "9143/12700"}
{"lm loss": 2.04545593, "grad_norm": 0.34576884, "learning_rate": 2.235e-05, "elapsed_time_per_iteration": 4.85444045, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 10s", "remaining_time": "4h 50m 10s", "loss_scale": 1.0, "consumed_samples": 2340864, "global_step/max_steps": "9144/12700"}
{"lm loss": 2.0948348, "grad_norm": 0.36502132, "learning_rate": 2.234e-05, "elapsed_time_per_iteration": 4.8727746, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 15s", "remaining_time": "4h 50m 5s", "loss_scale": 1.0, "consumed_samples": 2341120, "global_step/max_steps": "9145/12700"}
{"lm loss": 2.07733154, "grad_norm": 0.3603929, "learning_rate": 2.233e-05, "elapsed_time_per_iteration": 4.81298375, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 19s", "remaining_time": "4h 50m 0s", "loss_scale": 1.0, "consumed_samples": 2341376, "global_step/max_steps": "9146/12700"}
{"lm loss": 2.08123398, "grad_norm": 0.33932069, "learning_rate": 2.232e-05, "elapsed_time_per_iteration": 4.89595628, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 24s", "remaining_time": "4h 49m 55s", "loss_scale": 1.0, "consumed_samples": 2341632, "global_step/max_steps": "9147/12700"}
{"lm loss": 2.05465913, "grad_norm": 0.32954571, "learning_rate": 2.231e-05, "elapsed_time_per_iteration": 4.80968976, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 29s", "remaining_time": "4h 49m 50s", "loss_scale": 1.0, "consumed_samples": 2341888, "global_step/max_steps": "9148/12700"}
{"lm loss": 2.09824109, "grad_norm": 0.34045371, "learning_rate": 2.23e-05, "elapsed_time_per_iteration": 4.81228518, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 34s", "remaining_time": "4h 49m 46s", "loss_scale": 1.0, "consumed_samples": 2342144, "global_step/max_steps": "9149/12700"}
{"lm loss": 2.09409785, "grad_norm": 0.34940657, "learning_rate": 2.229e-05, "elapsed_time_per_iteration": 4.85584068, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 39s", "remaining_time": "4h 49m 41s", "loss_scale": 1.0, "consumed_samples": 2342400, "global_step/max_steps": "9150/12700"}
{"lm loss": 2.05565882, "grad_norm": 0.33758569, "learning_rate": 2.228e-05, "elapsed_time_per_iteration": 4.99042702, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 44s", "remaining_time": "4h 49m 36s", "loss_scale": 1.0, "consumed_samples": 2342656, "global_step/max_steps": "9151/12700"}
{"lm loss": 2.06223416, "grad_norm": 0.35906035, "learning_rate": 2.227e-05, "elapsed_time_per_iteration": 4.95042682, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 49s", "remaining_time": "4h 49m 31s", "loss_scale": 1.0, "consumed_samples": 2342912, "global_step/max_steps": "9152/12700"}
{"lm loss": 2.05959439, "grad_norm": 0.36089426, "learning_rate": 2.226e-05, "elapsed_time_per_iteration": 5.00901246, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 54s", "remaining_time": "4h 49m 26s", "loss_scale": 1.0, "consumed_samples": 2343168, "global_step/max_steps": "9153/12700"}
{"lm loss": 2.03968406, "grad_norm": 0.3315115, "learning_rate": 2.225e-05, "elapsed_time_per_iteration": 4.92293572, "memory(GiB)": 28.98, "elapsed_time": "12h 26m 59s", "remaining_time": "4h 49m 21s", "loss_scale": 1.0, "consumed_samples": 2343424, "global_step/max_steps": "9154/12700"}
{"lm loss": 2.03488255, "grad_norm": 0.35025093, "learning_rate": 2.224e-05, "elapsed_time_per_iteration": 4.84197688, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 3s", "remaining_time": "4h 49m 16s", "loss_scale": 1.0, "consumed_samples": 2343680, "global_step/max_steps": "9155/12700"}
{"lm loss": 2.04603577, "grad_norm": 0.33486146, "learning_rate": 2.223e-05, "elapsed_time_per_iteration": 4.90276551, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 8s", "remaining_time": "4h 49m 11s", "loss_scale": 1.0, "consumed_samples": 2343936, "global_step/max_steps": "9156/12700"}
{"lm loss": 2.03262258, "grad_norm": 0.35463345, "learning_rate": 2.222e-05, "elapsed_time_per_iteration": 4.90217137, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 13s", "remaining_time": "4h 49m 6s", "loss_scale": 1.0, "consumed_samples": 2344192, "global_step/max_steps": "9157/12700"}
{"lm loss": 2.02334809, "grad_norm": 0.34115314, "learning_rate": 2.221e-05, "elapsed_time_per_iteration": 4.89343929, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 18s", "remaining_time": "4h 49m 2s", "loss_scale": 1.0, "consumed_samples": 2344448, "global_step/max_steps": "9158/12700"}
{"lm loss": 2.04499936, "grad_norm": 0.33285236, "learning_rate": 2.22e-05, "elapsed_time_per_iteration": 4.84529066, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 23s", "remaining_time": "4h 48m 57s", "loss_scale": 1.0, "consumed_samples": 2344704, "global_step/max_steps": "9159/12700"}
{"lm loss": 2.09638238, "grad_norm": 0.36276609, "learning_rate": 2.219e-05, "elapsed_time_per_iteration": 4.98538351, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 28s", "remaining_time": "4h 48m 52s", "loss_scale": 1.0, "consumed_samples": 2344960, "global_step/max_steps": "9160/12700"}
{"lm loss": 2.03262615, "grad_norm": 0.36363673, "learning_rate": 2.218e-05, "elapsed_time_per_iteration": 4.90219092, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 33s", "remaining_time": "4h 48m 47s", "loss_scale": 1.0, "consumed_samples": 2345216, "global_step/max_steps": "9161/12700"}
{"lm loss": 2.08488321, "grad_norm": 0.35406154, "learning_rate": 2.217e-05, "elapsed_time_per_iteration": 4.95306349, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 38s", "remaining_time": "4h 48m 42s", "loss_scale": 1.0, "consumed_samples": 2345472, "global_step/max_steps": "9162/12700"}
{"lm loss": 2.05017138, "grad_norm": 0.34485438, "learning_rate": 2.216e-05, "elapsed_time_per_iteration": 5.07611704, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 43s", "remaining_time": "4h 48m 37s", "loss_scale": 1.0, "consumed_samples": 2345728, "global_step/max_steps": "9163/12700"}
{"lm loss": 2.01958776, "grad_norm": 0.33076918, "learning_rate": 2.215e-05, "elapsed_time_per_iteration": 4.88830471, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 48s", "remaining_time": "4h 48m 32s", "loss_scale": 1.0, "consumed_samples": 2345984, "global_step/max_steps": "9164/12700"}
{"lm loss": 2.0984509, "grad_norm": 0.39004219, "learning_rate": 2.214e-05, "elapsed_time_per_iteration": 4.87822413, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 53s", "remaining_time": "4h 48m 27s", "loss_scale": 1.0, "consumed_samples": 2346240, "global_step/max_steps": "9165/12700"}
{"lm loss": 2.04112387, "grad_norm": 0.34509698, "learning_rate": 2.213e-05, "elapsed_time_per_iteration": 4.89575601, "memory(GiB)": 28.98, "elapsed_time": "12h 27m 58s", "remaining_time": "4h 48m 22s", "loss_scale": 1.0, "consumed_samples": 2346496, "global_step/max_steps": "9166/12700"}
{"lm loss": 2.07766199, "grad_norm": 0.33215967, "learning_rate": 2.212e-05, "elapsed_time_per_iteration": 4.84357882, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 2s", "remaining_time": "4h 48m 18s", "loss_scale": 1.0, "consumed_samples": 2346752, "global_step/max_steps": "9167/12700"}
{"lm loss": 2.03869629, "grad_norm": 0.35031521, "learning_rate": 2.211e-05, "elapsed_time_per_iteration": 4.82127643, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 7s", "remaining_time": "4h 48m 13s", "loss_scale": 1.0, "consumed_samples": 2347008, "global_step/max_steps": "9168/12700"}
{"lm loss": 2.0814724, "grad_norm": 0.35257381, "learning_rate": 2.21e-05, "elapsed_time_per_iteration": 4.91365218, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 12s", "remaining_time": "4h 48m 8s", "loss_scale": 1.0, "consumed_samples": 2347264, "global_step/max_steps": "9169/12700"}
{"lm loss": 2.04129481, "grad_norm": 0.35285366, "learning_rate": 2.209e-05, "elapsed_time_per_iteration": 4.80703282, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 17s", "remaining_time": "4h 48m 3s", "loss_scale": 1.0, "consumed_samples": 2347520, "global_step/max_steps": "9170/12700"}
{"lm loss": 2.05984998, "grad_norm": 0.34171736, "learning_rate": 2.208e-05, "elapsed_time_per_iteration": 4.92752647, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 22s", "remaining_time": "4h 47m 58s", "loss_scale": 1.0, "consumed_samples": 2347776, "global_step/max_steps": "9171/12700"}
{"lm loss": 2.0492208, "grad_norm": 0.33746782, "learning_rate": 2.207e-05, "elapsed_time_per_iteration": 4.92042518, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 27s", "remaining_time": "4h 47m 53s", "loss_scale": 1.0, "consumed_samples": 2348032, "global_step/max_steps": "9172/12700"}
{"lm loss": 2.07508731, "grad_norm": 0.34193665, "learning_rate": 2.206e-05, "elapsed_time_per_iteration": 4.98462081, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 32s", "remaining_time": "4h 47m 48s", "loss_scale": 1.0, "consumed_samples": 2348288, "global_step/max_steps": "9173/12700"}
{"lm loss": 2.06967068, "grad_norm": 0.3481594, "learning_rate": 2.205e-05, "elapsed_time_per_iteration": 4.9169538, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 37s", "remaining_time": "4h 47m 43s", "loss_scale": 1.0, "consumed_samples": 2348544, "global_step/max_steps": "9174/12700"}
{"lm loss": 2.06685853, "grad_norm": 0.32260999, "learning_rate": 2.204e-05, "elapsed_time_per_iteration": 4.79696727, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 41s", "remaining_time": "4h 47m 38s", "loss_scale": 1.0, "consumed_samples": 2348800, "global_step/max_steps": "9175/12700"}
{"lm loss": 2.05009842, "grad_norm": 0.34090313, "learning_rate": 2.203e-05, "elapsed_time_per_iteration": 4.95244908, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 46s", "remaining_time": "4h 47m 33s", "loss_scale": 1.0, "consumed_samples": 2349056, "global_step/max_steps": "9176/12700"}
{"lm loss": 2.07710242, "grad_norm": 0.32733688, "learning_rate": 2.202e-05, "elapsed_time_per_iteration": 4.89338803, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 51s", "remaining_time": "4h 47m 29s", "loss_scale": 1.0, "consumed_samples": 2349312, "global_step/max_steps": "9177/12700"}
{"lm loss": 2.06807113, "grad_norm": 0.341528, "learning_rate": 2.201e-05, "elapsed_time_per_iteration": 4.94541693, "memory(GiB)": 28.98, "elapsed_time": "12h 28m 56s", "remaining_time": "4h 47m 24s", "loss_scale": 1.0, "consumed_samples": 2349568, "global_step/max_steps": "9178/12700"}
{"lm loss": 2.11176658, "grad_norm": 0.34413889, "learning_rate": 2.2e-05, "elapsed_time_per_iteration": 4.86214685, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 1s", "remaining_time": "4h 47m 19s", "loss_scale": 1.0, "consumed_samples": 2349824, "global_step/max_steps": "9179/12700"}
{"lm loss": 2.038661, "grad_norm": 0.33770102, "learning_rate": 2.199e-05, "elapsed_time_per_iteration": 4.99345684, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 6s", "remaining_time": "4h 47m 14s", "loss_scale": 1.0, "consumed_samples": 2350080, "global_step/max_steps": "9180/12700"}
{"lm loss": 2.06298399, "grad_norm": 0.33576584, "learning_rate": 2.198e-05, "elapsed_time_per_iteration": 4.88366008, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 11s", "remaining_time": "4h 47m 9s", "loss_scale": 1.0, "consumed_samples": 2350336, "global_step/max_steps": "9181/12700"}
{"lm loss": 2.06795931, "grad_norm": 0.39085689, "learning_rate": 2.197e-05, "elapsed_time_per_iteration": 4.85070682, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 16s", "remaining_time": "4h 47m 4s", "loss_scale": 1.0, "consumed_samples": 2350592, "global_step/max_steps": "9182/12700"}
{"lm loss": 2.06721139, "grad_norm": 0.35243693, "learning_rate": 2.196e-05, "elapsed_time_per_iteration": 4.96287465, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 21s", "remaining_time": "4h 46m 59s", "loss_scale": 1.0, "consumed_samples": 2350848, "global_step/max_steps": "9183/12700"}
{"lm loss": 2.03999305, "grad_norm": 0.31514633, "learning_rate": 2.195e-05, "elapsed_time_per_iteration": 4.82427621, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 26s", "remaining_time": "4h 46m 54s", "loss_scale": 1.0, "consumed_samples": 2351104, "global_step/max_steps": "9184/12700"}
{"lm loss": 2.07070875, "grad_norm": 0.34136736, "learning_rate": 2.194e-05, "elapsed_time_per_iteration": 4.86786294, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 31s", "remaining_time": "4h 46m 49s", "loss_scale": 1.0, "consumed_samples": 2351360, "global_step/max_steps": "9185/12700"}
{"lm loss": 2.06932521, "grad_norm": 0.34468892, "learning_rate": 2.193e-05, "elapsed_time_per_iteration": 4.80268216, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 35s", "remaining_time": "4h 46m 44s", "loss_scale": 1.0, "consumed_samples": 2351616, "global_step/max_steps": "9186/12700"}
{"lm loss": 2.0757575, "grad_norm": 0.33694726, "learning_rate": 2.192e-05, "elapsed_time_per_iteration": 4.87730908, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 40s", "remaining_time": "4h 46m 40s", "loss_scale": 1.0, "consumed_samples": 2351872, "global_step/max_steps": "9187/12700"}
{"lm loss": 2.06471872, "grad_norm": 0.32529646, "learning_rate": 2.191e-05, "elapsed_time_per_iteration": 4.94322896, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 45s", "remaining_time": "4h 46m 35s", "loss_scale": 1.0, "consumed_samples": 2352128, "global_step/max_steps": "9188/12700"}
{"lm loss": 2.06746387, "grad_norm": 0.3240816, "learning_rate": 2.19e-05, "elapsed_time_per_iteration": 4.91031814, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 50s", "remaining_time": "4h 46m 30s", "loss_scale": 1.0, "consumed_samples": 2352384, "global_step/max_steps": "9189/12700"}
{"lm loss": 2.05161667, "grad_norm": 0.3222174, "learning_rate": 2.189e-05, "elapsed_time_per_iteration": 4.83738232, "memory(GiB)": 28.98, "elapsed_time": "12h 29m 55s", "remaining_time": "4h 46m 25s", "loss_scale": 1.0, "consumed_samples": 2352640, "global_step/max_steps": "9190/12700"}
{"lm loss": 2.05101132, "grad_norm": 0.35526222, "learning_rate": 2.188e-05, "elapsed_time_per_iteration": 4.94834042, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 0s", "remaining_time": "4h 46m 20s", "loss_scale": 1.0, "consumed_samples": 2352896, "global_step/max_steps": "9191/12700"}
{"lm loss": 2.04288101, "grad_norm": 0.35455987, "learning_rate": 2.187e-05, "elapsed_time_per_iteration": 4.86553669, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 5s", "remaining_time": "4h 46m 15s", "loss_scale": 1.0, "consumed_samples": 2353152, "global_step/max_steps": "9192/12700"}
{"lm loss": 2.04367352, "grad_norm": 0.35415241, "learning_rate": 2.186e-05, "elapsed_time_per_iteration": 4.91020584, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 10s", "remaining_time": "4h 46m 10s", "loss_scale": 1.0, "consumed_samples": 2353408, "global_step/max_steps": "9193/12700"}
{"lm loss": 2.03063416, "grad_norm": 0.32114464, "learning_rate": 2.185e-05, "elapsed_time_per_iteration": 4.91649294, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 15s", "remaining_time": "4h 46m 5s", "loss_scale": 1.0, "consumed_samples": 2353664, "global_step/max_steps": "9194/12700"}
{"lm loss": 2.07293868, "grad_norm": 0.33649436, "learning_rate": 2.184e-05, "elapsed_time_per_iteration": 4.8398366, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 19s", "remaining_time": "4h 46m 0s", "loss_scale": 1.0, "consumed_samples": 2353920, "global_step/max_steps": "9195/12700"}
{"lm loss": 2.03429246, "grad_norm": 0.32522115, "learning_rate": 2.183e-05, "elapsed_time_per_iteration": 4.76796794, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 24s", "remaining_time": "4h 45m 55s", "loss_scale": 1.0, "consumed_samples": 2354176, "global_step/max_steps": "9196/12700"}
{"lm loss": 2.0788877, "grad_norm": 0.36592621, "learning_rate": 2.182e-05, "elapsed_time_per_iteration": 4.92520094, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 29s", "remaining_time": "4h 45m 51s", "loss_scale": 1.0, "consumed_samples": 2354432, "global_step/max_steps": "9197/12700"}
{"lm loss": 2.10886145, "grad_norm": 0.33845121, "learning_rate": 2.181e-05, "elapsed_time_per_iteration": 4.89395809, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 34s", "remaining_time": "4h 45m 46s", "loss_scale": 1.0, "consumed_samples": 2354688, "global_step/max_steps": "9198/12700"}
{"lm loss": 2.07239914, "grad_norm": 0.32828018, "learning_rate": 2.18e-05, "elapsed_time_per_iteration": 4.86423635, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 39s", "remaining_time": "4h 45m 41s", "loss_scale": 1.0, "consumed_samples": 2354944, "global_step/max_steps": "9199/12700"}
{"lm loss": 2.05663252, "grad_norm": 0.33511788, "learning_rate": 2.179e-05, "elapsed_time_per_iteration": 4.85489035, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 44s", "remaining_time": "4h 45m 36s", "loss_scale": 1.0, "consumed_samples": 2355200, "global_step/max_steps": "9200/12700"}
{"lm loss": 2.02730608, "grad_norm": 0.32902196, "learning_rate": 2.178e-05, "elapsed_time_per_iteration": 4.99829984, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 49s", "remaining_time": "4h 45m 31s", "loss_scale": 1.0, "consumed_samples": 2355456, "global_step/max_steps": "9201/12700"}
{"lm loss": 2.05232358, "grad_norm": 0.3439424, "learning_rate": 2.177e-05, "elapsed_time_per_iteration": 4.93531013, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 54s", "remaining_time": "4h 45m 26s", "loss_scale": 1.0, "consumed_samples": 2355712, "global_step/max_steps": "9202/12700"}
{"lm loss": 2.07010293, "grad_norm": 0.34096652, "learning_rate": 2.176e-05, "elapsed_time_per_iteration": 4.84964991, "memory(GiB)": 28.98, "elapsed_time": "12h 30m 58s", "remaining_time": "4h 45m 21s", "loss_scale": 1.0, "consumed_samples": 2355968, "global_step/max_steps": "9203/12700"}
{"lm loss": 2.04636931, "grad_norm": 0.32627517, "learning_rate": 2.175e-05, "elapsed_time_per_iteration": 4.89349198, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 3s", "remaining_time": "4h 45m 16s", "loss_scale": 1.0, "consumed_samples": 2356224, "global_step/max_steps": "9204/12700"}
{"lm loss": 2.04170632, "grad_norm": 0.35820502, "learning_rate": 2.174e-05, "elapsed_time_per_iteration": 4.9060216, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 8s", "remaining_time": "4h 45m 11s", "loss_scale": 1.0, "consumed_samples": 2356480, "global_step/max_steps": "9205/12700"}
{"lm loss": 2.05149078, "grad_norm": 0.32496491, "learning_rate": 2.173e-05, "elapsed_time_per_iteration": 4.94240975, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 13s", "remaining_time": "4h 45m 7s", "loss_scale": 1.0, "consumed_samples": 2356736, "global_step/max_steps": "9206/12700"}
{"lm loss": 2.04358983, "grad_norm": 0.34145942, "learning_rate": 2.172e-05, "elapsed_time_per_iteration": 4.85000539, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 18s", "remaining_time": "4h 45m 2s", "loss_scale": 1.0, "consumed_samples": 2356992, "global_step/max_steps": "9207/12700"}
{"lm loss": 2.09114408, "grad_norm": 0.33470869, "learning_rate": 2.171e-05, "elapsed_time_per_iteration": 4.86165309, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 23s", "remaining_time": "4h 44m 57s", "loss_scale": 1.0, "consumed_samples": 2357248, "global_step/max_steps": "9208/12700"}
{"lm loss": 2.04731274, "grad_norm": 0.33536607, "learning_rate": 2.17e-05, "elapsed_time_per_iteration": 4.85346818, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 28s", "remaining_time": "4h 44m 52s", "loss_scale": 1.0, "consumed_samples": 2357504, "global_step/max_steps": "9209/12700"}
{"lm loss": 2.03119183, "grad_norm": 0.34182066, "learning_rate": 2.169e-05, "elapsed_time_per_iteration": 4.8521862, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 33s", "remaining_time": "4h 44m 47s", "loss_scale": 1.0, "consumed_samples": 2357760, "global_step/max_steps": "9210/12700"}
{"lm loss": 2.05135274, "grad_norm": 0.35038057, "learning_rate": 2.168e-05, "elapsed_time_per_iteration": 4.92241883, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 38s", "remaining_time": "4h 44m 42s", "loss_scale": 1.0, "consumed_samples": 2358016, "global_step/max_steps": "9211/12700"}
{"lm loss": 2.03188825, "grad_norm": 0.32025525, "learning_rate": 2.167e-05, "elapsed_time_per_iteration": 4.82336307, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 42s", "remaining_time": "4h 44m 37s", "loss_scale": 1.0, "consumed_samples": 2358272, "global_step/max_steps": "9212/12700"}
{"lm loss": 2.06621647, "grad_norm": 0.34303775, "learning_rate": 2.166e-05, "elapsed_time_per_iteration": 4.80001712, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 47s", "remaining_time": "4h 44m 32s", "loss_scale": 1.0, "consumed_samples": 2358528, "global_step/max_steps": "9213/12700"}
{"lm loss": 2.03915548, "grad_norm": 0.33553076, "learning_rate": 2.165e-05, "elapsed_time_per_iteration": 4.89371705, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 52s", "remaining_time": "4h 44m 27s", "loss_scale": 1.0, "consumed_samples": 2358784, "global_step/max_steps": "9214/12700"}
{"lm loss": 2.07637906, "grad_norm": 0.34245479, "learning_rate": 2.164e-05, "elapsed_time_per_iteration": 4.96665311, "memory(GiB)": 28.98, "elapsed_time": "12h 31m 57s", "remaining_time": "4h 44m 22s", "loss_scale": 1.0, "consumed_samples": 2359040, "global_step/max_steps": "9215/12700"}
{"lm loss": 2.04624844, "grad_norm": 0.35399145, "learning_rate": 2.163e-05, "elapsed_time_per_iteration": 4.82443833, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 2s", "remaining_time": "4h 44m 17s", "loss_scale": 1.0, "consumed_samples": 2359296, "global_step/max_steps": "9216/12700"}
{"lm loss": 2.04547453, "grad_norm": 0.34362587, "learning_rate": 2.162e-05, "elapsed_time_per_iteration": 4.83692908, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 7s", "remaining_time": "4h 44m 13s", "loss_scale": 1.0, "consumed_samples": 2359552, "global_step/max_steps": "9217/12700"}
{"lm loss": 2.08652949, "grad_norm": 0.33449832, "learning_rate": 2.161e-05, "elapsed_time_per_iteration": 4.8885839, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 12s", "remaining_time": "4h 44m 8s", "loss_scale": 1.0, "consumed_samples": 2359808, "global_step/max_steps": "9218/12700"}
{"lm loss": 2.03615355, "grad_norm": 0.33825034, "learning_rate": 2.16e-05, "elapsed_time_per_iteration": 4.93884897, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 17s", "remaining_time": "4h 44m 3s", "loss_scale": 1.0, "consumed_samples": 2360064, "global_step/max_steps": "9219/12700"}
{"lm loss": 2.06467891, "grad_norm": 0.3288731, "learning_rate": 2.159e-05, "elapsed_time_per_iteration": 4.89479232, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 21s", "remaining_time": "4h 43m 58s", "loss_scale": 1.0, "consumed_samples": 2360320, "global_step/max_steps": "9220/12700"}
{"lm loss": 2.0616231, "grad_norm": 0.44389477, "learning_rate": 2.158e-05, "elapsed_time_per_iteration": 4.88528228, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 26s", "remaining_time": "4h 43m 53s", "loss_scale": 1.0, "consumed_samples": 2360576, "global_step/max_steps": "9221/12700"}
{"lm loss": 2.10670686, "grad_norm": 0.34307271, "learning_rate": 2.157e-05, "elapsed_time_per_iteration": 4.97062778, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 31s", "remaining_time": "4h 43m 48s", "loss_scale": 1.0, "consumed_samples": 2360832, "global_step/max_steps": "9222/12700"}
{"lm loss": 2.05387378, "grad_norm": 0.34180257, "learning_rate": 2.156e-05, "elapsed_time_per_iteration": 4.95228529, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 36s", "remaining_time": "4h 43m 43s", "loss_scale": 1.0, "consumed_samples": 2361088, "global_step/max_steps": "9223/12700"}
{"lm loss": 2.04710841, "grad_norm": 0.35311851, "learning_rate": 2.155e-05, "elapsed_time_per_iteration": 4.94662356, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 41s", "remaining_time": "4h 43m 38s", "loss_scale": 1.0, "consumed_samples": 2361344, "global_step/max_steps": "9224/12700"}
{"lm loss": 2.0374701, "grad_norm": 0.35178548, "learning_rate": 2.154e-05, "elapsed_time_per_iteration": 4.85933733, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 46s", "remaining_time": "4h 43m 33s", "loss_scale": 1.0, "consumed_samples": 2361600, "global_step/max_steps": "9225/12700"}
{"lm loss": 2.01736784, "grad_norm": 0.35359088, "learning_rate": 2.153e-05, "elapsed_time_per_iteration": 5.05851912, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 51s", "remaining_time": "4h 43m 29s", "loss_scale": 1.0, "consumed_samples": 2361856, "global_step/max_steps": "9226/12700"}
{"lm loss": 2.01806378, "grad_norm": 0.33908746, "learning_rate": 2.152e-05, "elapsed_time_per_iteration": 5.01139045, "memory(GiB)": 28.98, "elapsed_time": "12h 32m 56s", "remaining_time": "4h 43m 24s", "loss_scale": 1.0, "consumed_samples": 2362112, "global_step/max_steps": "9227/12700"}
{"lm loss": 2.08502436, "grad_norm": 0.37493208, "learning_rate": 2.151e-05, "elapsed_time_per_iteration": 4.88421488, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 1s", "remaining_time": "4h 43m 19s", "loss_scale": 1.0, "consumed_samples": 2362368, "global_step/max_steps": "9228/12700"}
{"lm loss": 2.05761504, "grad_norm": 0.32692805, "learning_rate": 2.15e-05, "elapsed_time_per_iteration": 4.88557053, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 6s", "remaining_time": "4h 43m 14s", "loss_scale": 1.0, "consumed_samples": 2362624, "global_step/max_steps": "9229/12700"}
{"lm loss": 2.03745151, "grad_norm": 0.35245886, "learning_rate": 2.149e-05, "elapsed_time_per_iteration": 4.95070148, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 11s", "remaining_time": "4h 43m 9s", "loss_scale": 1.0, "consumed_samples": 2362880, "global_step/max_steps": "9230/12700"}
{"lm loss": 2.03693342, "grad_norm": 0.33460936, "learning_rate": 2.148e-05, "elapsed_time_per_iteration": 5.05528522, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 16s", "remaining_time": "4h 43m 4s", "loss_scale": 1.0, "consumed_samples": 2363136, "global_step/max_steps": "9231/12700"}
{"lm loss": 2.09821987, "grad_norm": 0.34444046, "learning_rate": 2.147e-05, "elapsed_time_per_iteration": 4.95099759, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 21s", "remaining_time": "4h 42m 59s", "loss_scale": 1.0, "consumed_samples": 2363392, "global_step/max_steps": "9232/12700"}
{"lm loss": 2.04769373, "grad_norm": 0.37222576, "learning_rate": 2.146e-05, "elapsed_time_per_iteration": 4.86887407, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 26s", "remaining_time": "4h 42m 54s", "loss_scale": 1.0, "consumed_samples": 2363648, "global_step/max_steps": "9233/12700"}
{"lm loss": 2.03913164, "grad_norm": 0.34670275, "learning_rate": 2.145e-05, "elapsed_time_per_iteration": 4.84886861, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 31s", "remaining_time": "4h 42m 50s", "loss_scale": 1.0, "consumed_samples": 2363904, "global_step/max_steps": "9234/12700"}
{"lm loss": 2.11447525, "grad_norm": 0.37416187, "learning_rate": 2.144e-05, "elapsed_time_per_iteration": 4.81707859, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 35s", "remaining_time": "4h 42m 45s", "loss_scale": 1.0, "consumed_samples": 2364160, "global_step/max_steps": "9235/12700"}
{"lm loss": 2.09612226, "grad_norm": 0.34893352, "learning_rate": 2.143e-05, "elapsed_time_per_iteration": 4.78903794, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 40s", "remaining_time": "4h 42m 40s", "loss_scale": 1.0, "consumed_samples": 2364416, "global_step/max_steps": "9236/12700"}
{"lm loss": 2.07358146, "grad_norm": 0.35788971, "learning_rate": 2.142e-05, "elapsed_time_per_iteration": 4.88686585, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 45s", "remaining_time": "4h 42m 35s", "loss_scale": 1.0, "consumed_samples": 2364672, "global_step/max_steps": "9237/12700"}
{"lm loss": 2.05588889, "grad_norm": 0.31875366, "learning_rate": 2.141e-05, "elapsed_time_per_iteration": 4.86070418, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 50s", "remaining_time": "4h 42m 30s", "loss_scale": 1.0, "consumed_samples": 2364928, "global_step/max_steps": "9238/12700"}
{"lm loss": 2.06365776, "grad_norm": 0.33605924, "learning_rate": 2.14e-05, "elapsed_time_per_iteration": 4.95169091, "memory(GiB)": 28.98, "elapsed_time": "12h 33m 55s", "remaining_time": "4h 42m 25s", "loss_scale": 1.0, "consumed_samples": 2365184, "global_step/max_steps": "9239/12700"}
{"lm loss": 2.03334594, "grad_norm": 0.33309489, "learning_rate": 2.139e-05, "elapsed_time_per_iteration": 4.85191083, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 0s", "remaining_time": "4h 42m 20s", "loss_scale": 1.0, "consumed_samples": 2365440, "global_step/max_steps": "9240/12700"}
{"lm loss": 2.05655026, "grad_norm": 0.34388819, "learning_rate": 2.138e-05, "elapsed_time_per_iteration": 4.80682278, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 4s", "remaining_time": "4h 42m 15s", "loss_scale": 1.0, "consumed_samples": 2365696, "global_step/max_steps": "9241/12700"}
{"lm loss": 2.03019857, "grad_norm": 0.35288933, "learning_rate": 2.137e-05, "elapsed_time_per_iteration": 4.88846874, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 9s", "remaining_time": "4h 42m 10s", "loss_scale": 1.0, "consumed_samples": 2365952, "global_step/max_steps": "9242/12700"}
{"lm loss": 2.06197786, "grad_norm": 0.33653519, "learning_rate": 2.136e-05, "elapsed_time_per_iteration": 4.89151716, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 14s", "remaining_time": "4h 42m 5s", "loss_scale": 1.0, "consumed_samples": 2366208, "global_step/max_steps": "9243/12700"}
{"lm loss": 2.07104564, "grad_norm": 0.3616311, "learning_rate": 2.135e-05, "elapsed_time_per_iteration": 4.88590336, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 19s", "remaining_time": "4h 42m 0s", "loss_scale": 1.0, "consumed_samples": 2366464, "global_step/max_steps": "9244/12700"}
{"lm loss": 2.02340317, "grad_norm": 0.33894449, "learning_rate": 2.134e-05, "elapsed_time_per_iteration": 5.00879765, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 24s", "remaining_time": "4h 41m 56s", "loss_scale": 1.0, "consumed_samples": 2366720, "global_step/max_steps": "9245/12700"}
{"lm loss": 2.07176328, "grad_norm": 0.33898968, "learning_rate": 2.133e-05, "elapsed_time_per_iteration": 4.89012861, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 29s", "remaining_time": "4h 41m 51s", "loss_scale": 1.0, "consumed_samples": 2366976, "global_step/max_steps": "9246/12700"}
{"lm loss": 2.04007435, "grad_norm": 0.3537294, "learning_rate": 2.132e-05, "elapsed_time_per_iteration": 4.90080214, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 34s", "remaining_time": "4h 41m 46s", "loss_scale": 1.0, "consumed_samples": 2367232, "global_step/max_steps": "9247/12700"}
{"lm loss": 2.04762912, "grad_norm": 0.32127127, "learning_rate": 2.131e-05, "elapsed_time_per_iteration": 4.91988659, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 39s", "remaining_time": "4h 41m 41s", "loss_scale": 1.0, "consumed_samples": 2367488, "global_step/max_steps": "9248/12700"}
{"lm loss": 2.05086493, "grad_norm": 0.34255385, "learning_rate": 2.13e-05, "elapsed_time_per_iteration": 4.87932515, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 44s", "remaining_time": "4h 41m 36s", "loss_scale": 1.0, "consumed_samples": 2367744, "global_step/max_steps": "9249/12700"}
{"lm loss": 2.05403066, "grad_norm": 0.33245233, "learning_rate": 2.129e-05, "elapsed_time_per_iteration": 4.95934963, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 49s", "remaining_time": "4h 41m 31s", "loss_scale": 1.0, "consumed_samples": 2368000, "global_step/max_steps": "9250/12700"}
{"lm loss": 2.06757164, "grad_norm": 0.31685027, "learning_rate": 2.128e-05, "elapsed_time_per_iteration": 4.88939023, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 54s", "remaining_time": "4h 41m 26s", "loss_scale": 1.0, "consumed_samples": 2368256, "global_step/max_steps": "9251/12700"}
{"lm loss": 2.0823164, "grad_norm": 0.36747444, "learning_rate": 2.127e-05, "elapsed_time_per_iteration": 4.87518573, "memory(GiB)": 28.98, "elapsed_time": "12h 34m 58s", "remaining_time": "4h 41m 21s", "loss_scale": 1.0, "consumed_samples": 2368512, "global_step/max_steps": "9252/12700"}
{"lm loss": 2.05172515, "grad_norm": 0.33013913, "learning_rate": 2.126e-05, "elapsed_time_per_iteration": 4.86018491, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 3s", "remaining_time": "4h 41m 16s", "loss_scale": 1.0, "consumed_samples": 2368768, "global_step/max_steps": "9253/12700"}
{"lm loss": 2.06369424, "grad_norm": 0.32484078, "learning_rate": 2.125e-05, "elapsed_time_per_iteration": 4.94074631, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 8s", "remaining_time": "4h 41m 12s", "loss_scale": 1.0, "consumed_samples": 2369024, "global_step/max_steps": "9254/12700"}
{"lm loss": 2.05884385, "grad_norm": 0.34565321, "learning_rate": 2.124e-05, "elapsed_time_per_iteration": 4.85584998, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 13s", "remaining_time": "4h 41m 7s", "loss_scale": 1.0, "consumed_samples": 2369280, "global_step/max_steps": "9255/12700"}
{"lm loss": 2.067981, "grad_norm": 0.33468425, "learning_rate": 2.123e-05, "elapsed_time_per_iteration": 4.85937071, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 18s", "remaining_time": "4h 41m 2s", "loss_scale": 1.0, "consumed_samples": 2369536, "global_step/max_steps": "9256/12700"}
{"lm loss": 2.0550046, "grad_norm": 0.33962879, "learning_rate": 2.122e-05, "elapsed_time_per_iteration": 4.84761238, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 23s", "remaining_time": "4h 40m 57s", "loss_scale": 1.0, "consumed_samples": 2369792, "global_step/max_steps": "9257/12700"}
{"lm loss": 2.07158518, "grad_norm": 0.33363134, "learning_rate": 2.121e-05, "elapsed_time_per_iteration": 4.84881043, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 28s", "remaining_time": "4h 40m 52s", "loss_scale": 1.0, "consumed_samples": 2370048, "global_step/max_steps": "9258/12700"}
{"lm loss": 2.04584265, "grad_norm": 0.35124552, "learning_rate": 2.12e-05, "elapsed_time_per_iteration": 4.85599113, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 33s", "remaining_time": "4h 40m 47s", "loss_scale": 1.0, "consumed_samples": 2370304, "global_step/max_steps": "9259/12700"}
{"lm loss": 2.08396149, "grad_norm": 0.33402184, "learning_rate": 2.119e-05, "elapsed_time_per_iteration": 5.08415818, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 38s", "remaining_time": "4h 40m 42s", "loss_scale": 1.0, "consumed_samples": 2370560, "global_step/max_steps": "9260/12700"}
{"lm loss": 2.01410747, "grad_norm": 0.3323696, "learning_rate": 2.118e-05, "elapsed_time_per_iteration": 4.89810777, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 43s", "remaining_time": "4h 40m 37s", "loss_scale": 1.0, "consumed_samples": 2370816, "global_step/max_steps": "9261/12700"}
{"lm loss": 2.05813074, "grad_norm": 0.33800966, "learning_rate": 2.117e-05, "elapsed_time_per_iteration": 4.84409761, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 47s", "remaining_time": "4h 40m 32s", "loss_scale": 1.0, "consumed_samples": 2371072, "global_step/max_steps": "9262/12700"}
{"lm loss": 2.04372835, "grad_norm": 0.31778666, "learning_rate": 2.116e-05, "elapsed_time_per_iteration": 4.92198634, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 52s", "remaining_time": "4h 40m 27s", "loss_scale": 1.0, "consumed_samples": 2371328, "global_step/max_steps": "9263/12700"}
{"lm loss": 2.02255964, "grad_norm": 0.34064969, "learning_rate": 2.115e-05, "elapsed_time_per_iteration": 4.85282373, "memory(GiB)": 28.98, "elapsed_time": "12h 35m 57s", "remaining_time": "4h 40m 23s", "loss_scale": 1.0, "consumed_samples": 2371584, "global_step/max_steps": "9264/12700"}
{"lm loss": 2.04964781, "grad_norm": 0.34708181, "learning_rate": 2.114e-05, "elapsed_time_per_iteration": 4.88889503, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 2s", "remaining_time": "4h 40m 18s", "loss_scale": 1.0, "consumed_samples": 2371840, "global_step/max_steps": "9265/12700"}
{"lm loss": 2.04946947, "grad_norm": 0.33964103, "learning_rate": 2.113e-05, "elapsed_time_per_iteration": 4.84405279, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 7s", "remaining_time": "4h 40m 13s", "loss_scale": 1.0, "consumed_samples": 2372096, "global_step/max_steps": "9266/12700"}
{"lm loss": 2.05889511, "grad_norm": 0.34349084, "learning_rate": 2.112e-05, "elapsed_time_per_iteration": 4.87174201, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 12s", "remaining_time": "4h 40m 8s", "loss_scale": 1.0, "consumed_samples": 2372352, "global_step/max_steps": "9267/12700"}
{"lm loss": 2.05417514, "grad_norm": 0.32826358, "learning_rate": 2.111e-05, "elapsed_time_per_iteration": 4.97503352, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 17s", "remaining_time": "4h 40m 3s", "loss_scale": 1.0, "consumed_samples": 2372608, "global_step/max_steps": "9268/12700"}
{"lm loss": 2.01948476, "grad_norm": 0.33233696, "learning_rate": 2.11e-05, "elapsed_time_per_iteration": 4.89458299, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 22s", "remaining_time": "4h 39m 58s", "loss_scale": 1.0, "consumed_samples": 2372864, "global_step/max_steps": "9269/12700"}
{"lm loss": 2.05410671, "grad_norm": 0.34628165, "learning_rate": 2.109e-05, "elapsed_time_per_iteration": 4.90005708, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 27s", "remaining_time": "4h 39m 53s", "loss_scale": 1.0, "consumed_samples": 2373120, "global_step/max_steps": "9270/12700"}
{"lm loss": 2.04209137, "grad_norm": 0.32847878, "learning_rate": 2.108e-05, "elapsed_time_per_iteration": 5.01905608, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 32s", "remaining_time": "4h 39m 48s", "loss_scale": 1.0, "consumed_samples": 2373376, "global_step/max_steps": "9271/12700"}
{"lm loss": 2.0524869, "grad_norm": 0.3324562, "learning_rate": 2.107e-05, "elapsed_time_per_iteration": 4.83108258, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 36s", "remaining_time": "4h 39m 43s", "loss_scale": 1.0, "consumed_samples": 2373632, "global_step/max_steps": "9272/12700"}
{"lm loss": 2.04773402, "grad_norm": 0.34210563, "learning_rate": 2.106e-05, "elapsed_time_per_iteration": 4.96284389, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 41s", "remaining_time": "4h 39m 39s", "loss_scale": 1.0, "consumed_samples": 2373888, "global_step/max_steps": "9273/12700"}
{"lm loss": 2.0838263, "grad_norm": 0.32196534, "learning_rate": 2.105e-05, "elapsed_time_per_iteration": 4.96593475, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 46s", "remaining_time": "4h 39m 34s", "loss_scale": 1.0, "consumed_samples": 2374144, "global_step/max_steps": "9274/12700"}
{"lm loss": 2.08196378, "grad_norm": 0.32350054, "learning_rate": 2.104e-05, "elapsed_time_per_iteration": 4.85206652, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 51s", "remaining_time": "4h 39m 29s", "loss_scale": 1.0, "consumed_samples": 2374400, "global_step/max_steps": "9275/12700"}
{"lm loss": 2.04798079, "grad_norm": 0.3254222, "learning_rate": 2.103e-05, "elapsed_time_per_iteration": 4.88553715, "memory(GiB)": 28.98, "elapsed_time": "12h 36m 56s", "remaining_time": "4h 39m 24s", "loss_scale": 1.0, "consumed_samples": 2374656, "global_step/max_steps": "9276/12700"}
{"lm loss": 2.0622704, "grad_norm": 0.35346872, "learning_rate": 2.102e-05, "elapsed_time_per_iteration": 4.83051324, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 1s", "remaining_time": "4h 39m 19s", "loss_scale": 1.0, "consumed_samples": 2374912, "global_step/max_steps": "9277/12700"}
{"lm loss": 2.07828426, "grad_norm": 0.31763405, "learning_rate": 2.101e-05, "elapsed_time_per_iteration": 4.83753824, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 6s", "remaining_time": "4h 39m 14s", "loss_scale": 1.0, "consumed_samples": 2375168, "global_step/max_steps": "9278/12700"}
{"lm loss": 2.04395938, "grad_norm": 0.33726862, "learning_rate": 2.1e-05, "elapsed_time_per_iteration": 5.05643511, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 11s", "remaining_time": "4h 39m 9s", "loss_scale": 1.0, "consumed_samples": 2375424, "global_step/max_steps": "9279/12700"}
{"lm loss": 2.07978368, "grad_norm": 0.34200522, "learning_rate": 2.099e-05, "elapsed_time_per_iteration": 4.78472805, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 16s", "remaining_time": "4h 39m 4s", "loss_scale": 1.0, "consumed_samples": 2375680, "global_step/max_steps": "9280/12700"}
{"lm loss": 2.06814718, "grad_norm": 0.34690368, "learning_rate": 2.098e-05, "elapsed_time_per_iteration": 4.87849236, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 20s", "remaining_time": "4h 38m 59s", "loss_scale": 1.0, "consumed_samples": 2375936, "global_step/max_steps": "9281/12700"}
{"lm loss": 2.07069278, "grad_norm": 0.35424519, "learning_rate": 2.097e-05, "elapsed_time_per_iteration": 4.84645939, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 25s", "remaining_time": "4h 38m 54s", "loss_scale": 1.0, "consumed_samples": 2376192, "global_step/max_steps": "9282/12700"}
{"lm loss": 2.04593277, "grad_norm": 0.34298962, "learning_rate": 2.096e-05, "elapsed_time_per_iteration": 4.84490514, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 30s", "remaining_time": "4h 38m 50s", "loss_scale": 1.0, "consumed_samples": 2376448, "global_step/max_steps": "9283/12700"}
{"lm loss": 2.04923606, "grad_norm": 0.33984774, "learning_rate": 2.095e-05, "elapsed_time_per_iteration": 4.86161757, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 35s", "remaining_time": "4h 38m 45s", "loss_scale": 1.0, "consumed_samples": 2376704, "global_step/max_steps": "9284/12700"}
{"lm loss": 2.08449244, "grad_norm": 0.36645025, "learning_rate": 2.094e-05, "elapsed_time_per_iteration": 4.97852302, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 40s", "remaining_time": "4h 38m 40s", "loss_scale": 1.0, "consumed_samples": 2376960, "global_step/max_steps": "9285/12700"}
{"lm loss": 2.08098412, "grad_norm": 0.35075682, "learning_rate": 2.093e-05, "elapsed_time_per_iteration": 4.89428401, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 45s", "remaining_time": "4h 38m 35s", "loss_scale": 1.0, "consumed_samples": 2377216, "global_step/max_steps": "9286/12700"}
{"lm loss": 2.05556345, "grad_norm": 0.33336604, "learning_rate": 2.092e-05, "elapsed_time_per_iteration": 4.86205006, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 50s", "remaining_time": "4h 38m 30s", "loss_scale": 1.0, "consumed_samples": 2377472, "global_step/max_steps": "9287/12700"}
{"lm loss": 2.08749461, "grad_norm": 0.34131622, "learning_rate": 2.092e-05, "elapsed_time_per_iteration": 4.81458354, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 55s", "remaining_time": "4h 38m 25s", "loss_scale": 1.0, "consumed_samples": 2377728, "global_step/max_steps": "9288/12700"}
{"lm loss": 2.03561378, "grad_norm": 0.36492634, "learning_rate": 2.091e-05, "elapsed_time_per_iteration": 4.88409948, "memory(GiB)": 28.98, "elapsed_time": "12h 37m 59s", "remaining_time": "4h 38m 20s", "loss_scale": 1.0, "consumed_samples": 2377984, "global_step/max_steps": "9289/12700"}
{"lm loss": 2.06208611, "grad_norm": 0.33969104, "learning_rate": 2.09e-05, "elapsed_time_per_iteration": 4.90472007, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 4s", "remaining_time": "4h 38m 15s", "loss_scale": 1.0, "consumed_samples": 2378240, "global_step/max_steps": "9290/12700"}
{"lm loss": 2.03915524, "grad_norm": 0.3292439, "learning_rate": 2.089e-05, "elapsed_time_per_iteration": 4.93828893, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 9s", "remaining_time": "4h 38m 10s", "loss_scale": 1.0, "consumed_samples": 2378496, "global_step/max_steps": "9291/12700"}
{"lm loss": 2.04799819, "grad_norm": 0.35129416, "learning_rate": 2.088e-05, "elapsed_time_per_iteration": 4.8512404, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 14s", "remaining_time": "4h 38m 5s", "loss_scale": 1.0, "consumed_samples": 2378752, "global_step/max_steps": "9292/12700"}
{"lm loss": 2.0491178, "grad_norm": 0.33745438, "learning_rate": 2.087e-05, "elapsed_time_per_iteration": 4.91858172, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 19s", "remaining_time": "4h 38m 1s", "loss_scale": 1.0, "consumed_samples": 2379008, "global_step/max_steps": "9293/12700"}
{"lm loss": 2.07277155, "grad_norm": 0.33958691, "learning_rate": 2.086e-05, "elapsed_time_per_iteration": 4.84232903, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 24s", "remaining_time": "4h 37m 56s", "loss_scale": 1.0, "consumed_samples": 2379264, "global_step/max_steps": "9294/12700"}
{"lm loss": 2.06265116, "grad_norm": 0.36305353, "learning_rate": 2.085e-05, "elapsed_time_per_iteration": 4.89906764, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 29s", "remaining_time": "4h 37m 51s", "loss_scale": 1.0, "consumed_samples": 2379520, "global_step/max_steps": "9295/12700"}
{"lm loss": 2.06718493, "grad_norm": 0.34219235, "learning_rate": 2.084e-05, "elapsed_time_per_iteration": 4.8959837, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 34s", "remaining_time": "4h 37m 46s", "loss_scale": 1.0, "consumed_samples": 2379776, "global_step/max_steps": "9296/12700"}
{"lm loss": 2.06267881, "grad_norm": 0.34410936, "learning_rate": 2.083e-05, "elapsed_time_per_iteration": 4.90702581, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 39s", "remaining_time": "4h 37m 41s", "loss_scale": 1.0, "consumed_samples": 2380032, "global_step/max_steps": "9297/12700"}
{"lm loss": 2.06336737, "grad_norm": 0.3343775, "learning_rate": 2.082e-05, "elapsed_time_per_iteration": 4.92745543, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 44s", "remaining_time": "4h 37m 36s", "loss_scale": 1.0, "consumed_samples": 2380288, "global_step/max_steps": "9298/12700"}
{"lm loss": 2.05446672, "grad_norm": 0.33727926, "learning_rate": 2.081e-05, "elapsed_time_per_iteration": 4.98300219, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 48s", "remaining_time": "4h 37m 31s", "loss_scale": 1.0, "consumed_samples": 2380544, "global_step/max_steps": "9299/12700"}
{"lm loss": 2.07244229, "grad_norm": 0.36015111, "learning_rate": 2.08e-05, "elapsed_time_per_iteration": 4.96729159, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 53s", "remaining_time": "4h 37m 26s", "loss_scale": 1.0, "consumed_samples": 2380800, "global_step/max_steps": "9300/12700"}
{"lm loss": 2.05785441, "grad_norm": 0.32563138, "learning_rate": 2.079e-05, "elapsed_time_per_iteration": 5.49962711, "memory(GiB)": 28.98, "elapsed_time": "12h 38m 59s", "remaining_time": "4h 37m 22s", "loss_scale": 1.0, "consumed_samples": 2381056, "global_step/max_steps": "9301/12700"}
{"lm loss": 2.05346346, "grad_norm": 0.34133455, "learning_rate": 2.078e-05, "elapsed_time_per_iteration": 4.88373733, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 4s", "remaining_time": "4h 37m 17s", "loss_scale": 1.0, "consumed_samples": 2381312, "global_step/max_steps": "9302/12700"}
{"lm loss": 2.05187368, "grad_norm": 0.35745364, "learning_rate": 2.077e-05, "elapsed_time_per_iteration": 4.7839365, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 9s", "remaining_time": "4h 37m 12s", "loss_scale": 1.0, "consumed_samples": 2381568, "global_step/max_steps": "9303/12700"}
{"lm loss": 2.04834223, "grad_norm": 0.35524368, "learning_rate": 2.076e-05, "elapsed_time_per_iteration": 4.99987149, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 14s", "remaining_time": "4h 37m 7s", "loss_scale": 1.0, "consumed_samples": 2381824, "global_step/max_steps": "9304/12700"}
{"lm loss": 2.06784916, "grad_norm": 0.31599489, "learning_rate": 2.075e-05, "elapsed_time_per_iteration": 4.84668803, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 18s", "remaining_time": "4h 37m 2s", "loss_scale": 1.0, "consumed_samples": 2382080, "global_step/max_steps": "9305/12700"}
{"lm loss": 2.06691313, "grad_norm": 0.34100246, "learning_rate": 2.074e-05, "elapsed_time_per_iteration": 4.82417226, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 23s", "remaining_time": "4h 36m 57s", "loss_scale": 1.0, "consumed_samples": 2382336, "global_step/max_steps": "9306/12700"}
{"lm loss": 2.03529978, "grad_norm": 0.33735648, "learning_rate": 2.073e-05, "elapsed_time_per_iteration": 4.81150603, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 28s", "remaining_time": "4h 36m 52s", "loss_scale": 1.0, "consumed_samples": 2382592, "global_step/max_steps": "9307/12700"}
{"lm loss": 2.119313, "grad_norm": 0.34927589, "learning_rate": 2.072e-05, "elapsed_time_per_iteration": 4.94774771, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 33s", "remaining_time": "4h 36m 47s", "loss_scale": 1.0, "consumed_samples": 2382848, "global_step/max_steps": "9308/12700"}
{"lm loss": 2.0606792, "grad_norm": 0.36474982, "learning_rate": 2.071e-05, "elapsed_time_per_iteration": 4.91235065, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 38s", "remaining_time": "4h 36m 42s", "loss_scale": 1.0, "consumed_samples": 2383104, "global_step/max_steps": "9309/12700"}
{"lm loss": 2.05582976, "grad_norm": 0.33344388, "learning_rate": 2.07e-05, "elapsed_time_per_iteration": 4.82225347, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 43s", "remaining_time": "4h 36m 37s", "loss_scale": 1.0, "consumed_samples": 2383360, "global_step/max_steps": "9310/12700"}
{"lm loss": 2.05487013, "grad_norm": 0.35008678, "learning_rate": 2.069e-05, "elapsed_time_per_iteration": 4.84641528, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 48s", "remaining_time": "4h 36m 33s", "loss_scale": 1.0, "consumed_samples": 2383616, "global_step/max_steps": "9311/12700"}
{"lm loss": 2.05745769, "grad_norm": 0.33263856, "learning_rate": 2.068e-05, "elapsed_time_per_iteration": 4.93863368, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 53s", "remaining_time": "4h 36m 28s", "loss_scale": 1.0, "consumed_samples": 2383872, "global_step/max_steps": "9312/12700"}
{"lm loss": 2.07524991, "grad_norm": 0.35264081, "learning_rate": 2.067e-05, "elapsed_time_per_iteration": 4.96818757, "memory(GiB)": 28.98, "elapsed_time": "12h 39m 58s", "remaining_time": "4h 36m 23s", "loss_scale": 1.0, "consumed_samples": 2384128, "global_step/max_steps": "9313/12700"}
{"lm loss": 2.06174588, "grad_norm": 0.346679, "learning_rate": 2.066e-05, "elapsed_time_per_iteration": 4.84907365, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 2s", "remaining_time": "4h 36m 18s", "loss_scale": 1.0, "consumed_samples": 2384384, "global_step/max_steps": "9314/12700"}
{"lm loss": 2.07474256, "grad_norm": 0.3278451, "learning_rate": 2.065e-05, "elapsed_time_per_iteration": 4.87056327, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 7s", "remaining_time": "4h 36m 13s", "loss_scale": 1.0, "consumed_samples": 2384640, "global_step/max_steps": "9315/12700"}
{"lm loss": 2.04909849, "grad_norm": 0.36309278, "learning_rate": 2.064e-05, "elapsed_time_per_iteration": 4.88847423, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 12s", "remaining_time": "4h 36m 8s", "loss_scale": 1.0, "consumed_samples": 2384896, "global_step/max_steps": "9316/12700"}
{"lm loss": 2.08510113, "grad_norm": 0.34119719, "learning_rate": 2.063e-05, "elapsed_time_per_iteration": 4.9312005, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 17s", "remaining_time": "4h 36m 3s", "loss_scale": 1.0, "consumed_samples": 2385152, "global_step/max_steps": "9317/12700"}
{"lm loss": 2.06172514, "grad_norm": 0.33492517, "learning_rate": 2.062e-05, "elapsed_time_per_iteration": 4.86387444, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 22s", "remaining_time": "4h 35m 58s", "loss_scale": 1.0, "consumed_samples": 2385408, "global_step/max_steps": "9318/12700"}
{"lm loss": 2.04716969, "grad_norm": 0.34484309, "learning_rate": 2.061e-05, "elapsed_time_per_iteration": 4.97030115, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 27s", "remaining_time": "4h 35m 53s", "loss_scale": 1.0, "consumed_samples": 2385664, "global_step/max_steps": "9319/12700"}
{"lm loss": 2.04050064, "grad_norm": 0.35679537, "learning_rate": 2.06e-05, "elapsed_time_per_iteration": 4.8519392, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 32s", "remaining_time": "4h 35m 49s", "loss_scale": 1.0, "consumed_samples": 2385920, "global_step/max_steps": "9320/12700"}
{"lm loss": 2.05962968, "grad_norm": 0.35344768, "learning_rate": 2.059e-05, "elapsed_time_per_iteration": 4.85562658, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 37s", "remaining_time": "4h 35m 44s", "loss_scale": 1.0, "consumed_samples": 2386176, "global_step/max_steps": "9321/12700"}
{"lm loss": 2.07175159, "grad_norm": 0.32847232, "learning_rate": 2.058e-05, "elapsed_time_per_iteration": 4.86042094, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 41s", "remaining_time": "4h 35m 39s", "loss_scale": 1.0, "consumed_samples": 2386432, "global_step/max_steps": "9322/12700"}
{"lm loss": 2.08480883, "grad_norm": 0.33042687, "learning_rate": 2.057e-05, "elapsed_time_per_iteration": 4.84726334, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 46s", "remaining_time": "4h 35m 34s", "loss_scale": 1.0, "consumed_samples": 2386688, "global_step/max_steps": "9323/12700"}
{"lm loss": 2.06729722, "grad_norm": 0.33444497, "learning_rate": 2.056e-05, "elapsed_time_per_iteration": 4.89864707, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 51s", "remaining_time": "4h 35m 29s", "loss_scale": 1.0, "consumed_samples": 2386944, "global_step/max_steps": "9324/12700"}
{"lm loss": 2.05260777, "grad_norm": 0.32892668, "learning_rate": 2.055e-05, "elapsed_time_per_iteration": 4.82942915, "memory(GiB)": 28.98, "elapsed_time": "12h 40m 56s", "remaining_time": "4h 35m 24s", "loss_scale": 1.0, "consumed_samples": 2387200, "global_step/max_steps": "9325/12700"}
{"lm loss": 2.07489133, "grad_norm": 0.3223491, "learning_rate": 2.054e-05, "elapsed_time_per_iteration": 4.87958074, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 1s", "remaining_time": "4h 35m 19s", "loss_scale": 1.0, "consumed_samples": 2387456, "global_step/max_steps": "9326/12700"}
{"lm loss": 2.04033065, "grad_norm": 0.3339051, "learning_rate": 2.053e-05, "elapsed_time_per_iteration": 4.88901186, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 6s", "remaining_time": "4h 35m 14s", "loss_scale": 1.0, "consumed_samples": 2387712, "global_step/max_steps": "9327/12700"}
{"lm loss": 2.00351095, "grad_norm": 0.33269456, "learning_rate": 2.052e-05, "elapsed_time_per_iteration": 4.93131781, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 11s", "remaining_time": "4h 35m 9s", "loss_scale": 1.0, "consumed_samples": 2387968, "global_step/max_steps": "9328/12700"}
{"lm loss": 2.05338788, "grad_norm": 0.33749598, "learning_rate": 2.051e-05, "elapsed_time_per_iteration": 4.89210987, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 16s", "remaining_time": "4h 35m 4s", "loss_scale": 1.0, "consumed_samples": 2388224, "global_step/max_steps": "9329/12700"}
{"lm loss": 2.05118823, "grad_norm": 0.34318992, "learning_rate": 2.051e-05, "elapsed_time_per_iteration": 4.85824251, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 21s", "remaining_time": "4h 34m 59s", "loss_scale": 1.0, "consumed_samples": 2388480, "global_step/max_steps": "9330/12700"}
{"lm loss": 2.03858829, "grad_norm": 0.33361569, "learning_rate": 2.05e-05, "elapsed_time_per_iteration": 4.91374874, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 25s", "remaining_time": "4h 34m 55s", "loss_scale": 1.0, "consumed_samples": 2388736, "global_step/max_steps": "9331/12700"}
{"lm loss": 2.04402757, "grad_norm": 0.34797212, "learning_rate": 2.049e-05, "elapsed_time_per_iteration": 4.85717201, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 30s", "remaining_time": "4h 34m 50s", "loss_scale": 1.0, "consumed_samples": 2388992, "global_step/max_steps": "9332/12700"}
{"lm loss": 2.02400827, "grad_norm": 0.34228855, "learning_rate": 2.048e-05, "elapsed_time_per_iteration": 4.85024691, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 35s", "remaining_time": "4h 34m 45s", "loss_scale": 1.0, "consumed_samples": 2389248, "global_step/max_steps": "9333/12700"}
{"lm loss": 2.0654757, "grad_norm": 0.3400616, "learning_rate": 2.047e-05, "elapsed_time_per_iteration": 4.78796482, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 40s", "remaining_time": "4h 34m 40s", "loss_scale": 1.0, "consumed_samples": 2389504, "global_step/max_steps": "9334/12700"}
{"lm loss": 2.10197163, "grad_norm": 0.33863932, "learning_rate": 2.046e-05, "elapsed_time_per_iteration": 4.87262154, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 45s", "remaining_time": "4h 34m 35s", "loss_scale": 1.0, "consumed_samples": 2389760, "global_step/max_steps": "9335/12700"}
{"lm loss": 2.07054853, "grad_norm": 0.35831416, "learning_rate": 2.045e-05, "elapsed_time_per_iteration": 4.86987805, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 50s", "remaining_time": "4h 34m 30s", "loss_scale": 1.0, "consumed_samples": 2390016, "global_step/max_steps": "9336/12700"}
{"lm loss": 2.03452468, "grad_norm": 0.3235268, "learning_rate": 2.044e-05, "elapsed_time_per_iteration": 4.83806634, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 54s", "remaining_time": "4h 34m 25s", "loss_scale": 1.0, "consumed_samples": 2390272, "global_step/max_steps": "9337/12700"}
{"lm loss": 2.09862208, "grad_norm": 0.35974506, "learning_rate": 2.043e-05, "elapsed_time_per_iteration": 4.82732177, "memory(GiB)": 28.98, "elapsed_time": "12h 41m 59s", "remaining_time": "4h 34m 20s", "loss_scale": 1.0, "consumed_samples": 2390528, "global_step/max_steps": "9338/12700"}
{"lm loss": 2.08483458, "grad_norm": 0.35168603, "learning_rate": 2.042e-05, "elapsed_time_per_iteration": 4.96598721, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 4s", "remaining_time": "4h 34m 15s", "loss_scale": 1.0, "consumed_samples": 2390784, "global_step/max_steps": "9339/12700"}
{"lm loss": 2.04389501, "grad_norm": 0.36184391, "learning_rate": 2.041e-05, "elapsed_time_per_iteration": 4.84938312, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 9s", "remaining_time": "4h 34m 10s", "loss_scale": 1.0, "consumed_samples": 2391040, "global_step/max_steps": "9340/12700"}
{"lm loss": 2.07046914, "grad_norm": 0.32347408, "learning_rate": 2.04e-05, "elapsed_time_per_iteration": 4.82353115, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 14s", "remaining_time": "4h 34m 5s", "loss_scale": 1.0, "consumed_samples": 2391296, "global_step/max_steps": "9341/12700"}
{"lm loss": 2.06756377, "grad_norm": 0.32899886, "learning_rate": 2.039e-05, "elapsed_time_per_iteration": 4.87028098, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 19s", "remaining_time": "4h 34m 1s", "loss_scale": 1.0, "consumed_samples": 2391552, "global_step/max_steps": "9342/12700"}
{"lm loss": 2.07378912, "grad_norm": 0.35998404, "learning_rate": 2.038e-05, "elapsed_time_per_iteration": 4.78324842, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 24s", "remaining_time": "4h 33m 56s", "loss_scale": 1.0, "consumed_samples": 2391808, "global_step/max_steps": "9343/12700"}
{"lm loss": 2.07092738, "grad_norm": 0.34605396, "learning_rate": 2.037e-05, "elapsed_time_per_iteration": 5.02144313, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 29s", "remaining_time": "4h 33m 51s", "loss_scale": 1.0, "consumed_samples": 2392064, "global_step/max_steps": "9344/12700"}
{"lm loss": 2.02519393, "grad_norm": 0.31924713, "learning_rate": 2.036e-05, "elapsed_time_per_iteration": 4.80256534, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 33s", "remaining_time": "4h 33m 46s", "loss_scale": 1.0, "consumed_samples": 2392320, "global_step/max_steps": "9345/12700"}
{"lm loss": 2.0683682, "grad_norm": 0.33375034, "learning_rate": 2.035e-05, "elapsed_time_per_iteration": 4.85863757, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 38s", "remaining_time": "4h 33m 41s", "loss_scale": 1.0, "consumed_samples": 2392576, "global_step/max_steps": "9346/12700"}
{"lm loss": 2.12242126, "grad_norm": 0.35373372, "learning_rate": 2.034e-05, "elapsed_time_per_iteration": 4.99151921, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 43s", "remaining_time": "4h 33m 36s", "loss_scale": 1.0, "consumed_samples": 2392832, "global_step/max_steps": "9347/12700"}
{"lm loss": 2.09845018, "grad_norm": 0.38075796, "learning_rate": 2.033e-05, "elapsed_time_per_iteration": 4.9635582, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 48s", "remaining_time": "4h 33m 31s", "loss_scale": 1.0, "consumed_samples": 2393088, "global_step/max_steps": "9348/12700"}
{"lm loss": 2.03443146, "grad_norm": 0.32586688, "learning_rate": 2.032e-05, "elapsed_time_per_iteration": 4.90266514, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 53s", "remaining_time": "4h 33m 26s", "loss_scale": 1.0, "consumed_samples": 2393344, "global_step/max_steps": "9349/12700"}
{"lm loss": 2.09702921, "grad_norm": 0.31542617, "learning_rate": 2.031e-05, "elapsed_time_per_iteration": 4.85957575, "memory(GiB)": 28.98, "elapsed_time": "12h 42m 58s", "remaining_time": "4h 33m 21s", "loss_scale": 1.0, "consumed_samples": 2393600, "global_step/max_steps": "9350/12700"}
{"lm loss": 2.06835508, "grad_norm": 0.37226754, "learning_rate": 2.03e-05, "elapsed_time_per_iteration": 4.85045767, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 3s", "remaining_time": "4h 33m 17s", "loss_scale": 1.0, "consumed_samples": 2393856, "global_step/max_steps": "9351/12700"}
{"lm loss": 2.09157181, "grad_norm": 0.33706748, "learning_rate": 2.029e-05, "elapsed_time_per_iteration": 4.89055681, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 8s", "remaining_time": "4h 33m 12s", "loss_scale": 1.0, "consumed_samples": 2394112, "global_step/max_steps": "9352/12700"}
{"lm loss": 2.05517721, "grad_norm": 0.34150764, "learning_rate": 2.028e-05, "elapsed_time_per_iteration": 4.92089677, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 13s", "remaining_time": "4h 33m 7s", "loss_scale": 1.0, "consumed_samples": 2394368, "global_step/max_steps": "9353/12700"}
{"lm loss": 2.07539082, "grad_norm": 0.3173286, "learning_rate": 2.027e-05, "elapsed_time_per_iteration": 4.93217278, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 18s", "remaining_time": "4h 33m 2s", "loss_scale": 1.0, "consumed_samples": 2394624, "global_step/max_steps": "9354/12700"}
{"lm loss": 2.05547547, "grad_norm": 0.32582512, "learning_rate": 2.026e-05, "elapsed_time_per_iteration": 4.83186793, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 22s", "remaining_time": "4h 32m 57s", "loss_scale": 1.0, "consumed_samples": 2394880, "global_step/max_steps": "9355/12700"}
{"lm loss": 2.07099557, "grad_norm": 0.34991014, "learning_rate": 2.025e-05, "elapsed_time_per_iteration": 4.8622365, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 27s", "remaining_time": "4h 32m 52s", "loss_scale": 1.0, "consumed_samples": 2395136, "global_step/max_steps": "9356/12700"}
{"lm loss": 2.04351187, "grad_norm": 0.35663244, "learning_rate": 2.024e-05, "elapsed_time_per_iteration": 4.94049907, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 32s", "remaining_time": "4h 32m 47s", "loss_scale": 1.0, "consumed_samples": 2395392, "global_step/max_steps": "9357/12700"}
{"lm loss": 2.03050995, "grad_norm": 0.33290488, "learning_rate": 2.023e-05, "elapsed_time_per_iteration": 4.90844727, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 37s", "remaining_time": "4h 32m 42s", "loss_scale": 1.0, "consumed_samples": 2395648, "global_step/max_steps": "9358/12700"}
{"lm loss": 2.02626753, "grad_norm": 0.33550802, "learning_rate": 2.022e-05, "elapsed_time_per_iteration": 5.00264406, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 42s", "remaining_time": "4h 32m 37s", "loss_scale": 1.0, "consumed_samples": 2395904, "global_step/max_steps": "9359/12700"}
{"lm loss": 2.0619247, "grad_norm": 0.33034834, "learning_rate": 2.021e-05, "elapsed_time_per_iteration": 4.93673468, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 47s", "remaining_time": "4h 32m 33s", "loss_scale": 1.0, "consumed_samples": 2396160, "global_step/max_steps": "9360/12700"}
{"lm loss": 2.03816891, "grad_norm": 0.33939937, "learning_rate": 2.021e-05, "elapsed_time_per_iteration": 4.92857647, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 52s", "remaining_time": "4h 32m 28s", "loss_scale": 1.0, "consumed_samples": 2396416, "global_step/max_steps": "9361/12700"}
{"lm loss": 2.05443692, "grad_norm": 0.33998409, "learning_rate": 2.02e-05, "elapsed_time_per_iteration": 5.03201652, "memory(GiB)": 28.98, "elapsed_time": "12h 43m 57s", "remaining_time": "4h 32m 23s", "loss_scale": 1.0, "consumed_samples": 2396672, "global_step/max_steps": "9362/12700"}
{"lm loss": 2.02909994, "grad_norm": 0.33067682, "learning_rate": 2.019e-05, "elapsed_time_per_iteration": 4.88399935, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 2s", "remaining_time": "4h 32m 18s", "loss_scale": 1.0, "consumed_samples": 2396928, "global_step/max_steps": "9363/12700"}
{"lm loss": 2.060256, "grad_norm": 0.32491243, "learning_rate": 2.018e-05, "elapsed_time_per_iteration": 4.89279771, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 7s", "remaining_time": "4h 32m 13s", "loss_scale": 1.0, "consumed_samples": 2397184, "global_step/max_steps": "9364/12700"}
{"lm loss": 2.03784943, "grad_norm": 0.33239383, "learning_rate": 2.017e-05, "elapsed_time_per_iteration": 4.95013547, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 12s", "remaining_time": "4h 32m 8s", "loss_scale": 1.0, "consumed_samples": 2397440, "global_step/max_steps": "9365/12700"}
{"lm loss": 2.03713274, "grad_norm": 0.33721259, "learning_rate": 2.016e-05, "elapsed_time_per_iteration": 4.8458941, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 17s", "remaining_time": "4h 32m 3s", "loss_scale": 1.0, "consumed_samples": 2397696, "global_step/max_steps": "9366/12700"}
{"lm loss": 2.07124281, "grad_norm": 0.32289711, "learning_rate": 2.015e-05, "elapsed_time_per_iteration": 4.95020008, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 22s", "remaining_time": "4h 31m 58s", "loss_scale": 1.0, "consumed_samples": 2397952, "global_step/max_steps": "9367/12700"}
{"lm loss": 2.02556705, "grad_norm": 0.32609853, "learning_rate": 2.014e-05, "elapsed_time_per_iteration": 4.86491847, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 26s", "remaining_time": "4h 31m 53s", "loss_scale": 1.0, "consumed_samples": 2398208, "global_step/max_steps": "9368/12700"}
{"lm loss": 2.05982208, "grad_norm": 0.34255105, "learning_rate": 2.013e-05, "elapsed_time_per_iteration": 5.07079363, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 32s", "remaining_time": "4h 31m 49s", "loss_scale": 1.0, "consumed_samples": 2398464, "global_step/max_steps": "9369/12700"}
{"lm loss": 2.07256603, "grad_norm": 0.31548151, "learning_rate": 2.012e-05, "elapsed_time_per_iteration": 5.01218796, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 37s", "remaining_time": "4h 31m 44s", "loss_scale": 1.0, "consumed_samples": 2398720, "global_step/max_steps": "9370/12700"}
{"lm loss": 2.07908893, "grad_norm": 0.33198604, "learning_rate": 2.011e-05, "elapsed_time_per_iteration": 4.87436914, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 41s", "remaining_time": "4h 31m 39s", "loss_scale": 1.0, "consumed_samples": 2398976, "global_step/max_steps": "9371/12700"}
{"lm loss": 2.06646347, "grad_norm": 0.33752987, "learning_rate": 2.01e-05, "elapsed_time_per_iteration": 4.82068253, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 46s", "remaining_time": "4h 31m 34s", "loss_scale": 1.0, "consumed_samples": 2399232, "global_step/max_steps": "9372/12700"}
{"lm loss": 2.05787086, "grad_norm": 0.33177158, "learning_rate": 2.009e-05, "elapsed_time_per_iteration": 4.89670801, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 51s", "remaining_time": "4h 31m 29s", "loss_scale": 1.0, "consumed_samples": 2399488, "global_step/max_steps": "9373/12700"}
{"lm loss": 2.02283382, "grad_norm": 0.33409807, "learning_rate": 2.008e-05, "elapsed_time_per_iteration": 4.96867013, "memory(GiB)": 28.98, "elapsed_time": "12h 44m 56s", "remaining_time": "4h 31m 24s", "loss_scale": 1.0, "consumed_samples": 2399744, "global_step/max_steps": "9374/12700"}
{"lm loss": 2.06916118, "grad_norm": 0.32506302, "learning_rate": 2.007e-05, "elapsed_time_per_iteration": 4.83644128, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 1s", "remaining_time": "4h 31m 19s", "loss_scale": 1.0, "consumed_samples": 2400000, "global_step/max_steps": "9375/12700"}
{"lm loss": 2.0497632, "grad_norm": 0.32990393, "learning_rate": 2.006e-05, "elapsed_time_per_iteration": 4.88232446, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 6s", "remaining_time": "4h 31m 14s", "loss_scale": 1.0, "consumed_samples": 2400256, "global_step/max_steps": "9376/12700"}
{"lm loss": 2.05259204, "grad_norm": 0.32983813, "learning_rate": 2.005e-05, "elapsed_time_per_iteration": 4.85120487, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 11s", "remaining_time": "4h 31m 9s", "loss_scale": 1.0, "consumed_samples": 2400512, "global_step/max_steps": "9377/12700"}
{"lm loss": 2.05309057, "grad_norm": 0.34402752, "learning_rate": 2.004e-05, "elapsed_time_per_iteration": 4.95968914, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 16s", "remaining_time": "4h 31m 5s", "loss_scale": 1.0, "consumed_samples": 2400768, "global_step/max_steps": "9378/12700"}
{"lm loss": 2.02712917, "grad_norm": 0.33706006, "learning_rate": 2.003e-05, "elapsed_time_per_iteration": 4.91534662, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 21s", "remaining_time": "4h 31m 0s", "loss_scale": 1.0, "consumed_samples": 2401024, "global_step/max_steps": "9379/12700"}
{"lm loss": 2.07680273, "grad_norm": 0.33905566, "learning_rate": 2.002e-05, "elapsed_time_per_iteration": 4.93203259, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 25s", "remaining_time": "4h 30m 55s", "loss_scale": 1.0, "consumed_samples": 2401280, "global_step/max_steps": "9380/12700"}
{"lm loss": 2.02312112, "grad_norm": 0.33229294, "learning_rate": 2.001e-05, "elapsed_time_per_iteration": 4.88854861, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 30s", "remaining_time": "4h 30m 50s", "loss_scale": 1.0, "consumed_samples": 2401536, "global_step/max_steps": "9381/12700"}
{"lm loss": 2.02738047, "grad_norm": 0.35341069, "learning_rate": 2e-05, "elapsed_time_per_iteration": 4.82443905, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 35s", "remaining_time": "4h 30m 45s", "loss_scale": 1.0, "consumed_samples": 2401792, "global_step/max_steps": "9382/12700"}
{"lm loss": 2.04428887, "grad_norm": 0.32290936, "learning_rate": 1.999e-05, "elapsed_time_per_iteration": 4.80187964, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 40s", "remaining_time": "4h 30m 40s", "loss_scale": 1.0, "consumed_samples": 2402048, "global_step/max_steps": "9383/12700"}
{"lm loss": 2.05319929, "grad_norm": 0.3408595, "learning_rate": 1.998e-05, "elapsed_time_per_iteration": 5.02200675, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 45s", "remaining_time": "4h 30m 35s", "loss_scale": 1.0, "consumed_samples": 2402304, "global_step/max_steps": "9384/12700"}
{"lm loss": 2.07839823, "grad_norm": 0.34831104, "learning_rate": 1.997e-05, "elapsed_time_per_iteration": 4.87910295, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 50s", "remaining_time": "4h 30m 30s", "loss_scale": 1.0, "consumed_samples": 2402560, "global_step/max_steps": "9385/12700"}
{"lm loss": 2.07358217, "grad_norm": 0.32311711, "learning_rate": 1.996e-05, "elapsed_time_per_iteration": 4.90124726, "memory(GiB)": 28.98, "elapsed_time": "12h 45m 55s", "remaining_time": "4h 30m 25s", "loss_scale": 1.0, "consumed_samples": 2402816, "global_step/max_steps": "9386/12700"}
{"lm loss": 2.06785679, "grad_norm": 0.33803856, "learning_rate": 1.995e-05, "elapsed_time_per_iteration": 4.95374227, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 0s", "remaining_time": "4h 30m 20s", "loss_scale": 1.0, "consumed_samples": 2403072, "global_step/max_steps": "9387/12700"}
{"lm loss": 2.04895568, "grad_norm": 0.34255236, "learning_rate": 1.995e-05, "elapsed_time_per_iteration": 5.03358459, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 5s", "remaining_time": "4h 30m 16s", "loss_scale": 1.0, "consumed_samples": 2403328, "global_step/max_steps": "9388/12700"}
{"lm loss": 2.07141304, "grad_norm": 0.34427959, "learning_rate": 1.994e-05, "elapsed_time_per_iteration": 4.89453435, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 10s", "remaining_time": "4h 30m 11s", "loss_scale": 1.0, "consumed_samples": 2403584, "global_step/max_steps": "9389/12700"}
{"lm loss": 2.07745576, "grad_norm": 0.35013023, "learning_rate": 1.993e-05, "elapsed_time_per_iteration": 4.81177926, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 14s", "remaining_time": "4h 30m 6s", "loss_scale": 1.0, "consumed_samples": 2403840, "global_step/max_steps": "9390/12700"}
{"lm loss": 2.05354404, "grad_norm": 0.32073191, "learning_rate": 1.992e-05, "elapsed_time_per_iteration": 4.93666911, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 19s", "remaining_time": "4h 30m 1s", "loss_scale": 1.0, "consumed_samples": 2404096, "global_step/max_steps": "9391/12700"}
{"lm loss": 2.0492146, "grad_norm": 0.37039042, "learning_rate": 1.991e-05, "elapsed_time_per_iteration": 4.91225338, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 24s", "remaining_time": "4h 29m 56s", "loss_scale": 1.0, "consumed_samples": 2404352, "global_step/max_steps": "9392/12700"}
{"lm loss": 2.06097913, "grad_norm": 0.3216992, "learning_rate": 1.99e-05, "elapsed_time_per_iteration": 4.93325448, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 29s", "remaining_time": "4h 29m 51s", "loss_scale": 1.0, "consumed_samples": 2404608, "global_step/max_steps": "9393/12700"}
{"lm loss": 2.09121275, "grad_norm": 0.34106609, "learning_rate": 1.989e-05, "elapsed_time_per_iteration": 4.84711385, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 34s", "remaining_time": "4h 29m 46s", "loss_scale": 1.0, "consumed_samples": 2404864, "global_step/max_steps": "9394/12700"}
{"lm loss": 2.06973076, "grad_norm": 0.32512257, "learning_rate": 1.988e-05, "elapsed_time_per_iteration": 4.87730765, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 39s", "remaining_time": "4h 29m 41s", "loss_scale": 1.0, "consumed_samples": 2405120, "global_step/max_steps": "9395/12700"}
{"lm loss": 2.01414752, "grad_norm": 0.36033335, "learning_rate": 1.987e-05, "elapsed_time_per_iteration": 4.88134074, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 44s", "remaining_time": "4h 29m 36s", "loss_scale": 1.0, "consumed_samples": 2405376, "global_step/max_steps": "9396/12700"}
{"lm loss": 2.09807038, "grad_norm": 0.37256676, "learning_rate": 1.986e-05, "elapsed_time_per_iteration": 4.93770409, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 49s", "remaining_time": "4h 29m 32s", "loss_scale": 1.0, "consumed_samples": 2405632, "global_step/max_steps": "9397/12700"}
{"lm loss": 2.10713434, "grad_norm": 0.32057935, "learning_rate": 1.985e-05, "elapsed_time_per_iteration": 4.82188439, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 54s", "remaining_time": "4h 29m 27s", "loss_scale": 1.0, "consumed_samples": 2405888, "global_step/max_steps": "9398/12700"}
{"lm loss": 2.05903745, "grad_norm": 0.35266662, "learning_rate": 1.984e-05, "elapsed_time_per_iteration": 4.8480978, "memory(GiB)": 28.98, "elapsed_time": "12h 46m 58s", "remaining_time": "4h 29m 22s", "loss_scale": 1.0, "consumed_samples": 2406144, "global_step/max_steps": "9399/12700"}
{"lm loss": 2.05294251, "grad_norm": 0.3509455, "learning_rate": 1.983e-05, "elapsed_time_per_iteration": 4.80190659, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 3s", "remaining_time": "4h 29m 17s", "loss_scale": 1.0, "consumed_samples": 2406400, "global_step/max_steps": "9400/12700"}
{"lm loss": 2.04088449, "grad_norm": 0.35070017, "learning_rate": 1.982e-05, "elapsed_time_per_iteration": 4.80844402, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 8s", "remaining_time": "4h 29m 12s", "loss_scale": 1.0, "consumed_samples": 2406656, "global_step/max_steps": "9401/12700"}
{"lm loss": 2.04728794, "grad_norm": 0.34409475, "learning_rate": 1.981e-05, "elapsed_time_per_iteration": 4.97618389, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 13s", "remaining_time": "4h 29m 7s", "loss_scale": 1.0, "consumed_samples": 2406912, "global_step/max_steps": "9402/12700"}
{"lm loss": 2.09310889, "grad_norm": 0.33636981, "learning_rate": 1.98e-05, "elapsed_time_per_iteration": 4.84286356, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 18s", "remaining_time": "4h 29m 2s", "loss_scale": 1.0, "consumed_samples": 2407168, "global_step/max_steps": "9403/12700"}
{"lm loss": 2.04854655, "grad_norm": 0.34748521, "learning_rate": 1.979e-05, "elapsed_time_per_iteration": 4.7752459, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 23s", "remaining_time": "4h 28m 57s", "loss_scale": 1.0, "consumed_samples": 2407424, "global_step/max_steps": "9404/12700"}
{"lm loss": 2.01957536, "grad_norm": 0.32625374, "learning_rate": 1.978e-05, "elapsed_time_per_iteration": 4.86727381, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 28s", "remaining_time": "4h 28m 52s", "loss_scale": 1.0, "consumed_samples": 2407680, "global_step/max_steps": "9405/12700"}
{"lm loss": 2.02577806, "grad_norm": 0.34214601, "learning_rate": 1.977e-05, "elapsed_time_per_iteration": 5.08919907, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 33s", "remaining_time": "4h 28m 47s", "loss_scale": 1.0, "consumed_samples": 2407936, "global_step/max_steps": "9406/12700"}
{"lm loss": 2.06413126, "grad_norm": 0.34934103, "learning_rate": 1.976e-05, "elapsed_time_per_iteration": 4.88995719, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 38s", "remaining_time": "4h 28m 42s", "loss_scale": 1.0, "consumed_samples": 2408192, "global_step/max_steps": "9407/12700"}
{"lm loss": 2.07603669, "grad_norm": 0.34249482, "learning_rate": 1.975e-05, "elapsed_time_per_iteration": 4.97601962, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 42s", "remaining_time": "4h 28m 38s", "loss_scale": 1.0, "consumed_samples": 2408448, "global_step/max_steps": "9408/12700"}
{"lm loss": 2.0630753, "grad_norm": 0.33471751, "learning_rate": 1.974e-05, "elapsed_time_per_iteration": 4.79481769, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 47s", "remaining_time": "4h 28m 33s", "loss_scale": 1.0, "consumed_samples": 2408704, "global_step/max_steps": "9409/12700"}
{"lm loss": 2.06804252, "grad_norm": 0.32376054, "learning_rate": 1.973e-05, "elapsed_time_per_iteration": 4.91141248, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 52s", "remaining_time": "4h 28m 28s", "loss_scale": 1.0, "consumed_samples": 2408960, "global_step/max_steps": "9410/12700"}
{"lm loss": 2.06848097, "grad_norm": 0.3347193, "learning_rate": 1.973e-05, "elapsed_time_per_iteration": 4.90721464, "memory(GiB)": 28.98, "elapsed_time": "12h 47m 57s", "remaining_time": "4h 28m 23s", "loss_scale": 1.0, "consumed_samples": 2409216, "global_step/max_steps": "9411/12700"}
{"lm loss": 2.06382251, "grad_norm": 0.36551258, "learning_rate": 1.972e-05, "elapsed_time_per_iteration": 4.88137317, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 2s", "remaining_time": "4h 28m 18s", "loss_scale": 1.0, "consumed_samples": 2409472, "global_step/max_steps": "9412/12700"}
{"lm loss": 2.07401681, "grad_norm": 0.33364281, "learning_rate": 1.971e-05, "elapsed_time_per_iteration": 4.88959575, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 7s", "remaining_time": "4h 28m 13s", "loss_scale": 1.0, "consumed_samples": 2409728, "global_step/max_steps": "9413/12700"}
{"lm loss": 2.09551668, "grad_norm": 0.33857697, "learning_rate": 1.97e-05, "elapsed_time_per_iteration": 4.91464233, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 12s", "remaining_time": "4h 28m 8s", "loss_scale": 1.0, "consumed_samples": 2409984, "global_step/max_steps": "9414/12700"}
{"lm loss": 2.04749298, "grad_norm": 0.3507123, "learning_rate": 1.969e-05, "elapsed_time_per_iteration": 4.82919335, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 17s", "remaining_time": "4h 28m 3s", "loss_scale": 1.0, "consumed_samples": 2410240, "global_step/max_steps": "9415/12700"}
{"lm loss": 2.09786439, "grad_norm": 0.3570587, "learning_rate": 1.968e-05, "elapsed_time_per_iteration": 4.8987155, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 22s", "remaining_time": "4h 27m 58s", "loss_scale": 1.0, "consumed_samples": 2410496, "global_step/max_steps": "9416/12700"}
{"lm loss": 2.07268763, "grad_norm": 0.35042548, "learning_rate": 1.967e-05, "elapsed_time_per_iteration": 4.87046313, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 26s", "remaining_time": "4h 27m 54s", "loss_scale": 1.0, "consumed_samples": 2410752, "global_step/max_steps": "9417/12700"}
{"lm loss": 2.09039688, "grad_norm": 0.35389978, "learning_rate": 1.966e-05, "elapsed_time_per_iteration": 4.82705021, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 31s", "remaining_time": "4h 27m 49s", "loss_scale": 1.0, "consumed_samples": 2411008, "global_step/max_steps": "9418/12700"}
{"lm loss": 2.0270524, "grad_norm": 0.33218986, "learning_rate": 1.965e-05, "elapsed_time_per_iteration": 4.87931132, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 36s", "remaining_time": "4h 27m 44s", "loss_scale": 1.0, "consumed_samples": 2411264, "global_step/max_steps": "9419/12700"}
{"lm loss": 2.02704287, "grad_norm": 0.35897681, "learning_rate": 1.964e-05, "elapsed_time_per_iteration": 4.96162868, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 41s", "remaining_time": "4h 27m 39s", "loss_scale": 1.0, "consumed_samples": 2411520, "global_step/max_steps": "9420/12700"}
{"lm loss": 2.07338977, "grad_norm": 0.34587499, "learning_rate": 1.963e-05, "elapsed_time_per_iteration": 4.83238292, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 46s", "remaining_time": "4h 27m 34s", "loss_scale": 1.0, "consumed_samples": 2411776, "global_step/max_steps": "9421/12700"}
{"lm loss": 2.06781673, "grad_norm": 0.32146168, "learning_rate": 1.962e-05, "elapsed_time_per_iteration": 4.8815012, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 51s", "remaining_time": "4h 27m 29s", "loss_scale": 1.0, "consumed_samples": 2412032, "global_step/max_steps": "9422/12700"}
{"lm loss": 2.04834485, "grad_norm": 0.3192775, "learning_rate": 1.961e-05, "elapsed_time_per_iteration": 4.88229656, "memory(GiB)": 28.98, "elapsed_time": "12h 48m 56s", "remaining_time": "4h 27m 24s", "loss_scale": 1.0, "consumed_samples": 2412288, "global_step/max_steps": "9423/12700"}
{"lm loss": 2.08143401, "grad_norm": 0.35077393, "learning_rate": 1.96e-05, "elapsed_time_per_iteration": 4.95489359, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 1s", "remaining_time": "4h 27m 19s", "loss_scale": 1.0, "consumed_samples": 2412544, "global_step/max_steps": "9424/12700"}
{"lm loss": 2.10148859, "grad_norm": 0.33286723, "learning_rate": 1.959e-05, "elapsed_time_per_iteration": 4.97716188, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 6s", "remaining_time": "4h 27m 14s", "loss_scale": 1.0, "consumed_samples": 2412800, "global_step/max_steps": "9425/12700"}
{"lm loss": 2.04265428, "grad_norm": 0.34389111, "learning_rate": 1.958e-05, "elapsed_time_per_iteration": 4.92867351, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 11s", "remaining_time": "4h 27m 9s", "loss_scale": 1.0, "consumed_samples": 2413056, "global_step/max_steps": "9426/12700"}
{"lm loss": 2.08009553, "grad_norm": 0.38686076, "learning_rate": 1.957e-05, "elapsed_time_per_iteration": 5.07647562, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 16s", "remaining_time": "4h 27m 5s", "loss_scale": 1.0, "consumed_samples": 2413312, "global_step/max_steps": "9427/12700"}
{"lm loss": 2.04301119, "grad_norm": 0.32564476, "learning_rate": 1.956e-05, "elapsed_time_per_iteration": 4.86258912, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 20s", "remaining_time": "4h 27m 0s", "loss_scale": 1.0, "consumed_samples": 2413568, "global_step/max_steps": "9428/12700"}
{"lm loss": 2.05291581, "grad_norm": 0.36987942, "learning_rate": 1.955e-05, "elapsed_time_per_iteration": 4.91905594, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 25s", "remaining_time": "4h 26m 55s", "loss_scale": 1.0, "consumed_samples": 2413824, "global_step/max_steps": "9429/12700"}
{"lm loss": 2.05754375, "grad_norm": 0.34687972, "learning_rate": 1.954e-05, "elapsed_time_per_iteration": 4.92711711, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 30s", "remaining_time": "4h 26m 50s", "loss_scale": 1.0, "consumed_samples": 2414080, "global_step/max_steps": "9430/12700"}
{"lm loss": 2.06992579, "grad_norm": 0.34404755, "learning_rate": 1.953e-05, "elapsed_time_per_iteration": 4.85785198, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 35s", "remaining_time": "4h 26m 45s", "loss_scale": 1.0, "consumed_samples": 2414336, "global_step/max_steps": "9431/12700"}
{"lm loss": 2.02974391, "grad_norm": 0.35646915, "learning_rate": 1.953e-05, "elapsed_time_per_iteration": 4.84181786, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 40s", "remaining_time": "4h 26m 40s", "loss_scale": 1.0, "consumed_samples": 2414592, "global_step/max_steps": "9432/12700"}
{"lm loss": 2.09270334, "grad_norm": 0.35761228, "learning_rate": 1.952e-05, "elapsed_time_per_iteration": 4.85636282, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 45s", "remaining_time": "4h 26m 35s", "loss_scale": 1.0, "consumed_samples": 2414848, "global_step/max_steps": "9433/12700"}
{"lm loss": 2.0623076, "grad_norm": 0.34148255, "learning_rate": 1.951e-05, "elapsed_time_per_iteration": 4.86538076, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 50s", "remaining_time": "4h 26m 30s", "loss_scale": 1.0, "consumed_samples": 2415104, "global_step/max_steps": "9434/12700"}
{"lm loss": 2.09374928, "grad_norm": 0.35706306, "learning_rate": 1.95e-05, "elapsed_time_per_iteration": 4.83547568, "memory(GiB)": 28.98, "elapsed_time": "12h 49m 55s", "remaining_time": "4h 26m 25s", "loss_scale": 1.0, "consumed_samples": 2415360, "global_step/max_steps": "9435/12700"}
{"lm loss": 2.02323532, "grad_norm": 0.34891587, "learning_rate": 1.949e-05, "elapsed_time_per_iteration": 5.00251436, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 0s", "remaining_time": "4h 26m 21s", "loss_scale": 1.0, "consumed_samples": 2415616, "global_step/max_steps": "9436/12700"}
{"lm loss": 2.05420065, "grad_norm": 0.33980209, "learning_rate": 1.948e-05, "elapsed_time_per_iteration": 4.86378217, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 4s", "remaining_time": "4h 26m 16s", "loss_scale": 1.0, "consumed_samples": 2415872, "global_step/max_steps": "9437/12700"}
{"lm loss": 2.06495929, "grad_norm": 0.34092489, "learning_rate": 1.947e-05, "elapsed_time_per_iteration": 4.90424943, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 9s", "remaining_time": "4h 26m 11s", "loss_scale": 1.0, "consumed_samples": 2416128, "global_step/max_steps": "9438/12700"}
{"lm loss": 2.11193991, "grad_norm": 0.34640747, "learning_rate": 1.946e-05, "elapsed_time_per_iteration": 5.05297589, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 14s", "remaining_time": "4h 26m 6s", "loss_scale": 1.0, "consumed_samples": 2416384, "global_step/max_steps": "9439/12700"}
{"lm loss": 2.04467535, "grad_norm": 0.35273328, "learning_rate": 1.945e-05, "elapsed_time_per_iteration": 4.88807988, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 19s", "remaining_time": "4h 26m 1s", "loss_scale": 1.0, "consumed_samples": 2416640, "global_step/max_steps": "9440/12700"}
{"lm loss": 2.02585673, "grad_norm": 0.3413974, "learning_rate": 1.944e-05, "elapsed_time_per_iteration": 4.95571232, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 24s", "remaining_time": "4h 25m 56s", "loss_scale": 1.0, "consumed_samples": 2416896, "global_step/max_steps": "9441/12700"}
{"lm loss": 2.05222464, "grad_norm": 0.3719964, "learning_rate": 1.943e-05, "elapsed_time_per_iteration": 4.8412149, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 29s", "remaining_time": "4h 25m 51s", "loss_scale": 1.0, "consumed_samples": 2417152, "global_step/max_steps": "9442/12700"}
{"lm loss": 2.07041669, "grad_norm": 0.34805155, "learning_rate": 1.942e-05, "elapsed_time_per_iteration": 4.94570565, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 34s", "remaining_time": "4h 25m 46s", "loss_scale": 1.0, "consumed_samples": 2417408, "global_step/max_steps": "9443/12700"}
{"lm loss": 2.03776002, "grad_norm": 0.33967268, "learning_rate": 1.941e-05, "elapsed_time_per_iteration": 4.80671787, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 39s", "remaining_time": "4h 25m 41s", "loss_scale": 1.0, "consumed_samples": 2417664, "global_step/max_steps": "9444/12700"}
{"lm loss": 2.05840182, "grad_norm": 0.35489723, "learning_rate": 1.94e-05, "elapsed_time_per_iteration": 4.99223399, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 44s", "remaining_time": "4h 25m 37s", "loss_scale": 1.0, "consumed_samples": 2417920, "global_step/max_steps": "9445/12700"}
{"lm loss": 2.06298685, "grad_norm": 0.34437832, "learning_rate": 1.939e-05, "elapsed_time_per_iteration": 4.97442293, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 49s", "remaining_time": "4h 25m 32s", "loss_scale": 1.0, "consumed_samples": 2418176, "global_step/max_steps": "9446/12700"}
{"lm loss": 2.06611204, "grad_norm": 0.33385587, "learning_rate": 1.938e-05, "elapsed_time_per_iteration": 5.12936592, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 54s", "remaining_time": "4h 25m 27s", "loss_scale": 1.0, "consumed_samples": 2418432, "global_step/max_steps": "9447/12700"}
{"lm loss": 2.04422212, "grad_norm": 0.32348669, "learning_rate": 1.937e-05, "elapsed_time_per_iteration": 4.90046692, "memory(GiB)": 28.98, "elapsed_time": "12h 50m 59s", "remaining_time": "4h 25m 22s", "loss_scale": 1.0, "consumed_samples": 2418688, "global_step/max_steps": "9448/12700"}
{"lm loss": 2.05691195, "grad_norm": 0.35149786, "learning_rate": 1.936e-05, "elapsed_time_per_iteration": 4.92659187, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 4s", "remaining_time": "4h 25m 17s", "loss_scale": 1.0, "consumed_samples": 2418944, "global_step/max_steps": "9449/12700"}
{"lm loss": 2.04607677, "grad_norm": 0.33672497, "learning_rate": 1.935e-05, "elapsed_time_per_iteration": 4.79908109, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 9s", "remaining_time": "4h 25m 12s", "loss_scale": 1.0, "consumed_samples": 2419200, "global_step/max_steps": "9450/12700"}
{"lm loss": 2.067729, "grad_norm": 0.33579659, "learning_rate": 1.935e-05, "elapsed_time_per_iteration": 4.96772337, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 14s", "remaining_time": "4h 25m 7s", "loss_scale": 1.0, "consumed_samples": 2419456, "global_step/max_steps": "9451/12700"}
{"lm loss": 2.02818394, "grad_norm": 0.339986, "learning_rate": 1.934e-05, "elapsed_time_per_iteration": 4.84891081, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 18s", "remaining_time": "4h 25m 2s", "loss_scale": 1.0, "consumed_samples": 2419712, "global_step/max_steps": "9452/12700"}
{"lm loss": 2.05368304, "grad_norm": 0.34779993, "learning_rate": 1.933e-05, "elapsed_time_per_iteration": 5.08390069, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 23s", "remaining_time": "4h 24m 58s", "loss_scale": 1.0, "consumed_samples": 2419968, "global_step/max_steps": "9453/12700"}
{"lm loss": 2.05124164, "grad_norm": 0.32404318, "learning_rate": 1.932e-05, "elapsed_time_per_iteration": 4.82758927, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 28s", "remaining_time": "4h 24m 53s", "loss_scale": 1.0, "consumed_samples": 2420224, "global_step/max_steps": "9454/12700"}
{"lm loss": 2.06713176, "grad_norm": 0.34781083, "learning_rate": 1.931e-05, "elapsed_time_per_iteration": 4.79347897, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 33s", "remaining_time": "4h 24m 48s", "loss_scale": 1.0, "consumed_samples": 2420480, "global_step/max_steps": "9455/12700"}
{"lm loss": 2.06046343, "grad_norm": 0.31925124, "learning_rate": 1.93e-05, "elapsed_time_per_iteration": 4.89277411, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 38s", "remaining_time": "4h 24m 43s", "loss_scale": 1.0, "consumed_samples": 2420736, "global_step/max_steps": "9456/12700"}
{"lm loss": 2.07300186, "grad_norm": 0.33204401, "learning_rate": 1.929e-05, "elapsed_time_per_iteration": 4.85888815, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 43s", "remaining_time": "4h 24m 38s", "loss_scale": 1.0, "consumed_samples": 2420992, "global_step/max_steps": "9457/12700"}
{"lm loss": 2.09016299, "grad_norm": 0.33439833, "learning_rate": 1.928e-05, "elapsed_time_per_iteration": 4.85713816, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 48s", "remaining_time": "4h 24m 33s", "loss_scale": 1.0, "consumed_samples": 2421248, "global_step/max_steps": "9458/12700"}
{"lm loss": 2.06542563, "grad_norm": 0.32632384, "learning_rate": 1.927e-05, "elapsed_time_per_iteration": 4.89869571, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 53s", "remaining_time": "4h 24m 28s", "loss_scale": 1.0, "consumed_samples": 2421504, "global_step/max_steps": "9459/12700"}
{"lm loss": 2.06498671, "grad_norm": 0.32373697, "learning_rate": 1.926e-05, "elapsed_time_per_iteration": 4.87901926, "memory(GiB)": 28.98, "elapsed_time": "12h 51m 57s", "remaining_time": "4h 24m 23s", "loss_scale": 1.0, "consumed_samples": 2421760, "global_step/max_steps": "9460/12700"}
{"lm loss": 2.03006244, "grad_norm": 0.33355743, "learning_rate": 1.925e-05, "elapsed_time_per_iteration": 4.92985034, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 2s", "remaining_time": "4h 24m 18s", "loss_scale": 1.0, "consumed_samples": 2422016, "global_step/max_steps": "9461/12700"}
{"lm loss": 2.08514738, "grad_norm": 0.33031037, "learning_rate": 1.924e-05, "elapsed_time_per_iteration": 4.85406089, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 7s", "remaining_time": "4h 24m 13s", "loss_scale": 1.0, "consumed_samples": 2422272, "global_step/max_steps": "9462/12700"}
{"lm loss": 2.06335163, "grad_norm": 0.312024, "learning_rate": 1.923e-05, "elapsed_time_per_iteration": 4.85902047, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 12s", "remaining_time": "4h 24m 8s", "loss_scale": 1.0, "consumed_samples": 2422528, "global_step/max_steps": "9463/12700"}
{"lm loss": 2.056216, "grad_norm": 0.35119969, "learning_rate": 1.922e-05, "elapsed_time_per_iteration": 4.82775879, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 17s", "remaining_time": "4h 24m 4s", "loss_scale": 1.0, "consumed_samples": 2422784, "global_step/max_steps": "9464/12700"}
{"lm loss": 2.07802105, "grad_norm": 0.35083276, "learning_rate": 1.921e-05, "elapsed_time_per_iteration": 4.90858984, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 22s", "remaining_time": "4h 23m 59s", "loss_scale": 1.0, "consumed_samples": 2423040, "global_step/max_steps": "9465/12700"}
{"lm loss": 2.05576897, "grad_norm": 0.38069019, "learning_rate": 1.92e-05, "elapsed_time_per_iteration": 4.81310654, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 27s", "remaining_time": "4h 23m 54s", "loss_scale": 1.0, "consumed_samples": 2423296, "global_step/max_steps": "9466/12700"}
{"lm loss": 2.07168841, "grad_norm": 0.34666815, "learning_rate": 1.919e-05, "elapsed_time_per_iteration": 5.11904359, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 32s", "remaining_time": "4h 23m 49s", "loss_scale": 1.0, "consumed_samples": 2423552, "global_step/max_steps": "9467/12700"}
{"lm loss": 2.05684543, "grad_norm": 0.33714506, "learning_rate": 1.919e-05, "elapsed_time_per_iteration": 4.90257883, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 37s", "remaining_time": "4h 23m 44s", "loss_scale": 1.0, "consumed_samples": 2423808, "global_step/max_steps": "9468/12700"}
{"lm loss": 2.03209114, "grad_norm": 0.32682684, "learning_rate": 1.918e-05, "elapsed_time_per_iteration": 4.90663028, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 42s", "remaining_time": "4h 23m 39s", "loss_scale": 1.0, "consumed_samples": 2424064, "global_step/max_steps": "9469/12700"}
{"lm loss": 2.09066081, "grad_norm": 0.35697517, "learning_rate": 1.917e-05, "elapsed_time_per_iteration": 5.00962758, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 47s", "remaining_time": "4h 23m 34s", "loss_scale": 1.0, "consumed_samples": 2424320, "global_step/max_steps": "9470/12700"}
{"lm loss": 2.10999942, "grad_norm": 0.3649689, "learning_rate": 1.916e-05, "elapsed_time_per_iteration": 4.89935565, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 51s", "remaining_time": "4h 23m 29s", "loss_scale": 1.0, "consumed_samples": 2424576, "global_step/max_steps": "9471/12700"}
{"lm loss": 2.05892277, "grad_norm": 0.35292292, "learning_rate": 1.915e-05, "elapsed_time_per_iteration": 4.98451877, "memory(GiB)": 28.98, "elapsed_time": "12h 52m 56s", "remaining_time": "4h 23m 24s", "loss_scale": 1.0, "consumed_samples": 2424832, "global_step/max_steps": "9472/12700"}
{"lm loss": 2.07690907, "grad_norm": 0.35951623, "learning_rate": 1.914e-05, "elapsed_time_per_iteration": 4.9457767, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 1s", "remaining_time": "4h 23m 20s", "loss_scale": 1.0, "consumed_samples": 2425088, "global_step/max_steps": "9473/12700"}
{"lm loss": 2.04168773, "grad_norm": 0.35115933, "learning_rate": 1.913e-05, "elapsed_time_per_iteration": 4.95380569, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 6s", "remaining_time": "4h 23m 15s", "loss_scale": 1.0, "consumed_samples": 2425344, "global_step/max_steps": "9474/12700"}
{"lm loss": 2.0814302, "grad_norm": 0.34735623, "learning_rate": 1.912e-05, "elapsed_time_per_iteration": 4.94999814, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 11s", "remaining_time": "4h 23m 10s", "loss_scale": 1.0, "consumed_samples": 2425600, "global_step/max_steps": "9475/12700"}
{"lm loss": 2.03633451, "grad_norm": 0.35566589, "learning_rate": 1.911e-05, "elapsed_time_per_iteration": 4.88686037, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 16s", "remaining_time": "4h 23m 5s", "loss_scale": 1.0, "consumed_samples": 2425856, "global_step/max_steps": "9476/12700"}
{"lm loss": 2.0372839, "grad_norm": 0.31648743, "learning_rate": 1.91e-05, "elapsed_time_per_iteration": 4.84556842, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 21s", "remaining_time": "4h 23m 0s", "loss_scale": 1.0, "consumed_samples": 2426112, "global_step/max_steps": "9477/12700"}
{"lm loss": 2.08513808, "grad_norm": 0.36703882, "learning_rate": 1.909e-05, "elapsed_time_per_iteration": 4.83868837, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 26s", "remaining_time": "4h 22m 55s", "loss_scale": 1.0, "consumed_samples": 2426368, "global_step/max_steps": "9478/12700"}
{"lm loss": 2.02625275, "grad_norm": 0.34896877, "learning_rate": 1.908e-05, "elapsed_time_per_iteration": 4.81122565, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 31s", "remaining_time": "4h 22m 50s", "loss_scale": 1.0, "consumed_samples": 2426624, "global_step/max_steps": "9479/12700"}
{"lm loss": 2.08759904, "grad_norm": 0.33704996, "learning_rate": 1.907e-05, "elapsed_time_per_iteration": 4.85538554, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 36s", "remaining_time": "4h 22m 45s", "loss_scale": 1.0, "consumed_samples": 2426880, "global_step/max_steps": "9480/12700"}
{"lm loss": 2.05043101, "grad_norm": 0.34146643, "learning_rate": 1.906e-05, "elapsed_time_per_iteration": 4.83334494, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 40s", "remaining_time": "4h 22m 40s", "loss_scale": 1.0, "consumed_samples": 2427136, "global_step/max_steps": "9481/12700"}
{"lm loss": 2.05193925, "grad_norm": 0.34077951, "learning_rate": 1.905e-05, "elapsed_time_per_iteration": 4.8715663, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 45s", "remaining_time": "4h 22m 35s", "loss_scale": 1.0, "consumed_samples": 2427392, "global_step/max_steps": "9482/12700"}
{"lm loss": 2.07859206, "grad_norm": 0.33341089, "learning_rate": 1.904e-05, "elapsed_time_per_iteration": 4.84309721, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 50s", "remaining_time": "4h 22m 31s", "loss_scale": 1.0, "consumed_samples": 2427648, "global_step/max_steps": "9483/12700"}
{"lm loss": 2.01838779, "grad_norm": 0.33440137, "learning_rate": 1.903e-05, "elapsed_time_per_iteration": 5.02876878, "memory(GiB)": 28.98, "elapsed_time": "12h 53m 55s", "remaining_time": "4h 22m 26s", "loss_scale": 1.0, "consumed_samples": 2427904, "global_step/max_steps": "9484/12700"}
{"lm loss": 2.08259225, "grad_norm": 0.34015483, "learning_rate": 1.903e-05, "elapsed_time_per_iteration": 4.9321332, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 0s", "remaining_time": "4h 22m 21s", "loss_scale": 1.0, "consumed_samples": 2428160, "global_step/max_steps": "9485/12700"}
{"lm loss": 2.05518508, "grad_norm": 0.3343094, "learning_rate": 1.902e-05, "elapsed_time_per_iteration": 4.84449983, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 5s", "remaining_time": "4h 22m 16s", "loss_scale": 1.0, "consumed_samples": 2428416, "global_step/max_steps": "9486/12700"}
{"lm loss": 2.01308942, "grad_norm": 0.35079244, "learning_rate": 1.901e-05, "elapsed_time_per_iteration": 4.94411349, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 10s", "remaining_time": "4h 22m 11s", "loss_scale": 1.0, "consumed_samples": 2428672, "global_step/max_steps": "9487/12700"}
{"lm loss": 2.07967067, "grad_norm": 0.33840752, "learning_rate": 1.9e-05, "elapsed_time_per_iteration": 4.79780483, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 15s", "remaining_time": "4h 22m 6s", "loss_scale": 1.0, "consumed_samples": 2428928, "global_step/max_steps": "9488/12700"}
{"lm loss": 2.03940201, "grad_norm": 0.34449935, "learning_rate": 1.899e-05, "elapsed_time_per_iteration": 4.95024657, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 20s", "remaining_time": "4h 22m 1s", "loss_scale": 1.0, "consumed_samples": 2429184, "global_step/max_steps": "9489/12700"}
{"lm loss": 2.08545017, "grad_norm": 0.34476769, "learning_rate": 1.898e-05, "elapsed_time_per_iteration": 4.87816358, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 24s", "remaining_time": "4h 21m 56s", "loss_scale": 1.0, "consumed_samples": 2429440, "global_step/max_steps": "9490/12700"}
{"lm loss": 2.00253224, "grad_norm": 0.30653659, "learning_rate": 1.897e-05, "elapsed_time_per_iteration": 4.88584471, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 29s", "remaining_time": "4h 21m 51s", "loss_scale": 1.0, "consumed_samples": 2429696, "global_step/max_steps": "9491/12700"}
{"lm loss": 2.04541945, "grad_norm": 0.34845048, "learning_rate": 1.896e-05, "elapsed_time_per_iteration": 4.9102304, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 34s", "remaining_time": "4h 21m 47s", "loss_scale": 1.0, "consumed_samples": 2429952, "global_step/max_steps": "9492/12700"}
{"lm loss": 2.05668068, "grad_norm": 0.34364402, "learning_rate": 1.895e-05, "elapsed_time_per_iteration": 4.93472767, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 39s", "remaining_time": "4h 21m 42s", "loss_scale": 1.0, "consumed_samples": 2430208, "global_step/max_steps": "9493/12700"}
{"lm loss": 2.06414008, "grad_norm": 0.33714971, "learning_rate": 1.894e-05, "elapsed_time_per_iteration": 4.84664512, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 44s", "remaining_time": "4h 21m 37s", "loss_scale": 1.0, "consumed_samples": 2430464, "global_step/max_steps": "9494/12700"}
{"lm loss": 2.05632806, "grad_norm": 0.32810116, "learning_rate": 1.893e-05, "elapsed_time_per_iteration": 4.88795543, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 49s", "remaining_time": "4h 21m 32s", "loss_scale": 1.0, "consumed_samples": 2430720, "global_step/max_steps": "9495/12700"}
{"lm loss": 2.03924894, "grad_norm": 0.32293299, "learning_rate": 1.892e-05, "elapsed_time_per_iteration": 4.97685885, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 54s", "remaining_time": "4h 21m 27s", "loss_scale": 1.0, "consumed_samples": 2430976, "global_step/max_steps": "9496/12700"}
{"lm loss": 2.03562331, "grad_norm": 0.33519578, "learning_rate": 1.891e-05, "elapsed_time_per_iteration": 4.96046829, "memory(GiB)": 28.98, "elapsed_time": "12h 54m 59s", "remaining_time": "4h 21m 22s", "loss_scale": 1.0, "consumed_samples": 2431232, "global_step/max_steps": "9497/12700"}
{"lm loss": 2.06860805, "grad_norm": 0.32759526, "learning_rate": 1.89e-05, "elapsed_time_per_iteration": 4.85933805, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 4s", "remaining_time": "4h 21m 17s", "loss_scale": 1.0, "consumed_samples": 2431488, "global_step/max_steps": "9498/12700"}
{"lm loss": 2.04429197, "grad_norm": 0.34809038, "learning_rate": 1.889e-05, "elapsed_time_per_iteration": 4.86974597, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 9s", "remaining_time": "4h 21m 12s", "loss_scale": 1.0, "consumed_samples": 2431744, "global_step/max_steps": "9499/12700"}
{"lm loss": 2.06389832, "grad_norm": 0.34219155, "learning_rate": 1.888e-05, "elapsed_time_per_iteration": 4.92392349, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 14s", "remaining_time": "4h 21m 7s", "loss_scale": 1.0, "consumed_samples": 2432000, "global_step/max_steps": "9500/12700"}
{"lm loss": 2.09811163, "grad_norm": 0.32205412, "learning_rate": 1.888e-05, "elapsed_time_per_iteration": 4.83392, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 18s", "remaining_time": "4h 21m 2s", "loss_scale": 1.0, "consumed_samples": 2432256, "global_step/max_steps": "9501/12700"}
{"lm loss": 2.09491611, "grad_norm": 0.35219416, "learning_rate": 1.887e-05, "elapsed_time_per_iteration": 4.84505558, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 23s", "remaining_time": "4h 20m 58s", "loss_scale": 1.0, "consumed_samples": 2432512, "global_step/max_steps": "9502/12700"}
{"lm loss": 2.05825496, "grad_norm": 0.35027054, "learning_rate": 1.886e-05, "elapsed_time_per_iteration": 4.90662336, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 28s", "remaining_time": "4h 20m 53s", "loss_scale": 1.0, "consumed_samples": 2432768, "global_step/max_steps": "9503/12700"}
{"lm loss": 2.05196667, "grad_norm": 0.3366569, "learning_rate": 1.885e-05, "elapsed_time_per_iteration": 4.89112186, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 33s", "remaining_time": "4h 20m 48s", "loss_scale": 1.0, "consumed_samples": 2433024, "global_step/max_steps": "9504/12700"}
{"lm loss": 2.06430697, "grad_norm": 0.32121497, "learning_rate": 1.884e-05, "elapsed_time_per_iteration": 4.85729074, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 38s", "remaining_time": "4h 20m 43s", "loss_scale": 1.0, "consumed_samples": 2433280, "global_step/max_steps": "9505/12700"}
{"lm loss": 2.06905222, "grad_norm": 0.34799901, "learning_rate": 1.883e-05, "elapsed_time_per_iteration": 4.91724563, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 43s", "remaining_time": "4h 20m 38s", "loss_scale": 1.0, "consumed_samples": 2433536, "global_step/max_steps": "9506/12700"}
{"lm loss": 2.03962088, "grad_norm": 0.34652033, "learning_rate": 1.882e-05, "elapsed_time_per_iteration": 4.80937767, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 48s", "remaining_time": "4h 20m 33s", "loss_scale": 1.0, "consumed_samples": 2433792, "global_step/max_steps": "9507/12700"}
{"lm loss": 2.02714276, "grad_norm": 0.33971584, "learning_rate": 1.881e-05, "elapsed_time_per_iteration": 4.96026349, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 53s", "remaining_time": "4h 20m 28s", "loss_scale": 1.0, "consumed_samples": 2434048, "global_step/max_steps": "9508/12700"}
{"lm loss": 2.04676366, "grad_norm": 0.35560846, "learning_rate": 1.88e-05, "elapsed_time_per_iteration": 4.84086919, "memory(GiB)": 28.98, "elapsed_time": "12h 55m 57s", "remaining_time": "4h 20m 23s", "loss_scale": 1.0, "consumed_samples": 2434304, "global_step/max_steps": "9509/12700"}
{"lm loss": 2.08035684, "grad_norm": 0.36107588, "learning_rate": 1.879e-05, "elapsed_time_per_iteration": 4.96415949, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 2s", "remaining_time": "4h 20m 18s", "loss_scale": 1.0, "consumed_samples": 2434560, "global_step/max_steps": "9510/12700"}
{"lm loss": 2.05222631, "grad_norm": 0.33608037, "learning_rate": 1.878e-05, "elapsed_time_per_iteration": 4.88002205, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 7s", "remaining_time": "4h 20m 13s", "loss_scale": 1.0, "consumed_samples": 2434816, "global_step/max_steps": "9511/12700"}
{"lm loss": 2.06179547, "grad_norm": 0.34431043, "learning_rate": 1.877e-05, "elapsed_time_per_iteration": 4.97696996, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 12s", "remaining_time": "4h 20m 9s", "loss_scale": 1.0, "consumed_samples": 2435072, "global_step/max_steps": "9512/12700"}
{"lm loss": 2.02616358, "grad_norm": 0.32814556, "learning_rate": 1.876e-05, "elapsed_time_per_iteration": 4.9967227, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 17s", "remaining_time": "4h 20m 4s", "loss_scale": 1.0, "consumed_samples": 2435328, "global_step/max_steps": "9513/12700"}
{"lm loss": 2.07660818, "grad_norm": 0.34967163, "learning_rate": 1.875e-05, "elapsed_time_per_iteration": 4.9809866, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 22s", "remaining_time": "4h 19m 59s", "loss_scale": 1.0, "consumed_samples": 2435584, "global_step/max_steps": "9514/12700"}
{"lm loss": 2.07202148, "grad_norm": 0.3527565, "learning_rate": 1.874e-05, "elapsed_time_per_iteration": 4.99566698, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 27s", "remaining_time": "4h 19m 54s", "loss_scale": 1.0, "consumed_samples": 2435840, "global_step/max_steps": "9515/12700"}
{"lm loss": 2.06828022, "grad_norm": 0.33757624, "learning_rate": 1.874e-05, "elapsed_time_per_iteration": 5.02609944, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 32s", "remaining_time": "4h 19m 49s", "loss_scale": 1.0, "consumed_samples": 2436096, "global_step/max_steps": "9516/12700"}
{"lm loss": 2.05360222, "grad_norm": 0.35209128, "learning_rate": 1.873e-05, "elapsed_time_per_iteration": 4.94311833, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 37s", "remaining_time": "4h 19m 44s", "loss_scale": 1.0, "consumed_samples": 2436352, "global_step/max_steps": "9517/12700"}
{"lm loss": 2.08066368, "grad_norm": 0.35411638, "learning_rate": 1.872e-05, "elapsed_time_per_iteration": 4.86451697, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 42s", "remaining_time": "4h 19m 39s", "loss_scale": 1.0, "consumed_samples": 2436608, "global_step/max_steps": "9518/12700"}
{"lm loss": 2.08362842, "grad_norm": 0.39233914, "learning_rate": 1.871e-05, "elapsed_time_per_iteration": 4.85384035, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 47s", "remaining_time": "4h 19m 34s", "loss_scale": 1.0, "consumed_samples": 2436864, "global_step/max_steps": "9519/12700"}
{"lm loss": 2.09182501, "grad_norm": 0.32989779, "learning_rate": 1.87e-05, "elapsed_time_per_iteration": 4.82439113, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 52s", "remaining_time": "4h 19m 30s", "loss_scale": 1.0, "consumed_samples": 2437120, "global_step/max_steps": "9520/12700"}
{"lm loss": 2.06803131, "grad_norm": 0.34792417, "learning_rate": 1.869e-05, "elapsed_time_per_iteration": 4.92769456, "memory(GiB)": 28.98, "elapsed_time": "12h 56m 57s", "remaining_time": "4h 19m 25s", "loss_scale": 1.0, "consumed_samples": 2437376, "global_step/max_steps": "9521/12700"}
{"lm loss": 2.05433893, "grad_norm": 0.35730553, "learning_rate": 1.868e-05, "elapsed_time_per_iteration": 4.8970387, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 2s", "remaining_time": "4h 19m 20s", "loss_scale": 1.0, "consumed_samples": 2437632, "global_step/max_steps": "9522/12700"}
{"lm loss": 2.07435632, "grad_norm": 0.34301195, "learning_rate": 1.867e-05, "elapsed_time_per_iteration": 4.8790791, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 6s", "remaining_time": "4h 19m 15s", "loss_scale": 1.0, "consumed_samples": 2437888, "global_step/max_steps": "9523/12700"}
{"lm loss": 2.04287195, "grad_norm": 0.33543262, "learning_rate": 1.866e-05, "elapsed_time_per_iteration": 4.92310691, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 11s", "remaining_time": "4h 19m 10s", "loss_scale": 1.0, "consumed_samples": 2438144, "global_step/max_steps": "9524/12700"}
{"lm loss": 2.07114673, "grad_norm": 0.31575137, "learning_rate": 1.865e-05, "elapsed_time_per_iteration": 4.96905732, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 16s", "remaining_time": "4h 19m 5s", "loss_scale": 1.0, "consumed_samples": 2438400, "global_step/max_steps": "9525/12700"}
{"lm loss": 2.05087805, "grad_norm": 0.32280618, "learning_rate": 1.864e-05, "elapsed_time_per_iteration": 5.04456615, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 21s", "remaining_time": "4h 19m 0s", "loss_scale": 1.0, "consumed_samples": 2438656, "global_step/max_steps": "9526/12700"}
{"lm loss": 2.03795338, "grad_norm": 0.34741646, "learning_rate": 1.863e-05, "elapsed_time_per_iteration": 4.87185931, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 26s", "remaining_time": "4h 18m 55s", "loss_scale": 1.0, "consumed_samples": 2438912, "global_step/max_steps": "9527/12700"}
{"lm loss": 2.04557204, "grad_norm": 0.36546174, "learning_rate": 1.862e-05, "elapsed_time_per_iteration": 4.92483377, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 31s", "remaining_time": "4h 18m 50s", "loss_scale": 1.0, "consumed_samples": 2439168, "global_step/max_steps": "9528/12700"}
{"lm loss": 2.0488615, "grad_norm": 0.34087825, "learning_rate": 1.861e-05, "elapsed_time_per_iteration": 4.92071152, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 36s", "remaining_time": "4h 18m 46s", "loss_scale": 1.0, "consumed_samples": 2439424, "global_step/max_steps": "9529/12700"}
{"lm loss": 2.05986881, "grad_norm": 0.3576045, "learning_rate": 1.861e-05, "elapsed_time_per_iteration": 4.82656264, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 41s", "remaining_time": "4h 18m 41s", "loss_scale": 1.0, "consumed_samples": 2439680, "global_step/max_steps": "9530/12700"}
{"lm loss": 2.05240417, "grad_norm": 0.33147284, "learning_rate": 1.86e-05, "elapsed_time_per_iteration": 4.85355711, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 46s", "remaining_time": "4h 18m 36s", "loss_scale": 1.0, "consumed_samples": 2439936, "global_step/max_steps": "9531/12700"}
{"lm loss": 2.05117965, "grad_norm": 0.31841403, "learning_rate": 1.859e-05, "elapsed_time_per_iteration": 4.91731071, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 51s", "remaining_time": "4h 18m 31s", "loss_scale": 1.0, "consumed_samples": 2440192, "global_step/max_steps": "9532/12700"}
{"lm loss": 2.06099129, "grad_norm": 0.33723804, "learning_rate": 1.858e-05, "elapsed_time_per_iteration": 4.87430596, "memory(GiB)": 28.98, "elapsed_time": "12h 57m 56s", "remaining_time": "4h 18m 26s", "loss_scale": 1.0, "consumed_samples": 2440448, "global_step/max_steps": "9533/12700"}
{"lm loss": 2.05136919, "grad_norm": 0.34036398, "learning_rate": 1.857e-05, "elapsed_time_per_iteration": 4.82344961, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 0s", "remaining_time": "4h 18m 21s", "loss_scale": 1.0, "consumed_samples": 2440704, "global_step/max_steps": "9534/12700"}
{"lm loss": 2.03798246, "grad_norm": 0.33762777, "learning_rate": 1.856e-05, "elapsed_time_per_iteration": 4.91149211, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 5s", "remaining_time": "4h 18m 16s", "loss_scale": 1.0, "consumed_samples": 2440960, "global_step/max_steps": "9535/12700"}
{"lm loss": 2.06932759, "grad_norm": 0.34593979, "learning_rate": 1.855e-05, "elapsed_time_per_iteration": 4.80961776, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 10s", "remaining_time": "4h 18m 11s", "loss_scale": 1.0, "consumed_samples": 2441216, "global_step/max_steps": "9536/12700"}
{"lm loss": 2.06382632, "grad_norm": 0.31647438, "learning_rate": 1.854e-05, "elapsed_time_per_iteration": 4.86320376, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 15s", "remaining_time": "4h 18m 6s", "loss_scale": 1.0, "consumed_samples": 2441472, "global_step/max_steps": "9537/12700"}
{"lm loss": 2.03851032, "grad_norm": 0.33278683, "learning_rate": 1.853e-05, "elapsed_time_per_iteration": 4.89491129, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 20s", "remaining_time": "4h 18m 1s", "loss_scale": 1.0, "consumed_samples": 2441728, "global_step/max_steps": "9538/12700"}
{"lm loss": 2.05632567, "grad_norm": 0.35675085, "learning_rate": 1.852e-05, "elapsed_time_per_iteration": 4.88478065, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 25s", "remaining_time": "4h 17m 57s", "loss_scale": 1.0, "consumed_samples": 2441984, "global_step/max_steps": "9539/12700"}
{"lm loss": 2.03584433, "grad_norm": 0.37494877, "learning_rate": 1.851e-05, "elapsed_time_per_iteration": 4.87440491, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 30s", "remaining_time": "4h 17m 52s", "loss_scale": 1.0, "consumed_samples": 2442240, "global_step/max_steps": "9540/12700"}
{"lm loss": 2.05038714, "grad_norm": 0.33441833, "learning_rate": 1.85e-05, "elapsed_time_per_iteration": 4.9113965, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 35s", "remaining_time": "4h 17m 47s", "loss_scale": 1.0, "consumed_samples": 2442496, "global_step/max_steps": "9541/12700"}
{"lm loss": 2.08069444, "grad_norm": 0.32702926, "learning_rate": 1.849e-05, "elapsed_time_per_iteration": 4.89569879, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 39s", "remaining_time": "4h 17m 42s", "loss_scale": 1.0, "consumed_samples": 2442752, "global_step/max_steps": "9542/12700"}
{"lm loss": 2.04707146, "grad_norm": 0.33645248, "learning_rate": 1.848e-05, "elapsed_time_per_iteration": 4.8623178, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 44s", "remaining_time": "4h 17m 37s", "loss_scale": 1.0, "consumed_samples": 2443008, "global_step/max_steps": "9543/12700"}
{"lm loss": 2.077003, "grad_norm": 0.32881731, "learning_rate": 1.848e-05, "elapsed_time_per_iteration": 4.88967562, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 49s", "remaining_time": "4h 17m 32s", "loss_scale": 1.0, "consumed_samples": 2443264, "global_step/max_steps": "9544/12700"}
{"lm loss": 2.03174376, "grad_norm": 0.35460398, "learning_rate": 1.847e-05, "elapsed_time_per_iteration": 4.87330985, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 54s", "remaining_time": "4h 17m 27s", "loss_scale": 1.0, "consumed_samples": 2443520, "global_step/max_steps": "9545/12700"}
{"lm loss": 2.07144237, "grad_norm": 0.33142072, "learning_rate": 1.846e-05, "elapsed_time_per_iteration": 4.86519098, "memory(GiB)": 28.98, "elapsed_time": "12h 58m 59s", "remaining_time": "4h 17m 22s", "loss_scale": 1.0, "consumed_samples": 2443776, "global_step/max_steps": "9546/12700"}
{"lm loss": 2.06035399, "grad_norm": 0.3265138, "learning_rate": 1.845e-05, "elapsed_time_per_iteration": 4.82746792, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 4s", "remaining_time": "4h 17m 17s", "loss_scale": 1.0, "consumed_samples": 2444032, "global_step/max_steps": "9547/12700"}
{"lm loss": 2.05420256, "grad_norm": 0.32750955, "learning_rate": 1.844e-05, "elapsed_time_per_iteration": 5.07373095, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 9s", "remaining_time": "4h 17m 12s", "loss_scale": 1.0, "consumed_samples": 2444288, "global_step/max_steps": "9548/12700"}
{"lm loss": 2.02702165, "grad_norm": 0.33819234, "learning_rate": 1.843e-05, "elapsed_time_per_iteration": 4.75025487, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 14s", "remaining_time": "4h 17m 8s", "loss_scale": 1.0, "consumed_samples": 2444544, "global_step/max_steps": "9549/12700"}
{"lm loss": 2.07549524, "grad_norm": 0.32509387, "learning_rate": 1.842e-05, "elapsed_time_per_iteration": 4.90547204, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 18s", "remaining_time": "4h 17m 3s", "loss_scale": 1.0, "consumed_samples": 2444800, "global_step/max_steps": "9550/12700"}
{"lm loss": 2.06314325, "grad_norm": 0.34162867, "learning_rate": 1.841e-05, "elapsed_time_per_iteration": 4.92456651, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 23s", "remaining_time": "4h 16m 58s", "loss_scale": 1.0, "consumed_samples": 2445056, "global_step/max_steps": "9551/12700"}
{"lm loss": 2.04533052, "grad_norm": 0.32192138, "learning_rate": 1.84e-05, "elapsed_time_per_iteration": 4.85907102, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 28s", "remaining_time": "4h 16m 53s", "loss_scale": 1.0, "consumed_samples": 2445312, "global_step/max_steps": "9552/12700"}
{"lm loss": 2.05025721, "grad_norm": 0.33216259, "learning_rate": 1.839e-05, "elapsed_time_per_iteration": 4.87737942, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 33s", "remaining_time": "4h 16m 48s", "loss_scale": 1.0, "consumed_samples": 2445568, "global_step/max_steps": "9553/12700"}
{"lm loss": 2.05590963, "grad_norm": 0.32716408, "learning_rate": 1.838e-05, "elapsed_time_per_iteration": 4.99470949, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 38s", "remaining_time": "4h 16m 43s", "loss_scale": 1.0, "consumed_samples": 2445824, "global_step/max_steps": "9554/12700"}
{"lm loss": 2.04845834, "grad_norm": 0.35110947, "learning_rate": 1.837e-05, "elapsed_time_per_iteration": 4.92583156, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 43s", "remaining_time": "4h 16m 38s", "loss_scale": 1.0, "consumed_samples": 2446080, "global_step/max_steps": "9555/12700"}
{"lm loss": 2.07291842, "grad_norm": 0.33007336, "learning_rate": 1.836e-05, "elapsed_time_per_iteration": 4.96963525, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 48s", "remaining_time": "4h 16m 33s", "loss_scale": 1.0, "consumed_samples": 2446336, "global_step/max_steps": "9556/12700"}
{"lm loss": 2.0668335, "grad_norm": 0.33548442, "learning_rate": 1.836e-05, "elapsed_time_per_iteration": 4.89137268, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 53s", "remaining_time": "4h 16m 28s", "loss_scale": 1.0, "consumed_samples": 2446592, "global_step/max_steps": "9557/12700"}
{"lm loss": 2.06143904, "grad_norm": 0.31166577, "learning_rate": 1.835e-05, "elapsed_time_per_iteration": 4.86454225, "memory(GiB)": 28.98, "elapsed_time": "12h 59m 58s", "remaining_time": "4h 16m 23s", "loss_scale": 1.0, "consumed_samples": 2446848, "global_step/max_steps": "9558/12700"}
{"lm loss": 2.05405498, "grad_norm": 0.32467684, "learning_rate": 1.834e-05, "elapsed_time_per_iteration": 4.85353422, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 3s", "remaining_time": "4h 16m 19s", "loss_scale": 1.0, "consumed_samples": 2447104, "global_step/max_steps": "9559/12700"}
{"lm loss": 2.02797198, "grad_norm": 0.33740214, "learning_rate": 1.833e-05, "elapsed_time_per_iteration": 4.88153291, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 7s", "remaining_time": "4h 16m 14s", "loss_scale": 1.0, "consumed_samples": 2447360, "global_step/max_steps": "9560/12700"}
{"lm loss": 2.04525638, "grad_norm": 0.33060321, "learning_rate": 1.832e-05, "elapsed_time_per_iteration": 4.85265589, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 12s", "remaining_time": "4h 16m 9s", "loss_scale": 1.0, "consumed_samples": 2447616, "global_step/max_steps": "9561/12700"}
{"lm loss": 2.05746484, "grad_norm": 0.32553238, "learning_rate": 1.831e-05, "elapsed_time_per_iteration": 4.83549166, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 17s", "remaining_time": "4h 16m 4s", "loss_scale": 1.0, "consumed_samples": 2447872, "global_step/max_steps": "9562/12700"}
{"lm loss": 2.06049323, "grad_norm": 0.33543915, "learning_rate": 1.83e-05, "elapsed_time_per_iteration": 4.9612813, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 22s", "remaining_time": "4h 15m 59s", "loss_scale": 1.0, "consumed_samples": 2448128, "global_step/max_steps": "9563/12700"}
{"lm loss": 2.01522183, "grad_norm": 0.33440647, "learning_rate": 1.829e-05, "elapsed_time_per_iteration": 4.89775634, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 27s", "remaining_time": "4h 15m 54s", "loss_scale": 1.0, "consumed_samples": 2448384, "global_step/max_steps": "9564/12700"}
{"lm loss": 2.08026123, "grad_norm": 0.32109019, "learning_rate": 1.828e-05, "elapsed_time_per_iteration": 4.81874061, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 32s", "remaining_time": "4h 15m 49s", "loss_scale": 1.0, "consumed_samples": 2448640, "global_step/max_steps": "9565/12700"}
{"lm loss": 2.03247023, "grad_norm": 0.34298533, "learning_rate": 1.827e-05, "elapsed_time_per_iteration": 4.85571933, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 37s", "remaining_time": "4h 15m 44s", "loss_scale": 1.0, "consumed_samples": 2448896, "global_step/max_steps": "9566/12700"}
{"lm loss": 2.05596471, "grad_norm": 0.34348586, "learning_rate": 1.826e-05, "elapsed_time_per_iteration": 4.86974025, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 42s", "remaining_time": "4h 15m 39s", "loss_scale": 1.0, "consumed_samples": 2449152, "global_step/max_steps": "9567/12700"}
{"lm loss": 2.04181933, "grad_norm": 0.34258494, "learning_rate": 1.825e-05, "elapsed_time_per_iteration": 4.90817952, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 46s", "remaining_time": "4h 15m 34s", "loss_scale": 1.0, "consumed_samples": 2449408, "global_step/max_steps": "9568/12700"}
{"lm loss": 2.04703546, "grad_norm": 0.34837362, "learning_rate": 1.825e-05, "elapsed_time_per_iteration": 4.87978935, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 51s", "remaining_time": "4h 15m 30s", "loss_scale": 1.0, "consumed_samples": 2449664, "global_step/max_steps": "9569/12700"}
{"lm loss": 2.04244351, "grad_norm": 0.33292046, "learning_rate": 1.824e-05, "elapsed_time_per_iteration": 4.88402081, "memory(GiB)": 28.98, "elapsed_time": "13h 0m 56s", "remaining_time": "4h 15m 25s", "loss_scale": 1.0, "consumed_samples": 2449920, "global_step/max_steps": "9570/12700"}
{"lm loss": 2.06832075, "grad_norm": 0.39343929, "learning_rate": 1.823e-05, "elapsed_time_per_iteration": 4.81854177, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 1s", "remaining_time": "4h 15m 20s", "loss_scale": 1.0, "consumed_samples": 2450176, "global_step/max_steps": "9571/12700"}
{"lm loss": 2.06490493, "grad_norm": 0.32128009, "learning_rate": 1.822e-05, "elapsed_time_per_iteration": 4.94569159, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 6s", "remaining_time": "4h 15m 15s", "loss_scale": 1.0, "consumed_samples": 2450432, "global_step/max_steps": "9572/12700"}
{"lm loss": 2.06863618, "grad_norm": 0.33065465, "learning_rate": 1.821e-05, "elapsed_time_per_iteration": 4.86508155, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 11s", "remaining_time": "4h 15m 10s", "loss_scale": 1.0, "consumed_samples": 2450688, "global_step/max_steps": "9573/12700"}
{"lm loss": 2.0891645, "grad_norm": 0.35135818, "learning_rate": 1.82e-05, "elapsed_time_per_iteration": 4.95228791, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 16s", "remaining_time": "4h 15m 5s", "loss_scale": 1.0, "consumed_samples": 2450944, "global_step/max_steps": "9574/12700"}
{"lm loss": 2.04110622, "grad_norm": 0.33445269, "learning_rate": 1.819e-05, "elapsed_time_per_iteration": 4.90430355, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 21s", "remaining_time": "4h 15m 0s", "loss_scale": 1.0, "consumed_samples": 2451200, "global_step/max_steps": "9575/12700"}
{"lm loss": 2.04665685, "grad_norm": 0.33528081, "learning_rate": 1.818e-05, "elapsed_time_per_iteration": 4.97957039, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 26s", "remaining_time": "4h 14m 55s", "loss_scale": 1.0, "consumed_samples": 2451456, "global_step/max_steps": "9576/12700"}
{"lm loss": 2.04967427, "grad_norm": 0.34249499, "learning_rate": 1.817e-05, "elapsed_time_per_iteration": 4.86817956, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 31s", "remaining_time": "4h 14m 50s", "loss_scale": 1.0, "consumed_samples": 2451712, "global_step/max_steps": "9577/12700"}
{"lm loss": 2.06664371, "grad_norm": 0.32631537, "learning_rate": 1.816e-05, "elapsed_time_per_iteration": 4.90715837, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 35s", "remaining_time": "4h 14m 45s", "loss_scale": 1.0, "consumed_samples": 2451968, "global_step/max_steps": "9578/12700"}
{"lm loss": 2.07801461, "grad_norm": 0.35419223, "learning_rate": 1.815e-05, "elapsed_time_per_iteration": 4.8633647, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 40s", "remaining_time": "4h 14m 41s", "loss_scale": 1.0, "consumed_samples": 2452224, "global_step/max_steps": "9579/12700"}
{"lm loss": 2.05498385, "grad_norm": 0.32629955, "learning_rate": 1.814e-05, "elapsed_time_per_iteration": 4.80755472, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 45s", "remaining_time": "4h 14m 36s", "loss_scale": 1.0, "consumed_samples": 2452480, "global_step/max_steps": "9580/12700"}
{"lm loss": 2.08027697, "grad_norm": 0.32841909, "learning_rate": 1.814e-05, "elapsed_time_per_iteration": 4.86032701, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 50s", "remaining_time": "4h 14m 31s", "loss_scale": 1.0, "consumed_samples": 2452736, "global_step/max_steps": "9581/12700"}
{"lm loss": 2.05303192, "grad_norm": 0.32819819, "learning_rate": 1.813e-05, "elapsed_time_per_iteration": 4.86466074, "memory(GiB)": 28.98, "elapsed_time": "13h 1m 55s", "remaining_time": "4h 14m 26s", "loss_scale": 1.0, "consumed_samples": 2452992, "global_step/max_steps": "9582/12700"}
{"lm loss": 2.05172324, "grad_norm": 0.33740941, "learning_rate": 1.812e-05, "elapsed_time_per_iteration": 4.819314, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 0s", "remaining_time": "4h 14m 21s", "loss_scale": 1.0, "consumed_samples": 2453248, "global_step/max_steps": "9583/12700"}
{"lm loss": 2.04632878, "grad_norm": 0.34445763, "learning_rate": 1.811e-05, "elapsed_time_per_iteration": 4.90945077, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 5s", "remaining_time": "4h 14m 16s", "loss_scale": 1.0, "consumed_samples": 2453504, "global_step/max_steps": "9584/12700"}
{"lm loss": 1.99727941, "grad_norm": 0.33759081, "learning_rate": 1.81e-05, "elapsed_time_per_iteration": 4.85248375, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 9s", "remaining_time": "4h 14m 11s", "loss_scale": 1.0, "consumed_samples": 2453760, "global_step/max_steps": "9585/12700"}
{"lm loss": 2.05583429, "grad_norm": 0.37070441, "learning_rate": 1.809e-05, "elapsed_time_per_iteration": 4.89564919, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 14s", "remaining_time": "4h 14m 6s", "loss_scale": 1.0, "consumed_samples": 2454016, "global_step/max_steps": "9586/12700"}
{"lm loss": 2.05553484, "grad_norm": 0.35029751, "learning_rate": 1.808e-05, "elapsed_time_per_iteration": 4.92969823, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 19s", "remaining_time": "4h 14m 1s", "loss_scale": 1.0, "consumed_samples": 2454272, "global_step/max_steps": "9587/12700"}
{"lm loss": 2.05267549, "grad_norm": 0.33887962, "learning_rate": 1.807e-05, "elapsed_time_per_iteration": 5.07447529, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 24s", "remaining_time": "4h 13m 57s", "loss_scale": 1.0, "consumed_samples": 2454528, "global_step/max_steps": "9588/12700"}
{"lm loss": 2.0524919, "grad_norm": 0.35782522, "learning_rate": 1.806e-05, "elapsed_time_per_iteration": 4.80587029, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 29s", "remaining_time": "4h 13m 52s", "loss_scale": 1.0, "consumed_samples": 2454784, "global_step/max_steps": "9589/12700"}
{"lm loss": 2.04695821, "grad_norm": 0.32851925, "learning_rate": 1.805e-05, "elapsed_time_per_iteration": 4.87878561, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 34s", "remaining_time": "4h 13m 47s", "loss_scale": 1.0, "consumed_samples": 2455040, "global_step/max_steps": "9590/12700"}
{"lm loss": 2.06115484, "grad_norm": 0.33259863, "learning_rate": 1.804e-05, "elapsed_time_per_iteration": 4.88377881, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 39s", "remaining_time": "4h 13m 42s", "loss_scale": 1.0, "consumed_samples": 2455296, "global_step/max_steps": "9591/12700"}
{"lm loss": 2.03184628, "grad_norm": 0.33789581, "learning_rate": 1.803e-05, "elapsed_time_per_iteration": 4.8334434, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 44s", "remaining_time": "4h 13m 37s", "loss_scale": 1.0, "consumed_samples": 2455552, "global_step/max_steps": "9592/12700"}
{"lm loss": 2.08445692, "grad_norm": 0.32583007, "learning_rate": 1.803e-05, "elapsed_time_per_iteration": 4.90042949, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 49s", "remaining_time": "4h 13m 32s", "loss_scale": 1.0, "consumed_samples": 2455808, "global_step/max_steps": "9593/12700"}
{"lm loss": 2.07914567, "grad_norm": 0.34126064, "learning_rate": 1.802e-05, "elapsed_time_per_iteration": 4.84441185, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 54s", "remaining_time": "4h 13m 27s", "loss_scale": 1.0, "consumed_samples": 2456064, "global_step/max_steps": "9594/12700"}
{"lm loss": 2.05097818, "grad_norm": 0.34584525, "learning_rate": 1.801e-05, "elapsed_time_per_iteration": 4.83753848, "memory(GiB)": 28.98, "elapsed_time": "13h 2m 58s", "remaining_time": "4h 13m 22s", "loss_scale": 1.0, "consumed_samples": 2456320, "global_step/max_steps": "9595/12700"}
{"lm loss": 2.05227375, "grad_norm": 0.33857766, "learning_rate": 1.8e-05, "elapsed_time_per_iteration": 5.00410843, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 3s", "remaining_time": "4h 13m 17s", "loss_scale": 1.0, "consumed_samples": 2456576, "global_step/max_steps": "9596/12700"}
{"lm loss": 2.0163734, "grad_norm": 0.33590212, "learning_rate": 1.799e-05, "elapsed_time_per_iteration": 5.02961302, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 8s", "remaining_time": "4h 13m 12s", "loss_scale": 1.0, "consumed_samples": 2456832, "global_step/max_steps": "9597/12700"}
{"lm loss": 2.02295327, "grad_norm": 0.31578985, "learning_rate": 1.798e-05, "elapsed_time_per_iteration": 4.91260934, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 13s", "remaining_time": "4h 13m 8s", "loss_scale": 1.0, "consumed_samples": 2457088, "global_step/max_steps": "9598/12700"}
{"lm loss": 2.09206986, "grad_norm": 0.33160368, "learning_rate": 1.797e-05, "elapsed_time_per_iteration": 4.91576004, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 18s", "remaining_time": "4h 13m 3s", "loss_scale": 1.0, "consumed_samples": 2457344, "global_step/max_steps": "9599/12700"}
{"lm loss": 2.04196429, "grad_norm": 0.33801413, "learning_rate": 1.796e-05, "elapsed_time_per_iteration": 4.86809206, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 23s", "remaining_time": "4h 12m 58s", "loss_scale": 1.0, "consumed_samples": 2457600, "global_step/max_steps": "9600/12700"}
{"lm loss": 2.04609036, "grad_norm": 0.33566737, "learning_rate": 1.795e-05, "elapsed_time_per_iteration": 4.77082992, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 28s", "remaining_time": "4h 12m 53s", "loss_scale": 1.0, "consumed_samples": 2457856, "global_step/max_steps": "9601/12700"}
{"lm loss": 2.05412579, "grad_norm": 0.32125112, "learning_rate": 1.794e-05, "elapsed_time_per_iteration": 4.90529442, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 33s", "remaining_time": "4h 12m 48s", "loss_scale": 1.0, "consumed_samples": 2458112, "global_step/max_steps": "9602/12700"}
{"lm loss": 2.09791732, "grad_norm": 0.33919829, "learning_rate": 1.793e-05, "elapsed_time_per_iteration": 4.98416209, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 38s", "remaining_time": "4h 12m 43s", "loss_scale": 1.0, "consumed_samples": 2458368, "global_step/max_steps": "9603/12700"}
{"lm loss": 2.08036661, "grad_norm": 0.33835492, "learning_rate": 1.792e-05, "elapsed_time_per_iteration": 4.89451241, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 43s", "remaining_time": "4h 12m 38s", "loss_scale": 1.0, "consumed_samples": 2458624, "global_step/max_steps": "9604/12700"}
{"lm loss": 2.06959367, "grad_norm": 0.33651602, "learning_rate": 1.792e-05, "elapsed_time_per_iteration": 4.93609023, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 48s", "remaining_time": "4h 12m 33s", "loss_scale": 1.0, "consumed_samples": 2458880, "global_step/max_steps": "9605/12700"}
{"lm loss": 2.08213449, "grad_norm": 0.33033484, "learning_rate": 1.791e-05, "elapsed_time_per_iteration": 4.81065369, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 52s", "remaining_time": "4h 12m 28s", "loss_scale": 1.0, "consumed_samples": 2459136, "global_step/max_steps": "9606/12700"}
{"lm loss": 2.05795932, "grad_norm": 0.32655564, "learning_rate": 1.79e-05, "elapsed_time_per_iteration": 4.81420445, "memory(GiB)": 28.98, "elapsed_time": "13h 3m 57s", "remaining_time": "4h 12m 23s", "loss_scale": 1.0, "consumed_samples": 2459392, "global_step/max_steps": "9607/12700"}
{"lm loss": 2.04600596, "grad_norm": 0.33087111, "learning_rate": 1.789e-05, "elapsed_time_per_iteration": 4.81791759, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 2s", "remaining_time": "4h 12m 18s", "loss_scale": 1.0, "consumed_samples": 2459648, "global_step/max_steps": "9608/12700"}
{"lm loss": 2.07025266, "grad_norm": 0.32309377, "learning_rate": 1.788e-05, "elapsed_time_per_iteration": 4.94030142, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 7s", "remaining_time": "4h 12m 14s", "loss_scale": 1.0, "consumed_samples": 2459904, "global_step/max_steps": "9609/12700"}
{"lm loss": 2.05371618, "grad_norm": 0.32551399, "learning_rate": 1.787e-05, "elapsed_time_per_iteration": 4.85125566, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 12s", "remaining_time": "4h 12m 9s", "loss_scale": 1.0, "consumed_samples": 2460160, "global_step/max_steps": "9610/12700"}
{"lm loss": 2.04032493, "grad_norm": 0.34576792, "learning_rate": 1.786e-05, "elapsed_time_per_iteration": 4.95863414, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 17s", "remaining_time": "4h 12m 4s", "loss_scale": 1.0, "consumed_samples": 2460416, "global_step/max_steps": "9611/12700"}
{"lm loss": 2.04962659, "grad_norm": 0.33061314, "learning_rate": 1.785e-05, "elapsed_time_per_iteration": 4.86863065, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 22s", "remaining_time": "4h 11m 59s", "loss_scale": 1.0, "consumed_samples": 2460672, "global_step/max_steps": "9612/12700"}
{"lm loss": 2.04480624, "grad_norm": 0.32883084, "learning_rate": 1.784e-05, "elapsed_time_per_iteration": 4.89481306, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 27s", "remaining_time": "4h 11m 54s", "loss_scale": 1.0, "consumed_samples": 2460928, "global_step/max_steps": "9613/12700"}
{"lm loss": 2.03214407, "grad_norm": 0.36536562, "learning_rate": 1.783e-05, "elapsed_time_per_iteration": 4.91587949, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 31s", "remaining_time": "4h 11m 49s", "loss_scale": 1.0, "consumed_samples": 2461184, "global_step/max_steps": "9614/12700"}
{"lm loss": 2.02506375, "grad_norm": 0.32576093, "learning_rate": 1.782e-05, "elapsed_time_per_iteration": 5.04087043, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 36s", "remaining_time": "4h 11m 44s", "loss_scale": 1.0, "consumed_samples": 2461440, "global_step/max_steps": "9615/12700"}
{"lm loss": 2.0499301, "grad_norm": 0.34087929, "learning_rate": 1.782e-05, "elapsed_time_per_iteration": 4.9971087, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 41s", "remaining_time": "4h 11m 39s", "loss_scale": 1.0, "consumed_samples": 2461696, "global_step/max_steps": "9616/12700"}
{"lm loss": 2.03423882, "grad_norm": 0.39651465, "learning_rate": 1.781e-05, "elapsed_time_per_iteration": 5.04491496, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 47s", "remaining_time": "4h 11m 35s", "loss_scale": 1.0, "consumed_samples": 2461952, "global_step/max_steps": "9617/12700"}
{"lm loss": 2.06261706, "grad_norm": 0.33155704, "learning_rate": 1.78e-05, "elapsed_time_per_iteration": 4.8249073, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 51s", "remaining_time": "4h 11m 30s", "loss_scale": 1.0, "consumed_samples": 2462208, "global_step/max_steps": "9618/12700"}
{"lm loss": 2.06894946, "grad_norm": 0.33022243, "learning_rate": 1.779e-05, "elapsed_time_per_iteration": 4.89154434, "memory(GiB)": 28.98, "elapsed_time": "13h 4m 56s", "remaining_time": "4h 11m 25s", "loss_scale": 1.0, "consumed_samples": 2462464, "global_step/max_steps": "9619/12700"}
{"lm loss": 2.04440379, "grad_norm": 0.35222834, "learning_rate": 1.778e-05, "elapsed_time_per_iteration": 4.91436076, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 1s", "remaining_time": "4h 11m 20s", "loss_scale": 1.0, "consumed_samples": 2462720, "global_step/max_steps": "9620/12700"}
{"lm loss": 2.07238579, "grad_norm": 0.34231243, "learning_rate": 1.777e-05, "elapsed_time_per_iteration": 4.92434311, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 6s", "remaining_time": "4h 11m 15s", "loss_scale": 1.0, "consumed_samples": 2462976, "global_step/max_steps": "9621/12700"}
{"lm loss": 2.03527689, "grad_norm": 0.39991242, "learning_rate": 1.776e-05, "elapsed_time_per_iteration": 4.9212544, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 11s", "remaining_time": "4h 11m 10s", "loss_scale": 1.0, "consumed_samples": 2463232, "global_step/max_steps": "9622/12700"}
{"lm loss": 2.02930665, "grad_norm": 0.36681232, "learning_rate": 1.775e-05, "elapsed_time_per_iteration": 4.93849778, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 16s", "remaining_time": "4h 11m 5s", "loss_scale": 1.0, "consumed_samples": 2463488, "global_step/max_steps": "9623/12700"}
{"lm loss": 2.07355165, "grad_norm": 0.33762351, "learning_rate": 1.774e-05, "elapsed_time_per_iteration": 4.88641834, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 21s", "remaining_time": "4h 11m 0s", "loss_scale": 1.0, "consumed_samples": 2463744, "global_step/max_steps": "9624/12700"}
{"lm loss": 2.05239296, "grad_norm": 0.36152962, "learning_rate": 1.773e-05, "elapsed_time_per_iteration": 4.84256053, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 26s", "remaining_time": "4h 10m 55s", "loss_scale": 1.0, "consumed_samples": 2464000, "global_step/max_steps": "9625/12700"}
{"lm loss": 2.09775853, "grad_norm": 0.36139262, "learning_rate": 1.772e-05, "elapsed_time_per_iteration": 4.90642762, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 31s", "remaining_time": "4h 10m 51s", "loss_scale": 1.0, "consumed_samples": 2464256, "global_step/max_steps": "9626/12700"}
{"lm loss": 2.03536701, "grad_norm": 0.33169505, "learning_rate": 1.772e-05, "elapsed_time_per_iteration": 4.82979345, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 35s", "remaining_time": "4h 10m 46s", "loss_scale": 1.0, "consumed_samples": 2464512, "global_step/max_steps": "9627/12700"}
{"lm loss": 2.06258774, "grad_norm": 0.36174592, "learning_rate": 1.771e-05, "elapsed_time_per_iteration": 4.83069944, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 40s", "remaining_time": "4h 10m 41s", "loss_scale": 1.0, "consumed_samples": 2464768, "global_step/max_steps": "9628/12700"}
{"lm loss": 2.07705474, "grad_norm": 0.34206322, "learning_rate": 1.77e-05, "elapsed_time_per_iteration": 4.8242557, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 45s", "remaining_time": "4h 10m 36s", "loss_scale": 1.0, "consumed_samples": 2465024, "global_step/max_steps": "9629/12700"}
{"lm loss": 2.05091476, "grad_norm": 0.35585582, "learning_rate": 1.769e-05, "elapsed_time_per_iteration": 4.88920951, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 50s", "remaining_time": "4h 10m 31s", "loss_scale": 1.0, "consumed_samples": 2465280, "global_step/max_steps": "9630/12700"}
{"lm loss": 2.05402422, "grad_norm": 0.32768193, "learning_rate": 1.768e-05, "elapsed_time_per_iteration": 4.90810323, "memory(GiB)": 28.98, "elapsed_time": "13h 5m 55s", "remaining_time": "4h 10m 26s", "loss_scale": 1.0, "consumed_samples": 2465536, "global_step/max_steps": "9631/12700"}
{"lm loss": 2.06830716, "grad_norm": 0.3415831, "learning_rate": 1.767e-05, "elapsed_time_per_iteration": 4.90709138, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 0s", "remaining_time": "4h 10m 21s", "loss_scale": 1.0, "consumed_samples": 2465792, "global_step/max_steps": "9632/12700"}
{"lm loss": 2.05886722, "grad_norm": 0.33509281, "learning_rate": 1.766e-05, "elapsed_time_per_iteration": 4.85159731, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 5s", "remaining_time": "4h 10m 16s", "loss_scale": 1.0, "consumed_samples": 2466048, "global_step/max_steps": "9633/12700"}
{"lm loss": 2.05389214, "grad_norm": 0.34343576, "learning_rate": 1.765e-05, "elapsed_time_per_iteration": 4.89279318, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 10s", "remaining_time": "4h 10m 11s", "loss_scale": 1.0, "consumed_samples": 2466304, "global_step/max_steps": "9634/12700"}
{"lm loss": 2.05292606, "grad_norm": 0.3379561, "learning_rate": 1.764e-05, "elapsed_time_per_iteration": 4.91133308, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 14s", "remaining_time": "4h 10m 6s", "loss_scale": 1.0, "consumed_samples": 2466560, "global_step/max_steps": "9635/12700"}
{"lm loss": 2.03981805, "grad_norm": 0.33018824, "learning_rate": 1.763e-05, "elapsed_time_per_iteration": 4.9068439, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 19s", "remaining_time": "4h 10m 1s", "loss_scale": 1.0, "consumed_samples": 2466816, "global_step/max_steps": "9636/12700"}
{"lm loss": 2.0444963, "grad_norm": 0.37235993, "learning_rate": 1.763e-05, "elapsed_time_per_iteration": 4.79987431, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 24s", "remaining_time": "4h 9m 57s", "loss_scale": 1.0, "consumed_samples": 2467072, "global_step/max_steps": "9637/12700"}
{"lm loss": 2.06254578, "grad_norm": 0.33838269, "learning_rate": 1.762e-05, "elapsed_time_per_iteration": 4.87940264, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 29s", "remaining_time": "4h 9m 52s", "loss_scale": 1.0, "consumed_samples": 2467328, "global_step/max_steps": "9638/12700"}
{"lm loss": 2.093431, "grad_norm": 0.33631212, "learning_rate": 1.761e-05, "elapsed_time_per_iteration": 4.87972379, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 34s", "remaining_time": "4h 9m 47s", "loss_scale": 1.0, "consumed_samples": 2467584, "global_step/max_steps": "9639/12700"}
{"lm loss": 2.07221889, "grad_norm": 0.33714089, "learning_rate": 1.76e-05, "elapsed_time_per_iteration": 4.84094453, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 39s", "remaining_time": "4h 9m 42s", "loss_scale": 1.0, "consumed_samples": 2467840, "global_step/max_steps": "9640/12700"}
{"lm loss": 2.03781366, "grad_norm": 0.31955487, "learning_rate": 1.759e-05, "elapsed_time_per_iteration": 4.87213969, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 44s", "remaining_time": "4h 9m 37s", "loss_scale": 1.0, "consumed_samples": 2468096, "global_step/max_steps": "9641/12700"}
{"lm loss": 2.0593214, "grad_norm": 0.34078443, "learning_rate": 1.758e-05, "elapsed_time_per_iteration": 4.8751049, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 48s", "remaining_time": "4h 9m 32s", "loss_scale": 1.0, "consumed_samples": 2468352, "global_step/max_steps": "9642/12700"}
{"lm loss": 2.05439329, "grad_norm": 0.34134617, "learning_rate": 1.757e-05, "elapsed_time_per_iteration": 4.87915826, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 53s", "remaining_time": "4h 9m 27s", "loss_scale": 1.0, "consumed_samples": 2468608, "global_step/max_steps": "9643/12700"}
{"lm loss": 2.07034659, "grad_norm": 0.334997, "learning_rate": 1.756e-05, "elapsed_time_per_iteration": 4.961689, "memory(GiB)": 28.98, "elapsed_time": "13h 6m 58s", "remaining_time": "4h 9m 22s", "loss_scale": 1.0, "consumed_samples": 2468864, "global_step/max_steps": "9644/12700"}
{"lm loss": 2.02579594, "grad_norm": 0.3227492, "learning_rate": 1.755e-05, "elapsed_time_per_iteration": 4.96773791, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 3s", "remaining_time": "4h 9m 17s", "loss_scale": 1.0, "consumed_samples": 2469120, "global_step/max_steps": "9645/12700"}
{"lm loss": 2.05900311, "grad_norm": 0.34942651, "learning_rate": 1.754e-05, "elapsed_time_per_iteration": 4.86789179, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 8s", "remaining_time": "4h 9m 12s", "loss_scale": 1.0, "consumed_samples": 2469376, "global_step/max_steps": "9646/12700"}
{"lm loss": 2.03282547, "grad_norm": 0.3293286, "learning_rate": 1.754e-05, "elapsed_time_per_iteration": 4.8718462, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 13s", "remaining_time": "4h 9m 8s", "loss_scale": 1.0, "consumed_samples": 2469632, "global_step/max_steps": "9647/12700"}
{"lm loss": 2.04662228, "grad_norm": 0.32885861, "learning_rate": 1.753e-05, "elapsed_time_per_iteration": 4.86698461, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 18s", "remaining_time": "4h 9m 3s", "loss_scale": 1.0, "consumed_samples": 2469888, "global_step/max_steps": "9648/12700"}
{"lm loss": 2.08417511, "grad_norm": 0.31763253, "learning_rate": 1.752e-05, "elapsed_time_per_iteration": 4.81523705, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 23s", "remaining_time": "4h 8m 58s", "loss_scale": 1.0, "consumed_samples": 2470144, "global_step/max_steps": "9649/12700"}
{"lm loss": 2.06783414, "grad_norm": 0.31262237, "learning_rate": 1.751e-05, "elapsed_time_per_iteration": 4.87450051, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 28s", "remaining_time": "4h 8m 53s", "loss_scale": 1.0, "consumed_samples": 2470400, "global_step/max_steps": "9650/12700"}
{"lm loss": 2.02416325, "grad_norm": 0.32665566, "learning_rate": 1.75e-05, "elapsed_time_per_iteration": 4.82852983, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 32s", "remaining_time": "4h 8m 48s", "loss_scale": 1.0, "consumed_samples": 2470656, "global_step/max_steps": "9651/12700"}
{"lm loss": 2.01000381, "grad_norm": 0.31726646, "learning_rate": 1.749e-05, "elapsed_time_per_iteration": 4.9314208, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 37s", "remaining_time": "4h 8m 43s", "loss_scale": 1.0, "consumed_samples": 2470912, "global_step/max_steps": "9652/12700"}
{"lm loss": 2.02602005, "grad_norm": 0.32167798, "learning_rate": 1.748e-05, "elapsed_time_per_iteration": 4.88379955, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 42s", "remaining_time": "4h 8m 38s", "loss_scale": 1.0, "consumed_samples": 2471168, "global_step/max_steps": "9653/12700"}
{"lm loss": 2.03967929, "grad_norm": 0.32111999, "learning_rate": 1.747e-05, "elapsed_time_per_iteration": 5.04832745, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 47s", "remaining_time": "4h 8m 33s", "loss_scale": 1.0, "consumed_samples": 2471424, "global_step/max_steps": "9654/12700"}
{"lm loss": 2.08087873, "grad_norm": 0.32617375, "learning_rate": 1.746e-05, "elapsed_time_per_iteration": 4.96781182, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 52s", "remaining_time": "4h 8m 28s", "loss_scale": 1.0, "consumed_samples": 2471680, "global_step/max_steps": "9655/12700"}
{"lm loss": 2.06812406, "grad_norm": 0.33029598, "learning_rate": 1.745e-05, "elapsed_time_per_iteration": 4.94291115, "memory(GiB)": 28.98, "elapsed_time": "13h 7m 57s", "remaining_time": "4h 8m 24s", "loss_scale": 1.0, "consumed_samples": 2471936, "global_step/max_steps": "9656/12700"}
{"lm loss": 2.03678346, "grad_norm": 0.32108825, "learning_rate": 1.745e-05, "elapsed_time_per_iteration": 4.8760078, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 2s", "remaining_time": "4h 8m 19s", "loss_scale": 1.0, "consumed_samples": 2472192, "global_step/max_steps": "9657/12700"}
{"lm loss": 2.05790997, "grad_norm": 0.32439598, "learning_rate": 1.744e-05, "elapsed_time_per_iteration": 4.95745897, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 7s", "remaining_time": "4h 8m 14s", "loss_scale": 1.0, "consumed_samples": 2472448, "global_step/max_steps": "9658/12700"}
{"lm loss": 2.06796598, "grad_norm": 0.33379227, "learning_rate": 1.743e-05, "elapsed_time_per_iteration": 4.95127201, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 12s", "remaining_time": "4h 8m 9s", "loss_scale": 1.0, "consumed_samples": 2472704, "global_step/max_steps": "9659/12700"}
{"lm loss": 2.05423021, "grad_norm": 0.33716589, "learning_rate": 1.742e-05, "elapsed_time_per_iteration": 4.95766544, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 17s", "remaining_time": "4h 8m 4s", "loss_scale": 1.0, "consumed_samples": 2472960, "global_step/max_steps": "9660/12700"}
{"lm loss": 2.04568195, "grad_norm": 0.31759024, "learning_rate": 1.741e-05, "elapsed_time_per_iteration": 4.93281937, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 22s", "remaining_time": "4h 7m 59s", "loss_scale": 1.0, "consumed_samples": 2473216, "global_step/max_steps": "9661/12700"}
{"lm loss": 2.07656026, "grad_norm": 0.31253782, "learning_rate": 1.74e-05, "elapsed_time_per_iteration": 4.8986125, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 27s", "remaining_time": "4h 7m 54s", "loss_scale": 1.0, "consumed_samples": 2473472, "global_step/max_steps": "9662/12700"}
{"lm loss": 2.02315664, "grad_norm": 0.33897072, "learning_rate": 1.739e-05, "elapsed_time_per_iteration": 4.89211035, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 32s", "remaining_time": "4h 7m 49s", "loss_scale": 1.0, "consumed_samples": 2473728, "global_step/max_steps": "9663/12700"}
{"lm loss": 2.04927087, "grad_norm": 0.32835671, "learning_rate": 1.738e-05, "elapsed_time_per_iteration": 4.97402596, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 37s", "remaining_time": "4h 7m 44s", "loss_scale": 1.0, "consumed_samples": 2473984, "global_step/max_steps": "9664/12700"}
{"lm loss": 2.04874563, "grad_norm": 0.32358411, "learning_rate": 1.737e-05, "elapsed_time_per_iteration": 4.9270978, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 42s", "remaining_time": "4h 7m 40s", "loss_scale": 1.0, "consumed_samples": 2474240, "global_step/max_steps": "9665/12700"}
{"lm loss": 2.04686809, "grad_norm": 0.32408148, "learning_rate": 1.736e-05, "elapsed_time_per_iteration": 4.92775869, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 46s", "remaining_time": "4h 7m 35s", "loss_scale": 1.0, "consumed_samples": 2474496, "global_step/max_steps": "9666/12700"}
{"lm loss": 2.08251071, "grad_norm": 0.32228693, "learning_rate": 1.736e-05, "elapsed_time_per_iteration": 4.90810037, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 51s", "remaining_time": "4h 7m 30s", "loss_scale": 1.0, "consumed_samples": 2474752, "global_step/max_steps": "9667/12700"}
{"lm loss": 2.08382154, "grad_norm": 0.32290021, "learning_rate": 1.735e-05, "elapsed_time_per_iteration": 4.85695863, "memory(GiB)": 28.98, "elapsed_time": "13h 8m 56s", "remaining_time": "4h 7m 25s", "loss_scale": 1.0, "consumed_samples": 2475008, "global_step/max_steps": "9668/12700"}
{"lm loss": 2.0668385, "grad_norm": 0.33018062, "learning_rate": 1.734e-05, "elapsed_time_per_iteration": 4.8411212, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 1s", "remaining_time": "4h 7m 20s", "loss_scale": 1.0, "consumed_samples": 2475264, "global_step/max_steps": "9669/12700"}
{"lm loss": 2.06545782, "grad_norm": 0.32906815, "learning_rate": 1.733e-05, "elapsed_time_per_iteration": 4.96958995, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 6s", "remaining_time": "4h 7m 15s", "loss_scale": 1.0, "consumed_samples": 2475520, "global_step/max_steps": "9670/12700"}
{"lm loss": 2.04573894, "grad_norm": 0.32793698, "learning_rate": 1.732e-05, "elapsed_time_per_iteration": 4.85254216, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 11s", "remaining_time": "4h 7m 10s", "loss_scale": 1.0, "consumed_samples": 2475776, "global_step/max_steps": "9671/12700"}
{"lm loss": 2.11413813, "grad_norm": 0.33259237, "learning_rate": 1.731e-05, "elapsed_time_per_iteration": 4.87343478, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 16s", "remaining_time": "4h 7m 5s", "loss_scale": 1.0, "consumed_samples": 2476032, "global_step/max_steps": "9672/12700"}
{"lm loss": 2.07127905, "grad_norm": 0.31635049, "learning_rate": 1.73e-05, "elapsed_time_per_iteration": 4.85616446, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 21s", "remaining_time": "4h 7m 0s", "loss_scale": 1.0, "consumed_samples": 2476288, "global_step/max_steps": "9673/12700"}
{"lm loss": 2.02649307, "grad_norm": 0.30660278, "learning_rate": 1.729e-05, "elapsed_time_per_iteration": 4.87921524, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 26s", "remaining_time": "4h 6m 55s", "loss_scale": 1.0, "consumed_samples": 2476544, "global_step/max_steps": "9674/12700"}
{"lm loss": 2.05865979, "grad_norm": 0.32383659, "learning_rate": 1.728e-05, "elapsed_time_per_iteration": 4.80745482, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 30s", "remaining_time": "4h 6m 51s", "loss_scale": 1.0, "consumed_samples": 2476800, "global_step/max_steps": "9675/12700"}
{"lm loss": 2.06002188, "grad_norm": 0.3189342, "learning_rate": 1.727e-05, "elapsed_time_per_iteration": 4.87972903, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 35s", "remaining_time": "4h 6m 46s", "loss_scale": 1.0, "consumed_samples": 2477056, "global_step/max_steps": "9676/12700"}
{"lm loss": 2.07241368, "grad_norm": 0.34001508, "learning_rate": 1.727e-05, "elapsed_time_per_iteration": 4.8362937, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 40s", "remaining_time": "4h 6m 41s", "loss_scale": 1.0, "consumed_samples": 2477312, "global_step/max_steps": "9677/12700"}
{"lm loss": 2.05666804, "grad_norm": 0.33336899, "learning_rate": 1.726e-05, "elapsed_time_per_iteration": 4.99363899, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 45s", "remaining_time": "4h 6m 36s", "loss_scale": 1.0, "consumed_samples": 2477568, "global_step/max_steps": "9678/12700"}
{"lm loss": 2.03507471, "grad_norm": 0.3556304, "learning_rate": 1.725e-05, "elapsed_time_per_iteration": 4.83629203, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 50s", "remaining_time": "4h 6m 31s", "loss_scale": 1.0, "consumed_samples": 2477824, "global_step/max_steps": "9679/12700"}
{"lm loss": 2.06328034, "grad_norm": 0.32905865, "learning_rate": 1.724e-05, "elapsed_time_per_iteration": 4.83339167, "memory(GiB)": 28.98, "elapsed_time": "13h 9m 55s", "remaining_time": "4h 6m 26s", "loss_scale": 1.0, "consumed_samples": 2478080, "global_step/max_steps": "9680/12700"}
{"lm loss": 2.0656383, "grad_norm": 0.31473851, "learning_rate": 1.723e-05, "elapsed_time_per_iteration": 4.86066341, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 0s", "remaining_time": "4h 6m 21s", "loss_scale": 1.0, "consumed_samples": 2478336, "global_step/max_steps": "9681/12700"}
{"lm loss": 2.05390239, "grad_norm": 0.32048121, "learning_rate": 1.722e-05, "elapsed_time_per_iteration": 4.85541177, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 4s", "remaining_time": "4h 6m 16s", "loss_scale": 1.0, "consumed_samples": 2478592, "global_step/max_steps": "9682/12700"}
{"lm loss": 2.07993817, "grad_norm": 0.32837439, "learning_rate": 1.721e-05, "elapsed_time_per_iteration": 4.97315812, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 9s", "remaining_time": "4h 6m 11s", "loss_scale": 1.0, "consumed_samples": 2478848, "global_step/max_steps": "9683/12700"}
{"lm loss": 2.03764391, "grad_norm": 0.34234029, "learning_rate": 1.72e-05, "elapsed_time_per_iteration": 4.87860107, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 14s", "remaining_time": "4h 6m 6s", "loss_scale": 1.0, "consumed_samples": 2479104, "global_step/max_steps": "9684/12700"}
{"lm loss": 2.06569576, "grad_norm": 0.36865973, "learning_rate": 1.719e-05, "elapsed_time_per_iteration": 4.85459304, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 19s", "remaining_time": "4h 6m 2s", "loss_scale": 1.0, "consumed_samples": 2479360, "global_step/max_steps": "9685/12700"}
{"lm loss": 2.05076504, "grad_norm": 0.33332261, "learning_rate": 1.719e-05, "elapsed_time_per_iteration": 4.76574659, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 24s", "remaining_time": "4h 5m 57s", "loss_scale": 1.0, "consumed_samples": 2479616, "global_step/max_steps": "9686/12700"}
{"lm loss": 2.05440927, "grad_norm": 0.34747913, "learning_rate": 1.718e-05, "elapsed_time_per_iteration": 4.93640089, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 29s", "remaining_time": "4h 5m 52s", "loss_scale": 1.0, "consumed_samples": 2479872, "global_step/max_steps": "9687/12700"}
{"lm loss": 2.05094147, "grad_norm": 0.34183806, "learning_rate": 1.717e-05, "elapsed_time_per_iteration": 4.87236261, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 34s", "remaining_time": "4h 5m 47s", "loss_scale": 1.0, "consumed_samples": 2480128, "global_step/max_steps": "9688/12700"}
{"lm loss": 2.061517, "grad_norm": 0.3406398, "learning_rate": 1.716e-05, "elapsed_time_per_iteration": 4.9894371, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 39s", "remaining_time": "4h 5m 42s", "loss_scale": 1.0, "consumed_samples": 2480384, "global_step/max_steps": "9689/12700"}
{"lm loss": 2.0679636, "grad_norm": 0.35980377, "learning_rate": 1.715e-05, "elapsed_time_per_iteration": 4.86583638, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 44s", "remaining_time": "4h 5m 37s", "loss_scale": 1.0, "consumed_samples": 2480640, "global_step/max_steps": "9690/12700"}
{"lm loss": 2.02550101, "grad_norm": 0.35776088, "learning_rate": 1.714e-05, "elapsed_time_per_iteration": 4.79599953, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 48s", "remaining_time": "4h 5m 32s", "loss_scale": 1.0, "consumed_samples": 2480896, "global_step/max_steps": "9691/12700"}
{"lm loss": 2.05718064, "grad_norm": 0.3259483, "learning_rate": 1.713e-05, "elapsed_time_per_iteration": 4.99621248, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 53s", "remaining_time": "4h 5m 27s", "loss_scale": 1.0, "consumed_samples": 2481152, "global_step/max_steps": "9692/12700"}
{"lm loss": 2.06664801, "grad_norm": 0.37436363, "learning_rate": 1.712e-05, "elapsed_time_per_iteration": 4.85046601, "memory(GiB)": 28.98, "elapsed_time": "13h 10m 58s", "remaining_time": "4h 5m 22s", "loss_scale": 1.0, "consumed_samples": 2481408, "global_step/max_steps": "9693/12700"}
{"lm loss": 2.06763148, "grad_norm": 0.35046932, "learning_rate": 1.711e-05, "elapsed_time_per_iteration": 4.90083742, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 3s", "remaining_time": "4h 5m 17s", "loss_scale": 1.0, "consumed_samples": 2481664, "global_step/max_steps": "9694/12700"}
{"lm loss": 2.06262755, "grad_norm": 0.33598539, "learning_rate": 1.711e-05, "elapsed_time_per_iteration": 4.98998094, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 8s", "remaining_time": "4h 5m 13s", "loss_scale": 1.0, "consumed_samples": 2481920, "global_step/max_steps": "9695/12700"}
{"lm loss": 2.07874608, "grad_norm": 0.39757305, "learning_rate": 1.71e-05, "elapsed_time_per_iteration": 5.06613255, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 13s", "remaining_time": "4h 5m 8s", "loss_scale": 1.0, "consumed_samples": 2482176, "global_step/max_steps": "9696/12700"}
{"lm loss": 2.08210993, "grad_norm": 0.327831, "learning_rate": 1.709e-05, "elapsed_time_per_iteration": 4.86742687, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 18s", "remaining_time": "4h 5m 3s", "loss_scale": 1.0, "consumed_samples": 2482432, "global_step/max_steps": "9697/12700"}
{"lm loss": 2.03795147, "grad_norm": 0.35162678, "learning_rate": 1.708e-05, "elapsed_time_per_iteration": 4.84519339, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 23s", "remaining_time": "4h 4m 58s", "loss_scale": 1.0, "consumed_samples": 2482688, "global_step/max_steps": "9698/12700"}
{"lm loss": 2.077425, "grad_norm": 0.34316537, "learning_rate": 1.707e-05, "elapsed_time_per_iteration": 4.88340974, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 28s", "remaining_time": "4h 4m 53s", "loss_scale": 1.0, "consumed_samples": 2482944, "global_step/max_steps": "9699/12700"}
{"lm loss": 2.04748869, "grad_norm": 0.33396593, "learning_rate": 1.706e-05, "elapsed_time_per_iteration": 4.93400311, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 33s", "remaining_time": "4h 4m 48s", "loss_scale": 1.0, "consumed_samples": 2483200, "global_step/max_steps": "9700/12700"}
{"lm loss": 2.05386305, "grad_norm": 0.35775366, "learning_rate": 1.705e-05, "elapsed_time_per_iteration": 4.84280014, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 38s", "remaining_time": "4h 4m 43s", "loss_scale": 1.0, "consumed_samples": 2483456, "global_step/max_steps": "9701/12700"}
{"lm loss": 2.03590584, "grad_norm": 0.32774937, "learning_rate": 1.704e-05, "elapsed_time_per_iteration": 4.91912913, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 42s", "remaining_time": "4h 4m 38s", "loss_scale": 1.0, "consumed_samples": 2483712, "global_step/max_steps": "9702/12700"}
{"lm loss": 2.03373265, "grad_norm": 0.32912385, "learning_rate": 1.703e-05, "elapsed_time_per_iteration": 4.98877382, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 47s", "remaining_time": "4h 4m 33s", "loss_scale": 1.0, "consumed_samples": 2483968, "global_step/max_steps": "9703/12700"}
{"lm loss": 2.08347154, "grad_norm": 0.3386384, "learning_rate": 1.702e-05, "elapsed_time_per_iteration": 4.89063931, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 52s", "remaining_time": "4h 4m 29s", "loss_scale": 1.0, "consumed_samples": 2484224, "global_step/max_steps": "9704/12700"}
{"lm loss": 2.05903769, "grad_norm": 0.34097064, "learning_rate": 1.702e-05, "elapsed_time_per_iteration": 4.84066653, "memory(GiB)": 28.98, "elapsed_time": "13h 11m 57s", "remaining_time": "4h 4m 24s", "loss_scale": 1.0, "consumed_samples": 2484480, "global_step/max_steps": "9705/12700"}
{"lm loss": 2.07995629, "grad_norm": 0.32980952, "learning_rate": 1.701e-05, "elapsed_time_per_iteration": 4.83373332, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 2s", "remaining_time": "4h 4m 19s", "loss_scale": 1.0, "consumed_samples": 2484736, "global_step/max_steps": "9706/12700"}
{"lm loss": 2.06592441, "grad_norm": 0.31958446, "learning_rate": 1.7e-05, "elapsed_time_per_iteration": 4.89029098, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 7s", "remaining_time": "4h 4m 14s", "loss_scale": 1.0, "consumed_samples": 2484992, "global_step/max_steps": "9707/12700"}
{"lm loss": 2.02543855, "grad_norm": 0.32695326, "learning_rate": 1.699e-05, "elapsed_time_per_iteration": 4.8777771, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 12s", "remaining_time": "4h 4m 9s", "loss_scale": 1.0, "consumed_samples": 2485248, "global_step/max_steps": "9708/12700"}
{"lm loss": 2.05953383, "grad_norm": 0.33834159, "learning_rate": 1.698e-05, "elapsed_time_per_iteration": 4.8817637, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 17s", "remaining_time": "4h 4m 4s", "loss_scale": 1.0, "consumed_samples": 2485504, "global_step/max_steps": "9709/12700"}
{"lm loss": 2.04020381, "grad_norm": 0.33052269, "learning_rate": 1.697e-05, "elapsed_time_per_iteration": 4.83790016, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 21s", "remaining_time": "4h 3m 59s", "loss_scale": 1.0, "consumed_samples": 2485760, "global_step/max_steps": "9710/12700"}
{"lm loss": 2.04885674, "grad_norm": 0.31605774, "learning_rate": 1.696e-05, "elapsed_time_per_iteration": 4.76609397, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 26s", "remaining_time": "4h 3m 54s", "loss_scale": 1.0, "consumed_samples": 2486016, "global_step/max_steps": "9711/12700"}
{"lm loss": 2.06046772, "grad_norm": 0.33128735, "learning_rate": 1.695e-05, "elapsed_time_per_iteration": 4.8105731, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 31s", "remaining_time": "4h 3m 49s", "loss_scale": 1.0, "consumed_samples": 2486272, "global_step/max_steps": "9712/12700"}
{"lm loss": 2.05345678, "grad_norm": 0.32966405, "learning_rate": 1.695e-05, "elapsed_time_per_iteration": 4.9018991, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 36s", "remaining_time": "4h 3m 44s", "loss_scale": 1.0, "consumed_samples": 2486528, "global_step/max_steps": "9713/12700"}
{"lm loss": 2.08281517, "grad_norm": 0.33762634, "learning_rate": 1.694e-05, "elapsed_time_per_iteration": 4.97134352, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 41s", "remaining_time": "4h 3m 39s", "loss_scale": 1.0, "consumed_samples": 2486784, "global_step/max_steps": "9714/12700"}
{"lm loss": 2.07776809, "grad_norm": 0.3496899, "learning_rate": 1.693e-05, "elapsed_time_per_iteration": 4.85185862, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 46s", "remaining_time": "4h 3m 35s", "loss_scale": 1.0, "consumed_samples": 2487040, "global_step/max_steps": "9715/12700"}
{"lm loss": 2.04607415, "grad_norm": 0.33231285, "learning_rate": 1.692e-05, "elapsed_time_per_iteration": 4.98298717, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 51s", "remaining_time": "4h 3m 30s", "loss_scale": 1.0, "consumed_samples": 2487296, "global_step/max_steps": "9716/12700"}
{"lm loss": 2.04897022, "grad_norm": 0.34640253, "learning_rate": 1.691e-05, "elapsed_time_per_iteration": 5.04090905, "memory(GiB)": 28.98, "elapsed_time": "13h 12m 56s", "remaining_time": "4h 3m 25s", "loss_scale": 1.0, "consumed_samples": 2487552, "global_step/max_steps": "9717/12700"}
{"lm loss": 2.04313993, "grad_norm": 0.35155836, "learning_rate": 1.69e-05, "elapsed_time_per_iteration": 4.83315372, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 1s", "remaining_time": "4h 3m 20s", "loss_scale": 1.0, "consumed_samples": 2487808, "global_step/max_steps": "9718/12700"}
{"lm loss": 2.0437057, "grad_norm": 0.34840038, "learning_rate": 1.689e-05, "elapsed_time_per_iteration": 4.84273791, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 5s", "remaining_time": "4h 3m 15s", "loss_scale": 1.0, "consumed_samples": 2488064, "global_step/max_steps": "9719/12700"}
{"lm loss": 2.05941749, "grad_norm": 0.33839738, "learning_rate": 1.688e-05, "elapsed_time_per_iteration": 4.87758541, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 10s", "remaining_time": "4h 3m 10s", "loss_scale": 1.0, "consumed_samples": 2488320, "global_step/max_steps": "9720/12700"}
{"lm loss": 2.02207994, "grad_norm": 0.34832826, "learning_rate": 1.687e-05, "elapsed_time_per_iteration": 4.89361048, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 15s", "remaining_time": "4h 3m 5s", "loss_scale": 1.0, "consumed_samples": 2488576, "global_step/max_steps": "9721/12700"}
{"lm loss": 2.07533145, "grad_norm": 0.34291109, "learning_rate": 1.687e-05, "elapsed_time_per_iteration": 4.96792269, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 20s", "remaining_time": "4h 3m 0s", "loss_scale": 1.0, "consumed_samples": 2488832, "global_step/max_steps": "9722/12700"}
{"lm loss": 2.08023643, "grad_norm": 0.35925028, "learning_rate": 1.686e-05, "elapsed_time_per_iteration": 4.8607564, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 25s", "remaining_time": "4h 2m 55s", "loss_scale": 1.0, "consumed_samples": 2489088, "global_step/max_steps": "9723/12700"}
{"lm loss": 2.08399248, "grad_norm": 0.33972526, "learning_rate": 1.685e-05, "elapsed_time_per_iteration": 4.85904598, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 30s", "remaining_time": "4h 2m 51s", "loss_scale": 1.0, "consumed_samples": 2489344, "global_step/max_steps": "9724/12700"}
{"lm loss": 2.05544615, "grad_norm": 0.35747021, "learning_rate": 1.684e-05, "elapsed_time_per_iteration": 4.93044806, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 35s", "remaining_time": "4h 2m 46s", "loss_scale": 1.0, "consumed_samples": 2489600, "global_step/max_steps": "9725/12700"}
{"lm loss": 2.05715752, "grad_norm": 0.34774619, "learning_rate": 1.683e-05, "elapsed_time_per_iteration": 4.8451786, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 40s", "remaining_time": "4h 2m 41s", "loss_scale": 1.0, "consumed_samples": 2489856, "global_step/max_steps": "9726/12700"}
{"lm loss": 2.06223869, "grad_norm": 0.33580875, "learning_rate": 1.682e-05, "elapsed_time_per_iteration": 4.91498971, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 45s", "remaining_time": "4h 2m 36s", "loss_scale": 1.0, "consumed_samples": 2490112, "global_step/max_steps": "9727/12700"}
{"lm loss": 2.05729175, "grad_norm": 0.3662467, "learning_rate": 1.681e-05, "elapsed_time_per_iteration": 4.84197044, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 49s", "remaining_time": "4h 2m 31s", "loss_scale": 1.0, "consumed_samples": 2490368, "global_step/max_steps": "9728/12700"}
{"lm loss": 2.0498755, "grad_norm": 0.34779322, "learning_rate": 1.68e-05, "elapsed_time_per_iteration": 4.9031229, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 54s", "remaining_time": "4h 2m 26s", "loss_scale": 1.0, "consumed_samples": 2490624, "global_step/max_steps": "9729/12700"}
{"lm loss": 2.03332472, "grad_norm": 0.33664775, "learning_rate": 1.679e-05, "elapsed_time_per_iteration": 4.85154271, "memory(GiB)": 28.98, "elapsed_time": "13h 13m 59s", "remaining_time": "4h 2m 21s", "loss_scale": 1.0, "consumed_samples": 2490880, "global_step/max_steps": "9730/12700"}
{"lm loss": 2.06211305, "grad_norm": 0.34793037, "learning_rate": 1.679e-05, "elapsed_time_per_iteration": 5.03489256, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 4s", "remaining_time": "4h 2m 16s", "loss_scale": 1.0, "consumed_samples": 2491136, "global_step/max_steps": "9731/12700"}
{"lm loss": 2.07096028, "grad_norm": 0.3429096, "learning_rate": 1.678e-05, "elapsed_time_per_iteration": 4.93280196, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 9s", "remaining_time": "4h 2m 11s", "loss_scale": 1.0, "consumed_samples": 2491392, "global_step/max_steps": "9732/12700"}
{"lm loss": 2.05031562, "grad_norm": 0.3625986, "learning_rate": 1.677e-05, "elapsed_time_per_iteration": 5.02472377, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 14s", "remaining_time": "4h 2m 7s", "loss_scale": 1.0, "consumed_samples": 2491648, "global_step/max_steps": "9733/12700"}
{"lm loss": 2.04356813, "grad_norm": 0.3594712, "learning_rate": 1.676e-05, "elapsed_time_per_iteration": 4.93928218, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 19s", "remaining_time": "4h 2m 2s", "loss_scale": 1.0, "consumed_samples": 2491904, "global_step/max_steps": "9734/12700"}
{"lm loss": 2.0619247, "grad_norm": 0.32471955, "learning_rate": 1.675e-05, "elapsed_time_per_iteration": 4.92024112, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 24s", "remaining_time": "4h 1m 57s", "loss_scale": 1.0, "consumed_samples": 2492160, "global_step/max_steps": "9735/12700"}
{"lm loss": 2.05216551, "grad_norm": 0.3247565, "learning_rate": 1.674e-05, "elapsed_time_per_iteration": 4.85886526, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 29s", "remaining_time": "4h 1m 52s", "loss_scale": 1.0, "consumed_samples": 2492416, "global_step/max_steps": "9736/12700"}
{"lm loss": 2.02168489, "grad_norm": 0.34415254, "learning_rate": 1.673e-05, "elapsed_time_per_iteration": 4.85683656, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 34s", "remaining_time": "4h 1m 47s", "loss_scale": 1.0, "consumed_samples": 2492672, "global_step/max_steps": "9737/12700"}
{"lm loss": 2.0151906, "grad_norm": 0.35047403, "learning_rate": 1.672e-05, "elapsed_time_per_iteration": 4.86500502, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 39s", "remaining_time": "4h 1m 42s", "loss_scale": 1.0, "consumed_samples": 2492928, "global_step/max_steps": "9738/12700"}
{"lm loss": 2.08365631, "grad_norm": 0.32422984, "learning_rate": 1.672e-05, "elapsed_time_per_iteration": 4.839288, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 44s", "remaining_time": "4h 1m 37s", "loss_scale": 1.0, "consumed_samples": 2493184, "global_step/max_steps": "9739/12700"}
{"lm loss": 2.08236599, "grad_norm": 0.34455732, "learning_rate": 1.671e-05, "elapsed_time_per_iteration": 4.8369236, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 48s", "remaining_time": "4h 1m 32s", "loss_scale": 1.0, "consumed_samples": 2493440, "global_step/max_steps": "9740/12700"}
{"lm loss": 2.05463028, "grad_norm": 0.33809069, "learning_rate": 1.67e-05, "elapsed_time_per_iteration": 4.85855556, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 53s", "remaining_time": "4h 1m 27s", "loss_scale": 1.0, "consumed_samples": 2493696, "global_step/max_steps": "9741/12700"}
{"lm loss": 2.04833817, "grad_norm": 0.35113445, "learning_rate": 1.669e-05, "elapsed_time_per_iteration": 4.92890382, "memory(GiB)": 28.98, "elapsed_time": "13h 14m 58s", "remaining_time": "4h 1m 22s", "loss_scale": 1.0, "consumed_samples": 2493952, "global_step/max_steps": "9742/12700"}
{"lm loss": 2.02573442, "grad_norm": 0.33486643, "learning_rate": 1.668e-05, "elapsed_time_per_iteration": 4.96875834, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 3s", "remaining_time": "4h 1m 18s", "loss_scale": 1.0, "consumed_samples": 2494208, "global_step/max_steps": "9743/12700"}
{"lm loss": 2.03480124, "grad_norm": 0.33465305, "learning_rate": 1.667e-05, "elapsed_time_per_iteration": 4.90526319, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 8s", "remaining_time": "4h 1m 13s", "loss_scale": 1.0, "consumed_samples": 2494464, "global_step/max_steps": "9744/12700"}
{"lm loss": 2.04908419, "grad_norm": 0.37078688, "learning_rate": 1.666e-05, "elapsed_time_per_iteration": 4.90785336, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 13s", "remaining_time": "4h 1m 8s", "loss_scale": 1.0, "consumed_samples": 2494720, "global_step/max_steps": "9745/12700"}
{"lm loss": 2.10298204, "grad_norm": 0.34539172, "learning_rate": 1.665e-05, "elapsed_time_per_iteration": 4.93366289, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 18s", "remaining_time": "4h 1m 3s", "loss_scale": 1.0, "consumed_samples": 2494976, "global_step/max_steps": "9746/12700"}
{"lm loss": 2.05552483, "grad_norm": 0.33449769, "learning_rate": 1.665e-05, "elapsed_time_per_iteration": 4.82012773, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 23s", "remaining_time": "4h 0m 58s", "loss_scale": 1.0, "consumed_samples": 2495232, "global_step/max_steps": "9747/12700"}
{"lm loss": 2.03259349, "grad_norm": 0.33440641, "learning_rate": 1.664e-05, "elapsed_time_per_iteration": 4.79857326, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 27s", "remaining_time": "4h 0m 53s", "loss_scale": 1.0, "consumed_samples": 2495488, "global_step/max_steps": "9748/12700"}
{"lm loss": 2.03248453, "grad_norm": 0.32763308, "learning_rate": 1.663e-05, "elapsed_time_per_iteration": 4.81843662, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 32s", "remaining_time": "4h 0m 48s", "loss_scale": 1.0, "consumed_samples": 2495744, "global_step/max_steps": "9749/12700"}
{"lm loss": 2.0716722, "grad_norm": 0.3372314, "learning_rate": 1.662e-05, "elapsed_time_per_iteration": 4.90170288, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 37s", "remaining_time": "4h 0m 43s", "loss_scale": 1.0, "consumed_samples": 2496000, "global_step/max_steps": "9750/12700"}
{"lm loss": 2.02958655, "grad_norm": 0.32398912, "learning_rate": 1.661e-05, "elapsed_time_per_iteration": 4.76772594, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 42s", "remaining_time": "4h 0m 38s", "loss_scale": 1.0, "consumed_samples": 2496256, "global_step/max_steps": "9751/12700"}
{"lm loss": 2.09194732, "grad_norm": 0.34073123, "learning_rate": 1.66e-05, "elapsed_time_per_iteration": 4.84973788, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 47s", "remaining_time": "4h 0m 33s", "loss_scale": 1.0, "consumed_samples": 2496512, "global_step/max_steps": "9752/12700"}
{"lm loss": 2.04642606, "grad_norm": 0.32589978, "learning_rate": 1.659e-05, "elapsed_time_per_iteration": 4.86583352, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 52s", "remaining_time": "4h 0m 28s", "loss_scale": 1.0, "consumed_samples": 2496768, "global_step/max_steps": "9753/12700"}
{"lm loss": 2.06142473, "grad_norm": 0.33134782, "learning_rate": 1.658e-05, "elapsed_time_per_iteration": 4.92132235, "memory(GiB)": 28.98, "elapsed_time": "13h 15m 57s", "remaining_time": "4h 0m 24s", "loss_scale": 1.0, "consumed_samples": 2497024, "global_step/max_steps": "9754/12700"}
{"lm loss": 2.08337069, "grad_norm": 0.33725458, "learning_rate": 1.658e-05, "elapsed_time_per_iteration": 4.88476181, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 1s", "remaining_time": "4h 0m 19s", "loss_scale": 1.0, "consumed_samples": 2497280, "global_step/max_steps": "9755/12700"}
{"lm loss": 2.08501172, "grad_norm": 0.33004165, "learning_rate": 1.657e-05, "elapsed_time_per_iteration": 4.95482683, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 6s", "remaining_time": "4h 0m 14s", "loss_scale": 1.0, "consumed_samples": 2497536, "global_step/max_steps": "9756/12700"}
{"lm loss": 2.09535742, "grad_norm": 0.32941997, "learning_rate": 1.656e-05, "elapsed_time_per_iteration": 4.84419584, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 11s", "remaining_time": "4h 0m 9s", "loss_scale": 1.0, "consumed_samples": 2497792, "global_step/max_steps": "9757/12700"}
{"lm loss": 2.07615066, "grad_norm": 0.34246388, "learning_rate": 1.655e-05, "elapsed_time_per_iteration": 4.88401914, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 16s", "remaining_time": "4h 0m 4s", "loss_scale": 1.0, "consumed_samples": 2498048, "global_step/max_steps": "9758/12700"}
{"lm loss": 2.09502697, "grad_norm": 0.3536917, "learning_rate": 1.654e-05, "elapsed_time_per_iteration": 4.85754108, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 21s", "remaining_time": "3h 59m 59s", "loss_scale": 1.0, "consumed_samples": 2498304, "global_step/max_steps": "9759/12700"}
{"lm loss": 2.06062317, "grad_norm": 0.33317095, "learning_rate": 1.653e-05, "elapsed_time_per_iteration": 4.93646717, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 26s", "remaining_time": "3h 59m 54s", "loss_scale": 1.0, "consumed_samples": 2498560, "global_step/max_steps": "9760/12700"}
{"lm loss": 2.08692741, "grad_norm": 0.32491311, "learning_rate": 1.652e-05, "elapsed_time_per_iteration": 4.8405025, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 31s", "remaining_time": "3h 59m 49s", "loss_scale": 1.0, "consumed_samples": 2498816, "global_step/max_steps": "9761/12700"}
{"lm loss": 2.07538128, "grad_norm": 0.33942437, "learning_rate": 1.651e-05, "elapsed_time_per_iteration": 4.87335753, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 36s", "remaining_time": "3h 59m 44s", "loss_scale": 1.0, "consumed_samples": 2499072, "global_step/max_steps": "9762/12700"}
{"lm loss": 2.06671262, "grad_norm": 0.33691573, "learning_rate": 1.65e-05, "elapsed_time_per_iteration": 4.92273045, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 41s", "remaining_time": "3h 59m 39s", "loss_scale": 1.0, "consumed_samples": 2499328, "global_step/max_steps": "9763/12700"}
{"lm loss": 2.08754301, "grad_norm": 0.37540725, "learning_rate": 1.65e-05, "elapsed_time_per_iteration": 4.90053391, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 45s", "remaining_time": "3h 59m 35s", "loss_scale": 1.0, "consumed_samples": 2499584, "global_step/max_steps": "9764/12700"}
{"lm loss": 2.07708597, "grad_norm": 0.33949015, "learning_rate": 1.649e-05, "elapsed_time_per_iteration": 4.90557981, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 50s", "remaining_time": "3h 59m 30s", "loss_scale": 1.0, "consumed_samples": 2499840, "global_step/max_steps": "9765/12700"}
{"lm loss": 2.06578875, "grad_norm": 0.3386271, "learning_rate": 1.648e-05, "elapsed_time_per_iteration": 4.90123391, "memory(GiB)": 28.98, "elapsed_time": "13h 16m 55s", "remaining_time": "3h 59m 25s", "loss_scale": 1.0, "consumed_samples": 2500096, "global_step/max_steps": "9766/12700"}
{"lm loss": 2.05729127, "grad_norm": 0.3316682, "learning_rate": 1.647e-05, "elapsed_time_per_iteration": 4.94859457, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 0s", "remaining_time": "3h 59m 20s", "loss_scale": 1.0, "consumed_samples": 2500352, "global_step/max_steps": "9767/12700"}
{"lm loss": 2.06642795, "grad_norm": 0.34435266, "learning_rate": 1.646e-05, "elapsed_time_per_iteration": 4.87648487, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 5s", "remaining_time": "3h 59m 15s", "loss_scale": 1.0, "consumed_samples": 2500608, "global_step/max_steps": "9768/12700"}
{"lm loss": 2.06974959, "grad_norm": 0.33366433, "learning_rate": 1.645e-05, "elapsed_time_per_iteration": 4.89305139, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 10s", "remaining_time": "3h 59m 10s", "loss_scale": 1.0, "consumed_samples": 2500864, "global_step/max_steps": "9769/12700"}
{"lm loss": 2.06838608, "grad_norm": 0.33660293, "learning_rate": 1.644e-05, "elapsed_time_per_iteration": 4.86755157, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 15s", "remaining_time": "3h 59m 5s", "loss_scale": 1.0, "consumed_samples": 2501120, "global_step/max_steps": "9770/12700"}
{"lm loss": 2.09502435, "grad_norm": 0.32308155, "learning_rate": 1.644e-05, "elapsed_time_per_iteration": 4.8533504, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 20s", "remaining_time": "3h 59m 0s", "loss_scale": 1.0, "consumed_samples": 2501376, "global_step/max_steps": "9771/12700"}
{"lm loss": 2.04658914, "grad_norm": 0.34126261, "learning_rate": 1.643e-05, "elapsed_time_per_iteration": 4.85161471, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 25s", "remaining_time": "3h 58m 55s", "loss_scale": 1.0, "consumed_samples": 2501632, "global_step/max_steps": "9772/12700"}
{"lm loss": 2.03834486, "grad_norm": 0.34337744, "learning_rate": 1.642e-05, "elapsed_time_per_iteration": 4.84123969, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 29s", "remaining_time": "3h 58m 50s", "loss_scale": 1.0, "consumed_samples": 2501888, "global_step/max_steps": "9773/12700"}
{"lm loss": 2.05055118, "grad_norm": 0.35253707, "learning_rate": 1.641e-05, "elapsed_time_per_iteration": 5.00122094, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 34s", "remaining_time": "3h 58m 46s", "loss_scale": 1.0, "consumed_samples": 2502144, "global_step/max_steps": "9774/12700"}
{"lm loss": 2.07891655, "grad_norm": 0.34590101, "learning_rate": 1.64e-05, "elapsed_time_per_iteration": 4.83907032, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 39s", "remaining_time": "3h 58m 41s", "loss_scale": 1.0, "consumed_samples": 2502400, "global_step/max_steps": "9775/12700"}
{"lm loss": 2.10595989, "grad_norm": 0.33040398, "learning_rate": 1.639e-05, "elapsed_time_per_iteration": 4.86205792, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 44s", "remaining_time": "3h 58m 36s", "loss_scale": 1.0, "consumed_samples": 2502656, "global_step/max_steps": "9776/12700"}
{"lm loss": 2.04800391, "grad_norm": 0.34940296, "learning_rate": 1.638e-05, "elapsed_time_per_iteration": 4.83155537, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 49s", "remaining_time": "3h 58m 31s", "loss_scale": 1.0, "consumed_samples": 2502912, "global_step/max_steps": "9777/12700"}
{"lm loss": 2.02065301, "grad_norm": 0.33512932, "learning_rate": 1.637e-05, "elapsed_time_per_iteration": 4.87301826, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 54s", "remaining_time": "3h 58m 26s", "loss_scale": 1.0, "consumed_samples": 2503168, "global_step/max_steps": "9778/12700"}
{"lm loss": 2.04677176, "grad_norm": 0.33572438, "learning_rate": 1.637e-05, "elapsed_time_per_iteration": 4.88824725, "memory(GiB)": 28.98, "elapsed_time": "13h 17m 59s", "remaining_time": "3h 58m 21s", "loss_scale": 1.0, "consumed_samples": 2503424, "global_step/max_steps": "9779/12700"}
{"lm loss": 2.05076551, "grad_norm": 0.33034778, "learning_rate": 1.636e-05, "elapsed_time_per_iteration": 4.96345401, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 4s", "remaining_time": "3h 58m 16s", "loss_scale": 1.0, "consumed_samples": 2503680, "global_step/max_steps": "9780/12700"}
{"lm loss": 2.00532699, "grad_norm": 0.33503726, "learning_rate": 1.635e-05, "elapsed_time_per_iteration": 4.85539222, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 9s", "remaining_time": "3h 58m 11s", "loss_scale": 1.0, "consumed_samples": 2503936, "global_step/max_steps": "9781/12700"}
{"lm loss": 2.0859952, "grad_norm": 0.33577168, "learning_rate": 1.634e-05, "elapsed_time_per_iteration": 4.98441815, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 14s", "remaining_time": "3h 58m 6s", "loss_scale": 1.0, "consumed_samples": 2504192, "global_step/max_steps": "9782/12700"}
{"lm loss": 2.05274773, "grad_norm": 0.31928504, "learning_rate": 1.633e-05, "elapsed_time_per_iteration": 4.95218301, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 18s", "remaining_time": "3h 58m 2s", "loss_scale": 1.0, "consumed_samples": 2504448, "global_step/max_steps": "9783/12700"}
{"lm loss": 2.07194448, "grad_norm": 0.34039238, "learning_rate": 1.632e-05, "elapsed_time_per_iteration": 4.92789078, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 23s", "remaining_time": "3h 57m 57s", "loss_scale": 1.0, "consumed_samples": 2504704, "global_step/max_steps": "9784/12700"}
{"lm loss": 2.09099531, "grad_norm": 0.3446421, "learning_rate": 1.631e-05, "elapsed_time_per_iteration": 4.87503195, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 28s", "remaining_time": "3h 57m 52s", "loss_scale": 1.0, "consumed_samples": 2504960, "global_step/max_steps": "9785/12700"}
{"lm loss": 2.0550468, "grad_norm": 0.34019446, "learning_rate": 1.63e-05, "elapsed_time_per_iteration": 4.85066891, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 33s", "remaining_time": "3h 57m 47s", "loss_scale": 1.0, "consumed_samples": 2505216, "global_step/max_steps": "9786/12700"}
{"lm loss": 2.08713174, "grad_norm": 0.34382087, "learning_rate": 1.63e-05, "elapsed_time_per_iteration": 4.84322906, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 38s", "remaining_time": "3h 57m 42s", "loss_scale": 1.0, "consumed_samples": 2505472, "global_step/max_steps": "9787/12700"}
{"lm loss": 2.01591587, "grad_norm": 0.33395681, "learning_rate": 1.629e-05, "elapsed_time_per_iteration": 4.82413363, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 43s", "remaining_time": "3h 57m 37s", "loss_scale": 1.0, "consumed_samples": 2505728, "global_step/max_steps": "9788/12700"}
{"lm loss": 2.03707719, "grad_norm": 0.32125914, "learning_rate": 1.628e-05, "elapsed_time_per_iteration": 4.92903304, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 48s", "remaining_time": "3h 57m 32s", "loss_scale": 1.0, "consumed_samples": 2505984, "global_step/max_steps": "9789/12700"}
{"lm loss": 2.05386734, "grad_norm": 0.33941501, "learning_rate": 1.627e-05, "elapsed_time_per_iteration": 4.84239006, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 53s", "remaining_time": "3h 57m 27s", "loss_scale": 1.0, "consumed_samples": 2506240, "global_step/max_steps": "9790/12700"}
{"lm loss": 2.0697701, "grad_norm": 0.34078169, "learning_rate": 1.626e-05, "elapsed_time_per_iteration": 4.88805389, "memory(GiB)": 28.98, "elapsed_time": "13h 18m 57s", "remaining_time": "3h 57m 22s", "loss_scale": 1.0, "consumed_samples": 2506496, "global_step/max_steps": "9791/12700"}
{"lm loss": 2.06896853, "grad_norm": 0.33456525, "learning_rate": 1.625e-05, "elapsed_time_per_iteration": 4.81762671, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 2s", "remaining_time": "3h 57m 17s", "loss_scale": 1.0, "consumed_samples": 2506752, "global_step/max_steps": "9792/12700"}
{"lm loss": 2.04183555, "grad_norm": 0.32587039, "learning_rate": 1.624e-05, "elapsed_time_per_iteration": 4.97410178, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 7s", "remaining_time": "3h 57m 13s", "loss_scale": 1.0, "consumed_samples": 2507008, "global_step/max_steps": "9793/12700"}
{"lm loss": 2.03590369, "grad_norm": 0.32672811, "learning_rate": 1.624e-05, "elapsed_time_per_iteration": 4.94493198, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 12s", "remaining_time": "3h 57m 8s", "loss_scale": 1.0, "consumed_samples": 2507264, "global_step/max_steps": "9794/12700"}
{"lm loss": 2.06380391, "grad_norm": 0.3212451, "learning_rate": 1.623e-05, "elapsed_time_per_iteration": 4.89263511, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 17s", "remaining_time": "3h 57m 3s", "loss_scale": 1.0, "consumed_samples": 2507520, "global_step/max_steps": "9795/12700"}
{"lm loss": 2.0551343, "grad_norm": 0.33098286, "learning_rate": 1.622e-05, "elapsed_time_per_iteration": 4.89962888, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 22s", "remaining_time": "3h 56m 58s", "loss_scale": 1.0, "consumed_samples": 2507776, "global_step/max_steps": "9796/12700"}
{"lm loss": 2.08782196, "grad_norm": 0.33388385, "learning_rate": 1.621e-05, "elapsed_time_per_iteration": 4.94501734, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 27s", "remaining_time": "3h 56m 53s", "loss_scale": 1.0, "consumed_samples": 2508032, "global_step/max_steps": "9797/12700"}
{"lm loss": 2.07039928, "grad_norm": 0.31979167, "learning_rate": 1.62e-05, "elapsed_time_per_iteration": 4.91740823, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 32s", "remaining_time": "3h 56m 48s", "loss_scale": 1.0, "consumed_samples": 2508288, "global_step/max_steps": "9798/12700"}
{"lm loss": 2.03952026, "grad_norm": 0.3341777, "learning_rate": 1.619e-05, "elapsed_time_per_iteration": 4.88994646, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 37s", "remaining_time": "3h 56m 43s", "loss_scale": 1.0, "consumed_samples": 2508544, "global_step/max_steps": "9799/12700"}
{"lm loss": 2.07648754, "grad_norm": 0.32240322, "learning_rate": 1.618e-05, "elapsed_time_per_iteration": 4.91173553, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 42s", "remaining_time": "3h 56m 38s", "loss_scale": 1.0, "consumed_samples": 2508800, "global_step/max_steps": "9800/12700"}
{"lm loss": 2.03414226, "grad_norm": 0.30789182, "learning_rate": 1.617e-05, "elapsed_time_per_iteration": 4.92364907, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 47s", "remaining_time": "3h 56m 33s", "loss_scale": 1.0, "consumed_samples": 2509056, "global_step/max_steps": "9801/12700"}
{"lm loss": 2.07330108, "grad_norm": 0.32506585, "learning_rate": 1.617e-05, "elapsed_time_per_iteration": 4.85507083, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 51s", "remaining_time": "3h 56m 29s", "loss_scale": 1.0, "consumed_samples": 2509312, "global_step/max_steps": "9802/12700"}
{"lm loss": 2.05473518, "grad_norm": 0.35092553, "learning_rate": 1.616e-05, "elapsed_time_per_iteration": 4.89659047, "memory(GiB)": 28.98, "elapsed_time": "13h 19m 56s", "remaining_time": "3h 56m 24s", "loss_scale": 1.0, "consumed_samples": 2509568, "global_step/max_steps": "9803/12700"}
{"lm loss": 2.06213808, "grad_norm": 0.32639018, "learning_rate": 1.615e-05, "elapsed_time_per_iteration": 4.88382864, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 1s", "remaining_time": "3h 56m 19s", "loss_scale": 1.0, "consumed_samples": 2509824, "global_step/max_steps": "9804/12700"}
{"lm loss": 2.03522944, "grad_norm": 0.35524735, "learning_rate": 1.614e-05, "elapsed_time_per_iteration": 4.93428588, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 6s", "remaining_time": "3h 56m 14s", "loss_scale": 1.0, "consumed_samples": 2510080, "global_step/max_steps": "9805/12700"}
{"lm loss": 2.04890537, "grad_norm": 0.33964184, "learning_rate": 1.613e-05, "elapsed_time_per_iteration": 4.92154145, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 11s", "remaining_time": "3h 56m 9s", "loss_scale": 1.0, "consumed_samples": 2510336, "global_step/max_steps": "9806/12700"}
{"lm loss": 2.06463933, "grad_norm": 0.33146665, "learning_rate": 1.612e-05, "elapsed_time_per_iteration": 4.92583203, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 16s", "remaining_time": "3h 56m 4s", "loss_scale": 1.0, "consumed_samples": 2510592, "global_step/max_steps": "9807/12700"}
{"lm loss": 2.08561635, "grad_norm": 0.31285194, "learning_rate": 1.611e-05, "elapsed_time_per_iteration": 4.86140156, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 21s", "remaining_time": "3h 55m 59s", "loss_scale": 1.0, "consumed_samples": 2510848, "global_step/max_steps": "9808/12700"}
{"lm loss": 2.06082392, "grad_norm": 0.32795948, "learning_rate": 1.611e-05, "elapsed_time_per_iteration": 5.04034019, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 26s", "remaining_time": "3h 55m 54s", "loss_scale": 1.0, "consumed_samples": 2511104, "global_step/max_steps": "9809/12700"}
{"lm loss": 2.02701426, "grad_norm": 0.33900085, "learning_rate": 1.61e-05, "elapsed_time_per_iteration": 4.81559467, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 31s", "remaining_time": "3h 55m 49s", "loss_scale": 1.0, "consumed_samples": 2511360, "global_step/max_steps": "9810/12700"}
{"lm loss": 2.04450178, "grad_norm": 0.31181774, "learning_rate": 1.609e-05, "elapsed_time_per_iteration": 4.87251091, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 36s", "remaining_time": "3h 55m 44s", "loss_scale": 1.0, "consumed_samples": 2511616, "global_step/max_steps": "9811/12700"}
{"lm loss": 2.08108115, "grad_norm": 0.34765652, "learning_rate": 1.608e-05, "elapsed_time_per_iteration": 5.04753089, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 41s", "remaining_time": "3h 55m 40s", "loss_scale": 1.0, "consumed_samples": 2511872, "global_step/max_steps": "9812/12700"}
{"lm loss": 2.0348928, "grad_norm": 0.34489426, "learning_rate": 1.607e-05, "elapsed_time_per_iteration": 4.99228334, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 46s", "remaining_time": "3h 55m 35s", "loss_scale": 1.0, "consumed_samples": 2512128, "global_step/max_steps": "9813/12700"}
{"lm loss": 2.06997347, "grad_norm": 0.33176133, "learning_rate": 1.606e-05, "elapsed_time_per_iteration": 4.83332562, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 50s", "remaining_time": "3h 55m 30s", "loss_scale": 1.0, "consumed_samples": 2512384, "global_step/max_steps": "9814/12700"}
{"lm loss": 2.04539084, "grad_norm": 0.3274205, "learning_rate": 1.605e-05, "elapsed_time_per_iteration": 4.874264, "memory(GiB)": 28.98, "elapsed_time": "13h 20m 55s", "remaining_time": "3h 55m 25s", "loss_scale": 1.0, "consumed_samples": 2512640, "global_step/max_steps": "9815/12700"}
{"lm loss": 2.05334592, "grad_norm": 0.32288435, "learning_rate": 1.604e-05, "elapsed_time_per_iteration": 4.93876553, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 0s", "remaining_time": "3h 55m 20s", "loss_scale": 1.0, "consumed_samples": 2512896, "global_step/max_steps": "9816/12700"}
{"lm loss": 2.00434756, "grad_norm": 0.33971328, "learning_rate": 1.604e-05, "elapsed_time_per_iteration": 4.82078004, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 5s", "remaining_time": "3h 55m 15s", "loss_scale": 1.0, "consumed_samples": 2513152, "global_step/max_steps": "9817/12700"}
{"lm loss": 2.0564096, "grad_norm": 0.3388561, "learning_rate": 1.603e-05, "elapsed_time_per_iteration": 4.91380596, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 10s", "remaining_time": "3h 55m 10s", "loss_scale": 1.0, "consumed_samples": 2513408, "global_step/max_steps": "9818/12700"}
{"lm loss": 2.08522344, "grad_norm": 0.34879601, "learning_rate": 1.602e-05, "elapsed_time_per_iteration": 4.93971491, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 15s", "remaining_time": "3h 55m 5s", "loss_scale": 1.0, "consumed_samples": 2513664, "global_step/max_steps": "9819/12700"}
{"lm loss": 2.05182958, "grad_norm": 0.33072713, "learning_rate": 1.601e-05, "elapsed_time_per_iteration": 4.88301325, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 20s", "remaining_time": "3h 55m 0s", "loss_scale": 1.0, "consumed_samples": 2513920, "global_step/max_steps": "9820/12700"}
{"lm loss": 2.04418969, "grad_norm": 0.35623991, "learning_rate": 1.6e-05, "elapsed_time_per_iteration": 4.82550764, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 25s", "remaining_time": "3h 54m 56s", "loss_scale": 1.0, "consumed_samples": 2514176, "global_step/max_steps": "9821/12700"}
{"lm loss": 2.08671498, "grad_norm": 0.31926212, "learning_rate": 1.599e-05, "elapsed_time_per_iteration": 4.99642515, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 30s", "remaining_time": "3h 54m 51s", "loss_scale": 1.0, "consumed_samples": 2514432, "global_step/max_steps": "9822/12700"}
{"lm loss": 2.03913617, "grad_norm": 0.32682332, "learning_rate": 1.598e-05, "elapsed_time_per_iteration": 4.86124325, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 35s", "remaining_time": "3h 54m 46s", "loss_scale": 1.0, "consumed_samples": 2514688, "global_step/max_steps": "9823/12700"}
{"lm loss": 2.06753755, "grad_norm": 0.33140489, "learning_rate": 1.598e-05, "elapsed_time_per_iteration": 4.89444351, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 39s", "remaining_time": "3h 54m 41s", "loss_scale": 1.0, "consumed_samples": 2514944, "global_step/max_steps": "9824/12700"}
{"lm loss": 2.0324676, "grad_norm": 0.3609153, "learning_rate": 1.597e-05, "elapsed_time_per_iteration": 4.84627008, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 44s", "remaining_time": "3h 54m 36s", "loss_scale": 1.0, "consumed_samples": 2515200, "global_step/max_steps": "9825/12700"}
{"lm loss": 2.05712366, "grad_norm": 0.35380444, "learning_rate": 1.596e-05, "elapsed_time_per_iteration": 4.97316742, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 49s", "remaining_time": "3h 54m 31s", "loss_scale": 1.0, "consumed_samples": 2515456, "global_step/max_steps": "9826/12700"}
{"lm loss": 2.09095263, "grad_norm": 0.34745574, "learning_rate": 1.595e-05, "elapsed_time_per_iteration": 4.87458754, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 54s", "remaining_time": "3h 54m 26s", "loss_scale": 1.0, "consumed_samples": 2515712, "global_step/max_steps": "9827/12700"}
{"lm loss": 2.04828, "grad_norm": 0.34417981, "learning_rate": 1.594e-05, "elapsed_time_per_iteration": 4.8836875, "memory(GiB)": 28.98, "elapsed_time": "13h 21m 59s", "remaining_time": "3h 54m 21s", "loss_scale": 1.0, "consumed_samples": 2515968, "global_step/max_steps": "9828/12700"}
{"lm loss": 2.11099625, "grad_norm": 0.36802834, "learning_rate": 1.593e-05, "elapsed_time_per_iteration": 4.91217589, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 4s", "remaining_time": "3h 54m 16s", "loss_scale": 1.0, "consumed_samples": 2516224, "global_step/max_steps": "9829/12700"}
{"lm loss": 2.05565, "grad_norm": 0.31587353, "learning_rate": 1.592e-05, "elapsed_time_per_iteration": 4.98678112, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 9s", "remaining_time": "3h 54m 12s", "loss_scale": 1.0, "consumed_samples": 2516480, "global_step/max_steps": "9830/12700"}
{"lm loss": 2.08182168, "grad_norm": 0.34138992, "learning_rate": 1.592e-05, "elapsed_time_per_iteration": 4.8960979, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 14s", "remaining_time": "3h 54m 7s", "loss_scale": 1.0, "consumed_samples": 2516736, "global_step/max_steps": "9831/12700"}
{"lm loss": 2.01289606, "grad_norm": 0.3455466, "learning_rate": 1.591e-05, "elapsed_time_per_iteration": 4.88173175, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 19s", "remaining_time": "3h 54m 2s", "loss_scale": 1.0, "consumed_samples": 2516992, "global_step/max_steps": "9832/12700"}
{"lm loss": 2.03265452, "grad_norm": 0.33269, "learning_rate": 1.59e-05, "elapsed_time_per_iteration": 4.92070198, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 24s", "remaining_time": "3h 53m 57s", "loss_scale": 1.0, "consumed_samples": 2517248, "global_step/max_steps": "9833/12700"}
{"lm loss": 2.02900004, "grad_norm": 0.36003432, "learning_rate": 1.589e-05, "elapsed_time_per_iteration": 4.9115417, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 28s", "remaining_time": "3h 53m 52s", "loss_scale": 1.0, "consumed_samples": 2517504, "global_step/max_steps": "9834/12700"}
{"lm loss": 2.02177334, "grad_norm": 0.34750706, "learning_rate": 1.588e-05, "elapsed_time_per_iteration": 4.88631344, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 33s", "remaining_time": "3h 53m 47s", "loss_scale": 1.0, "consumed_samples": 2517760, "global_step/max_steps": "9835/12700"}
{"lm loss": 2.05246949, "grad_norm": 0.31805637, "learning_rate": 1.587e-05, "elapsed_time_per_iteration": 4.93251491, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 38s", "remaining_time": "3h 53m 42s", "loss_scale": 1.0, "consumed_samples": 2518016, "global_step/max_steps": "9836/12700"}
{"lm loss": 2.0672183, "grad_norm": 0.32695818, "learning_rate": 1.586e-05, "elapsed_time_per_iteration": 4.87028408, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 43s", "remaining_time": "3h 53m 37s", "loss_scale": 1.0, "consumed_samples": 2518272, "global_step/max_steps": "9837/12700"}
{"lm loss": 2.07456279, "grad_norm": 0.32297507, "learning_rate": 1.586e-05, "elapsed_time_per_iteration": 4.88744831, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 48s", "remaining_time": "3h 53m 32s", "loss_scale": 1.0, "consumed_samples": 2518528, "global_step/max_steps": "9838/12700"}
{"lm loss": 2.05113459, "grad_norm": 0.34846792, "learning_rate": 1.585e-05, "elapsed_time_per_iteration": 4.87987185, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 53s", "remaining_time": "3h 53m 27s", "loss_scale": 1.0, "consumed_samples": 2518784, "global_step/max_steps": "9839/12700"}
{"lm loss": 2.08264661, "grad_norm": 0.32877046, "learning_rate": 1.584e-05, "elapsed_time_per_iteration": 5.00914788, "memory(GiB)": 28.98, "elapsed_time": "13h 22m 58s", "remaining_time": "3h 53m 23s", "loss_scale": 1.0, "consumed_samples": 2519040, "global_step/max_steps": "9840/12700"}
{"lm loss": 2.03332067, "grad_norm": 0.3342213, "learning_rate": 1.583e-05, "elapsed_time_per_iteration": 4.90787816, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 3s", "remaining_time": "3h 53m 18s", "loss_scale": 1.0, "consumed_samples": 2519296, "global_step/max_steps": "9841/12700"}
{"lm loss": 2.07269979, "grad_norm": 0.32298446, "learning_rate": 1.582e-05, "elapsed_time_per_iteration": 4.91511393, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 8s", "remaining_time": "3h 53m 13s", "loss_scale": 1.0, "consumed_samples": 2519552, "global_step/max_steps": "9842/12700"}
{"lm loss": 2.07336426, "grad_norm": 0.33502179, "learning_rate": 1.581e-05, "elapsed_time_per_iteration": 4.84547114, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 13s", "remaining_time": "3h 53m 8s", "loss_scale": 1.0, "consumed_samples": 2519808, "global_step/max_steps": "9843/12700"}
{"lm loss": 2.04971123, "grad_norm": 0.36656627, "learning_rate": 1.58e-05, "elapsed_time_per_iteration": 4.84013748, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 17s", "remaining_time": "3h 53m 3s", "loss_scale": 1.0, "consumed_samples": 2520064, "global_step/max_steps": "9844/12700"}
{"lm loss": 2.02005172, "grad_norm": 0.31860861, "learning_rate": 1.58e-05, "elapsed_time_per_iteration": 4.85070801, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 22s", "remaining_time": "3h 52m 58s", "loss_scale": 1.0, "consumed_samples": 2520320, "global_step/max_steps": "9845/12700"}
{"lm loss": 2.05503917, "grad_norm": 0.3385469, "learning_rate": 1.579e-05, "elapsed_time_per_iteration": 4.86406875, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 27s", "remaining_time": "3h 52m 53s", "loss_scale": 1.0, "consumed_samples": 2520576, "global_step/max_steps": "9846/12700"}
{"lm loss": 2.05700564, "grad_norm": 0.36216426, "learning_rate": 1.578e-05, "elapsed_time_per_iteration": 4.8600502, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 32s", "remaining_time": "3h 52m 48s", "loss_scale": 1.0, "consumed_samples": 2520832, "global_step/max_steps": "9847/12700"}
{"lm loss": 2.07360506, "grad_norm": 0.32174286, "learning_rate": 1.577e-05, "elapsed_time_per_iteration": 4.83260846, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 37s", "remaining_time": "3h 52m 43s", "loss_scale": 1.0, "consumed_samples": 2521088, "global_step/max_steps": "9848/12700"}
{"lm loss": 2.0245223, "grad_norm": 0.33318946, "learning_rate": 1.576e-05, "elapsed_time_per_iteration": 4.92219996, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 42s", "remaining_time": "3h 52m 38s", "loss_scale": 1.0, "consumed_samples": 2521344, "global_step/max_steps": "9849/12700"}
{"lm loss": 2.0393188, "grad_norm": 0.34986907, "learning_rate": 1.575e-05, "elapsed_time_per_iteration": 4.93299627, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 47s", "remaining_time": "3h 52m 34s", "loss_scale": 1.0, "consumed_samples": 2521600, "global_step/max_steps": "9850/12700"}
{"lm loss": 2.06620216, "grad_norm": 0.34955192, "learning_rate": 1.574e-05, "elapsed_time_per_iteration": 4.93091011, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 52s", "remaining_time": "3h 52m 29s", "loss_scale": 1.0, "consumed_samples": 2521856, "global_step/max_steps": "9851/12700"}
{"lm loss": 2.06009626, "grad_norm": 0.36058146, "learning_rate": 1.574e-05, "elapsed_time_per_iteration": 4.85488176, "memory(GiB)": 28.98, "elapsed_time": "13h 23m 57s", "remaining_time": "3h 52m 24s", "loss_scale": 1.0, "consumed_samples": 2522112, "global_step/max_steps": "9852/12700"}
{"lm loss": 2.02746582, "grad_norm": 0.33662453, "learning_rate": 1.573e-05, "elapsed_time_per_iteration": 4.86806107, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 1s", "remaining_time": "3h 52m 19s", "loss_scale": 1.0, "consumed_samples": 2522368, "global_step/max_steps": "9853/12700"}
{"lm loss": 2.05565691, "grad_norm": 0.31933874, "learning_rate": 1.572e-05, "elapsed_time_per_iteration": 4.85029054, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 6s", "remaining_time": "3h 52m 14s", "loss_scale": 1.0, "consumed_samples": 2522624, "global_step/max_steps": "9854/12700"}
{"lm loss": 2.06275868, "grad_norm": 0.34272322, "learning_rate": 1.571e-05, "elapsed_time_per_iteration": 4.86853576, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 11s", "remaining_time": "3h 52m 9s", "loss_scale": 1.0, "consumed_samples": 2522880, "global_step/max_steps": "9855/12700"}
{"lm loss": 2.08043385, "grad_norm": 0.33606142, "learning_rate": 1.57e-05, "elapsed_time_per_iteration": 4.80480003, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 16s", "remaining_time": "3h 52m 4s", "loss_scale": 1.0, "consumed_samples": 2523136, "global_step/max_steps": "9856/12700"}
{"lm loss": 2.04477477, "grad_norm": 0.34932482, "learning_rate": 1.569e-05, "elapsed_time_per_iteration": 4.82609582, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 21s", "remaining_time": "3h 51m 59s", "loss_scale": 1.0, "consumed_samples": 2523392, "global_step/max_steps": "9857/12700"}
{"lm loss": 2.03890204, "grad_norm": 0.34397611, "learning_rate": 1.569e-05, "elapsed_time_per_iteration": 4.79708028, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 26s", "remaining_time": "3h 51m 54s", "loss_scale": 1.0, "consumed_samples": 2523648, "global_step/max_steps": "9858/12700"}
{"lm loss": 2.05709314, "grad_norm": 0.3223303, "learning_rate": 1.568e-05, "elapsed_time_per_iteration": 4.88682294, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 30s", "remaining_time": "3h 51m 49s", "loss_scale": 1.0, "consumed_samples": 2523904, "global_step/max_steps": "9859/12700"}
{"lm loss": 2.04759741, "grad_norm": 0.33758876, "learning_rate": 1.567e-05, "elapsed_time_per_iteration": 4.80249572, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 35s", "remaining_time": "3h 51m 44s", "loss_scale": 1.0, "consumed_samples": 2524160, "global_step/max_steps": "9860/12700"}
{"lm loss": 2.0707128, "grad_norm": 0.3568249, "learning_rate": 1.566e-05, "elapsed_time_per_iteration": 4.96747398, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 40s", "remaining_time": "3h 51m 40s", "loss_scale": 1.0, "consumed_samples": 2524416, "global_step/max_steps": "9861/12700"}
{"lm loss": 2.05177641, "grad_norm": 0.34603012, "learning_rate": 1.565e-05, "elapsed_time_per_iteration": 4.87721133, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 45s", "remaining_time": "3h 51m 35s", "loss_scale": 1.0, "consumed_samples": 2524672, "global_step/max_steps": "9862/12700"}
{"lm loss": 2.02973318, "grad_norm": 0.35469997, "learning_rate": 1.564e-05, "elapsed_time_per_iteration": 4.90482759, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 50s", "remaining_time": "3h 51m 30s", "loss_scale": 1.0, "consumed_samples": 2524928, "global_step/max_steps": "9863/12700"}
{"lm loss": 2.03567052, "grad_norm": 0.33292177, "learning_rate": 1.563e-05, "elapsed_time_per_iteration": 4.84889197, "memory(GiB)": 28.98, "elapsed_time": "13h 24m 55s", "remaining_time": "3h 51m 25s", "loss_scale": 1.0, "consumed_samples": 2525184, "global_step/max_steps": "9864/12700"}
{"lm loss": 2.04468608, "grad_norm": 0.34339699, "learning_rate": 1.563e-05, "elapsed_time_per_iteration": 4.91501546, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 0s", "remaining_time": "3h 51m 20s", "loss_scale": 1.0, "consumed_samples": 2525440, "global_step/max_steps": "9865/12700"}
{"lm loss": 2.048944, "grad_norm": 0.34941489, "learning_rate": 1.562e-05, "elapsed_time_per_iteration": 4.87269521, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 5s", "remaining_time": "3h 51m 15s", "loss_scale": 1.0, "consumed_samples": 2525696, "global_step/max_steps": "9866/12700"}
{"lm loss": 2.08027482, "grad_norm": 0.33975291, "learning_rate": 1.561e-05, "elapsed_time_per_iteration": 4.7889986, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 9s", "remaining_time": "3h 51m 10s", "loss_scale": 1.0, "consumed_samples": 2525952, "global_step/max_steps": "9867/12700"}
{"lm loss": 2.00822353, "grad_norm": 0.32784972, "learning_rate": 1.56e-05, "elapsed_time_per_iteration": 4.94193149, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 14s", "remaining_time": "3h 51m 5s", "loss_scale": 1.0, "consumed_samples": 2526208, "global_step/max_steps": "9868/12700"}
{"lm loss": 2.03735304, "grad_norm": 0.3529411, "learning_rate": 1.559e-05, "elapsed_time_per_iteration": 4.87818909, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 19s", "remaining_time": "3h 51m 0s", "loss_scale": 1.0, "consumed_samples": 2526464, "global_step/max_steps": "9869/12700"}
{"lm loss": 2.0640533, "grad_norm": 0.33260107, "learning_rate": 1.558e-05, "elapsed_time_per_iteration": 5.01674247, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 24s", "remaining_time": "3h 50m 56s", "loss_scale": 1.0, "consumed_samples": 2526720, "global_step/max_steps": "9870/12700"}
{"lm loss": 2.07859302, "grad_norm": 0.33380839, "learning_rate": 1.557e-05, "elapsed_time_per_iteration": 4.88626051, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 29s", "remaining_time": "3h 50m 51s", "loss_scale": 1.0, "consumed_samples": 2526976, "global_step/max_steps": "9871/12700"}
{"lm loss": 2.0612452, "grad_norm": 0.34169629, "learning_rate": 1.557e-05, "elapsed_time_per_iteration": 4.85134077, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 34s", "remaining_time": "3h 50m 46s", "loss_scale": 1.0, "consumed_samples": 2527232, "global_step/max_steps": "9872/12700"}
{"lm loss": 2.06792307, "grad_norm": 0.31345865, "learning_rate": 1.556e-05, "elapsed_time_per_iteration": 4.87390542, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 39s", "remaining_time": "3h 50m 41s", "loss_scale": 1.0, "consumed_samples": 2527488, "global_step/max_steps": "9873/12700"}
{"lm loss": 2.04523182, "grad_norm": 0.3103449, "learning_rate": 1.555e-05, "elapsed_time_per_iteration": 4.83888841, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 44s", "remaining_time": "3h 50m 36s", "loss_scale": 1.0, "consumed_samples": 2527744, "global_step/max_steps": "9874/12700"}
{"lm loss": 2.0663476, "grad_norm": 0.32397807, "learning_rate": 1.554e-05, "elapsed_time_per_iteration": 4.89581919, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 49s", "remaining_time": "3h 50m 31s", "loss_scale": 1.0, "consumed_samples": 2528000, "global_step/max_steps": "9875/12700"}
{"lm loss": 2.05688047, "grad_norm": 0.33259115, "learning_rate": 1.553e-05, "elapsed_time_per_iteration": 4.88381815, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 53s", "remaining_time": "3h 50m 26s", "loss_scale": 1.0, "consumed_samples": 2528256, "global_step/max_steps": "9876/12700"}
{"lm loss": 2.07704997, "grad_norm": 0.34642512, "learning_rate": 1.552e-05, "elapsed_time_per_iteration": 4.77722239, "memory(GiB)": 28.98, "elapsed_time": "13h 25m 58s", "remaining_time": "3h 50m 21s", "loss_scale": 1.0, "consumed_samples": 2528512, "global_step/max_steps": "9877/12700"}
{"lm loss": 2.02974033, "grad_norm": 0.32783875, "learning_rate": 1.552e-05, "elapsed_time_per_iteration": 4.89474463, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 3s", "remaining_time": "3h 50m 16s", "loss_scale": 1.0, "consumed_samples": 2528768, "global_step/max_steps": "9878/12700"}
{"lm loss": 2.03590083, "grad_norm": 0.32295284, "learning_rate": 1.551e-05, "elapsed_time_per_iteration": 4.85811043, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 8s", "remaining_time": "3h 50m 11s", "loss_scale": 1.0, "consumed_samples": 2529024, "global_step/max_steps": "9879/12700"}
{"lm loss": 2.0793345, "grad_norm": 0.33934054, "learning_rate": 1.55e-05, "elapsed_time_per_iteration": 4.80789399, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 13s", "remaining_time": "3h 50m 6s", "loss_scale": 1.0, "consumed_samples": 2529280, "global_step/max_steps": "9880/12700"}
{"lm loss": 2.05128527, "grad_norm": 0.33288184, "learning_rate": 1.549e-05, "elapsed_time_per_iteration": 4.84090996, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 18s", "remaining_time": "3h 50m 2s", "loss_scale": 1.0, "consumed_samples": 2529536, "global_step/max_steps": "9881/12700"}
{"lm loss": 2.02935934, "grad_norm": 0.32319656, "learning_rate": 1.548e-05, "elapsed_time_per_iteration": 4.99554038, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 23s", "remaining_time": "3h 49m 57s", "loss_scale": 1.0, "consumed_samples": 2529792, "global_step/max_steps": "9882/12700"}
{"lm loss": 2.09317589, "grad_norm": 0.33687785, "learning_rate": 1.547e-05, "elapsed_time_per_iteration": 4.86607718, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 28s", "remaining_time": "3h 49m 52s", "loss_scale": 1.0, "consumed_samples": 2530048, "global_step/max_steps": "9883/12700"}
{"lm loss": 2.07867932, "grad_norm": 0.3234379, "learning_rate": 1.546e-05, "elapsed_time_per_iteration": 4.96301389, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 32s", "remaining_time": "3h 49m 47s", "loss_scale": 1.0, "consumed_samples": 2530304, "global_step/max_steps": "9884/12700"}
{"lm loss": 2.04961729, "grad_norm": 0.33060312, "learning_rate": 1.546e-05, "elapsed_time_per_iteration": 4.82916689, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 37s", "remaining_time": "3h 49m 42s", "loss_scale": 1.0, "consumed_samples": 2530560, "global_step/max_steps": "9885/12700"}
{"lm loss": 2.08538556, "grad_norm": 0.31627333, "learning_rate": 1.545e-05, "elapsed_time_per_iteration": 4.85733342, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 42s", "remaining_time": "3h 49m 37s", "loss_scale": 1.0, "consumed_samples": 2530816, "global_step/max_steps": "9886/12700"}
{"lm loss": 2.06525445, "grad_norm": 0.3417958, "learning_rate": 1.544e-05, "elapsed_time_per_iteration": 4.87519026, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 47s", "remaining_time": "3h 49m 32s", "loss_scale": 1.0, "consumed_samples": 2531072, "global_step/max_steps": "9887/12700"}
{"lm loss": 2.0640707, "grad_norm": 0.32127839, "learning_rate": 1.543e-05, "elapsed_time_per_iteration": 4.86677456, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 52s", "remaining_time": "3h 49m 27s", "loss_scale": 1.0, "consumed_samples": 2531328, "global_step/max_steps": "9888/12700"}
{"lm loss": 2.07830954, "grad_norm": 0.34261698, "learning_rate": 1.542e-05, "elapsed_time_per_iteration": 4.83232212, "memory(GiB)": 28.98, "elapsed_time": "13h 26m 57s", "remaining_time": "3h 49m 22s", "loss_scale": 1.0, "consumed_samples": 2531584, "global_step/max_steps": "9889/12700"}
{"lm loss": 2.05007577, "grad_norm": 0.32163495, "learning_rate": 1.541e-05, "elapsed_time_per_iteration": 4.87107277, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 2s", "remaining_time": "3h 49m 17s", "loss_scale": 1.0, "consumed_samples": 2531840, "global_step/max_steps": "9890/12700"}
{"lm loss": 2.02651095, "grad_norm": 0.31501204, "learning_rate": 1.541e-05, "elapsed_time_per_iteration": 4.8529923, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 6s", "remaining_time": "3h 49m 13s", "loss_scale": 1.0, "consumed_samples": 2532096, "global_step/max_steps": "9891/12700"}
{"lm loss": 2.06381369, "grad_norm": 0.34450081, "learning_rate": 1.54e-05, "elapsed_time_per_iteration": 4.83966541, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 11s", "remaining_time": "3h 49m 8s", "loss_scale": 1.0, "consumed_samples": 2532352, "global_step/max_steps": "9892/12700"}
{"lm loss": 2.05285645, "grad_norm": 0.32395282, "learning_rate": 1.539e-05, "elapsed_time_per_iteration": 4.87853885, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 16s", "remaining_time": "3h 49m 3s", "loss_scale": 1.0, "consumed_samples": 2532608, "global_step/max_steps": "9893/12700"}
{"lm loss": 2.04629827, "grad_norm": 0.37474784, "learning_rate": 1.538e-05, "elapsed_time_per_iteration": 4.87590575, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 21s", "remaining_time": "3h 48m 58s", "loss_scale": 1.0, "consumed_samples": 2532864, "global_step/max_steps": "9894/12700"}
{"lm loss": 2.07341123, "grad_norm": 0.33669922, "learning_rate": 1.537e-05, "elapsed_time_per_iteration": 4.80190015, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 26s", "remaining_time": "3h 48m 53s", "loss_scale": 1.0, "consumed_samples": 2533120, "global_step/max_steps": "9895/12700"}
{"lm loss": 2.06108904, "grad_norm": 0.31443146, "learning_rate": 1.536e-05, "elapsed_time_per_iteration": 4.93893003, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 31s", "remaining_time": "3h 48m 48s", "loss_scale": 1.0, "consumed_samples": 2533376, "global_step/max_steps": "9896/12700"}
{"lm loss": 2.07168627, "grad_norm": 0.36291593, "learning_rate": 1.535e-05, "elapsed_time_per_iteration": 4.90488553, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 36s", "remaining_time": "3h 48m 43s", "loss_scale": 1.0, "consumed_samples": 2533632, "global_step/max_steps": "9897/12700"}
{"lm loss": 2.05849004, "grad_norm": 0.3273842, "learning_rate": 1.535e-05, "elapsed_time_per_iteration": 4.7576592, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 40s", "remaining_time": "3h 48m 38s", "loss_scale": 1.0, "consumed_samples": 2533888, "global_step/max_steps": "9898/12700"}
{"lm loss": 2.04809618, "grad_norm": 0.34080452, "learning_rate": 1.534e-05, "elapsed_time_per_iteration": 4.91629624, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 45s", "remaining_time": "3h 48m 33s", "loss_scale": 1.0, "consumed_samples": 2534144, "global_step/max_steps": "9899/12700"}
{"lm loss": 2.08287215, "grad_norm": 0.33538806, "learning_rate": 1.533e-05, "elapsed_time_per_iteration": 4.90142345, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 50s", "remaining_time": "3h 48m 28s", "loss_scale": 1.0, "consumed_samples": 2534400, "global_step/max_steps": "9900/12700"}
{"lm loss": 2.04802632, "grad_norm": 0.33178028, "learning_rate": 1.532e-05, "elapsed_time_per_iteration": 4.82393932, "memory(GiB)": 28.98, "elapsed_time": "13h 27m 55s", "remaining_time": "3h 48m 23s", "loss_scale": 1.0, "consumed_samples": 2534656, "global_step/max_steps": "9901/12700"}
{"lm loss": 2.0298245, "grad_norm": 0.34839115, "learning_rate": 1.531e-05, "elapsed_time_per_iteration": 4.85955, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 0s", "remaining_time": "3h 48m 19s", "loss_scale": 1.0, "consumed_samples": 2534912, "global_step/max_steps": "9902/12700"}
{"lm loss": 2.04567146, "grad_norm": 0.35612702, "learning_rate": 1.53e-05, "elapsed_time_per_iteration": 5.06098986, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 5s", "remaining_time": "3h 48m 14s", "loss_scale": 1.0, "consumed_samples": 2535168, "global_step/max_steps": "9903/12700"}
{"lm loss": 2.04171705, "grad_norm": 0.3240335, "learning_rate": 1.53e-05, "elapsed_time_per_iteration": 4.92378354, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 10s", "remaining_time": "3h 48m 9s", "loss_scale": 1.0, "consumed_samples": 2535424, "global_step/max_steps": "9904/12700"}
{"lm loss": 2.07278037, "grad_norm": 0.36069086, "learning_rate": 1.529e-05, "elapsed_time_per_iteration": 4.92135477, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 15s", "remaining_time": "3h 48m 4s", "loss_scale": 1.0, "consumed_samples": 2535680, "global_step/max_steps": "9905/12700"}
{"lm loss": 2.0688355, "grad_norm": 0.35505095, "learning_rate": 1.528e-05, "elapsed_time_per_iteration": 4.84674358, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 20s", "remaining_time": "3h 47m 59s", "loss_scale": 1.0, "consumed_samples": 2535936, "global_step/max_steps": "9906/12700"}
{"lm loss": 2.04916692, "grad_norm": 0.31082261, "learning_rate": 1.527e-05, "elapsed_time_per_iteration": 4.88531852, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 25s", "remaining_time": "3h 47m 54s", "loss_scale": 1.0, "consumed_samples": 2536192, "global_step/max_steps": "9907/12700"}
{"lm loss": 2.06892538, "grad_norm": 0.36453199, "learning_rate": 1.526e-05, "elapsed_time_per_iteration": 4.84188724, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 29s", "remaining_time": "3h 47m 49s", "loss_scale": 1.0, "consumed_samples": 2536448, "global_step/max_steps": "9908/12700"}
{"lm loss": 2.06674218, "grad_norm": 0.31298864, "learning_rate": 1.525e-05, "elapsed_time_per_iteration": 4.90979171, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 34s", "remaining_time": "3h 47m 44s", "loss_scale": 1.0, "consumed_samples": 2536704, "global_step/max_steps": "9909/12700"}
{"lm loss": 2.04742646, "grad_norm": 0.35005409, "learning_rate": 1.525e-05, "elapsed_time_per_iteration": 4.80959535, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 39s", "remaining_time": "3h 47m 39s", "loss_scale": 1.0, "consumed_samples": 2536960, "global_step/max_steps": "9910/12700"}
{"lm loss": 2.026963, "grad_norm": 0.32738432, "learning_rate": 1.524e-05, "elapsed_time_per_iteration": 4.89669824, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 44s", "remaining_time": "3h 47m 35s", "loss_scale": 1.0, "consumed_samples": 2537216, "global_step/max_steps": "9911/12700"}
{"lm loss": 2.05700946, "grad_norm": 0.37358063, "learning_rate": 1.523e-05, "elapsed_time_per_iteration": 4.84624839, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 49s", "remaining_time": "3h 47m 30s", "loss_scale": 1.0, "consumed_samples": 2537472, "global_step/max_steps": "9912/12700"}
{"lm loss": 2.03112578, "grad_norm": 0.31592414, "learning_rate": 1.522e-05, "elapsed_time_per_iteration": 4.97379327, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 54s", "remaining_time": "3h 47m 25s", "loss_scale": 1.0, "consumed_samples": 2537728, "global_step/max_steps": "9913/12700"}
{"lm loss": 2.05631042, "grad_norm": 0.34546909, "learning_rate": 1.521e-05, "elapsed_time_per_iteration": 4.88508773, "memory(GiB)": 28.98, "elapsed_time": "13h 28m 59s", "remaining_time": "3h 47m 20s", "loss_scale": 1.0, "consumed_samples": 2537984, "global_step/max_steps": "9914/12700"}
{"lm loss": 2.00904346, "grad_norm": 0.33481559, "learning_rate": 1.52e-05, "elapsed_time_per_iteration": 4.89717531, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 4s", "remaining_time": "3h 47m 15s", "loss_scale": 1.0, "consumed_samples": 2538240, "global_step/max_steps": "9915/12700"}
{"lm loss": 2.07181048, "grad_norm": 0.3272658, "learning_rate": 1.52e-05, "elapsed_time_per_iteration": 4.88915062, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 9s", "remaining_time": "3h 47m 10s", "loss_scale": 1.0, "consumed_samples": 2538496, "global_step/max_steps": "9916/12700"}
{"lm loss": 2.05716515, "grad_norm": 0.38083854, "learning_rate": 1.519e-05, "elapsed_time_per_iteration": 4.82271147, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 13s", "remaining_time": "3h 47m 5s", "loss_scale": 1.0, "consumed_samples": 2538752, "global_step/max_steps": "9917/12700"}
{"lm loss": 2.02167892, "grad_norm": 0.32604682, "learning_rate": 1.518e-05, "elapsed_time_per_iteration": 4.91347051, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 18s", "remaining_time": "3h 47m 0s", "loss_scale": 1.0, "consumed_samples": 2539008, "global_step/max_steps": "9918/12700"}
{"lm loss": 2.07229543, "grad_norm": 0.33143005, "learning_rate": 1.517e-05, "elapsed_time_per_iteration": 4.83703923, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 23s", "remaining_time": "3h 46m 55s", "loss_scale": 1.0, "consumed_samples": 2539264, "global_step/max_steps": "9919/12700"}
{"lm loss": 2.05109715, "grad_norm": 0.31681082, "learning_rate": 1.516e-05, "elapsed_time_per_iteration": 4.9405489, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 28s", "remaining_time": "3h 46m 50s", "loss_scale": 1.0, "consumed_samples": 2539520, "global_step/max_steps": "9920/12700"}
{"lm loss": 2.05318189, "grad_norm": 0.34731716, "learning_rate": 1.515e-05, "elapsed_time_per_iteration": 4.81467104, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 33s", "remaining_time": "3h 46m 46s", "loss_scale": 1.0, "consumed_samples": 2539776, "global_step/max_steps": "9921/12700"}
{"lm loss": 2.04968166, "grad_norm": 0.31669655, "learning_rate": 1.515e-05, "elapsed_time_per_iteration": 4.8348062, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 38s", "remaining_time": "3h 46m 41s", "loss_scale": 1.0, "consumed_samples": 2540032, "global_step/max_steps": "9922/12700"}
{"lm loss": 2.07830453, "grad_norm": 0.33962187, "learning_rate": 1.514e-05, "elapsed_time_per_iteration": 4.81396508, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 43s", "remaining_time": "3h 46m 36s", "loss_scale": 1.0, "consumed_samples": 2540288, "global_step/max_steps": "9923/12700"}
{"lm loss": 2.04677272, "grad_norm": 0.3238329, "learning_rate": 1.513e-05, "elapsed_time_per_iteration": 4.77460742, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 47s", "remaining_time": "3h 46m 31s", "loss_scale": 1.0, "consumed_samples": 2540544, "global_step/max_steps": "9924/12700"}
{"lm loss": 2.0130825, "grad_norm": 0.33496931, "learning_rate": 1.512e-05, "elapsed_time_per_iteration": 4.89435005, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 52s", "remaining_time": "3h 46m 26s", "loss_scale": 1.0, "consumed_samples": 2540800, "global_step/max_steps": "9925/12700"}
{"lm loss": 2.04872537, "grad_norm": 0.33171397, "learning_rate": 1.511e-05, "elapsed_time_per_iteration": 4.85112953, "memory(GiB)": 28.98, "elapsed_time": "13h 29m 57s", "remaining_time": "3h 46m 21s", "loss_scale": 1.0, "consumed_samples": 2541056, "global_step/max_steps": "9926/12700"}
{"lm loss": 2.0465064, "grad_norm": 0.33812734, "learning_rate": 1.51e-05, "elapsed_time_per_iteration": 4.90212297, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 2s", "remaining_time": "3h 46m 16s", "loss_scale": 1.0, "consumed_samples": 2541312, "global_step/max_steps": "9927/12700"}
{"lm loss": 2.07683468, "grad_norm": 0.35108027, "learning_rate": 1.509e-05, "elapsed_time_per_iteration": 4.93580413, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 7s", "remaining_time": "3h 46m 11s", "loss_scale": 1.0, "consumed_samples": 2541568, "global_step/max_steps": "9928/12700"}
{"lm loss": 2.06009865, "grad_norm": 0.32305822, "learning_rate": 1.509e-05, "elapsed_time_per_iteration": 5.02216125, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 12s", "remaining_time": "3h 46m 6s", "loss_scale": 1.0, "consumed_samples": 2541824, "global_step/max_steps": "9929/12700"}
{"lm loss": 2.07180166, "grad_norm": 0.33160284, "learning_rate": 1.508e-05, "elapsed_time_per_iteration": 5.02947307, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 17s", "remaining_time": "3h 46m 1s", "loss_scale": 1.0, "consumed_samples": 2542080, "global_step/max_steps": "9930/12700"}
{"lm loss": 2.07155228, "grad_norm": 0.34339121, "learning_rate": 1.507e-05, "elapsed_time_per_iteration": 4.79910183, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 22s", "remaining_time": "3h 45m 57s", "loss_scale": 1.0, "consumed_samples": 2542336, "global_step/max_steps": "9931/12700"}
{"lm loss": 2.04768991, "grad_norm": 0.33593318, "learning_rate": 1.506e-05, "elapsed_time_per_iteration": 4.83266568, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 27s", "remaining_time": "3h 45m 52s", "loss_scale": 1.0, "consumed_samples": 2542592, "global_step/max_steps": "9932/12700"}
{"lm loss": 2.03539181, "grad_norm": 0.31912643, "learning_rate": 1.505e-05, "elapsed_time_per_iteration": 4.86805677, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 31s", "remaining_time": "3h 45m 47s", "loss_scale": 1.0, "consumed_samples": 2542848, "global_step/max_steps": "9933/12700"}
{"lm loss": 2.05497575, "grad_norm": 0.32200709, "learning_rate": 1.504e-05, "elapsed_time_per_iteration": 4.85650873, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 36s", "remaining_time": "3h 45m 42s", "loss_scale": 1.0, "consumed_samples": 2543104, "global_step/max_steps": "9934/12700"}
{"lm loss": 2.07085752, "grad_norm": 0.33603689, "learning_rate": 1.504e-05, "elapsed_time_per_iteration": 4.88425612, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 41s", "remaining_time": "3h 45m 37s", "loss_scale": 1.0, "consumed_samples": 2543360, "global_step/max_steps": "9935/12700"}
{"lm loss": 2.03182483, "grad_norm": 0.33281359, "learning_rate": 1.503e-05, "elapsed_time_per_iteration": 4.78285789, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 46s", "remaining_time": "3h 45m 32s", "loss_scale": 1.0, "consumed_samples": 2543616, "global_step/max_steps": "9936/12700"}
{"lm loss": 2.0334537, "grad_norm": 0.32986426, "learning_rate": 1.502e-05, "elapsed_time_per_iteration": 4.89459181, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 51s", "remaining_time": "3h 45m 27s", "loss_scale": 1.0, "consumed_samples": 2543872, "global_step/max_steps": "9937/12700"}
{"lm loss": 2.03145838, "grad_norm": 0.30484107, "learning_rate": 1.501e-05, "elapsed_time_per_iteration": 4.76238275, "memory(GiB)": 28.98, "elapsed_time": "13h 30m 56s", "remaining_time": "3h 45m 22s", "loss_scale": 1.0, "consumed_samples": 2544128, "global_step/max_steps": "9938/12700"}
{"lm loss": 2.03049064, "grad_norm": 0.32782537, "learning_rate": 1.5e-05, "elapsed_time_per_iteration": 4.81944156, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 0s", "remaining_time": "3h 45m 17s", "loss_scale": 1.0, "consumed_samples": 2544384, "global_step/max_steps": "9939/12700"}
{"lm loss": 2.03158164, "grad_norm": 0.32202673, "learning_rate": 1.5e-05, "elapsed_time_per_iteration": 4.8917954, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 5s", "remaining_time": "3h 45m 12s", "loss_scale": 1.0, "consumed_samples": 2544640, "global_step/max_steps": "9940/12700"}
{"lm loss": 2.04409122, "grad_norm": 0.31658074, "learning_rate": 1.499e-05, "elapsed_time_per_iteration": 4.94578886, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 10s", "remaining_time": "3h 45m 7s", "loss_scale": 1.0, "consumed_samples": 2544896, "global_step/max_steps": "9941/12700"}
{"lm loss": 2.06257272, "grad_norm": 0.31491786, "learning_rate": 1.498e-05, "elapsed_time_per_iteration": 4.88381243, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 15s", "remaining_time": "3h 45m 3s", "loss_scale": 1.0, "consumed_samples": 2545152, "global_step/max_steps": "9942/12700"}
{"lm loss": 2.06802011, "grad_norm": 0.33342993, "learning_rate": 1.497e-05, "elapsed_time_per_iteration": 4.77017117, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 20s", "remaining_time": "3h 44m 58s", "loss_scale": 1.0, "consumed_samples": 2545408, "global_step/max_steps": "9943/12700"}
{"lm loss": 2.03106546, "grad_norm": 0.33126161, "learning_rate": 1.496e-05, "elapsed_time_per_iteration": 4.89669156, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 25s", "remaining_time": "3h 44m 53s", "loss_scale": 1.0, "consumed_samples": 2545664, "global_step/max_steps": "9944/12700"}
{"lm loss": 2.04102635, "grad_norm": 0.32056701, "learning_rate": 1.495e-05, "elapsed_time_per_iteration": 4.94797659, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 30s", "remaining_time": "3h 44m 48s", "loss_scale": 1.0, "consumed_samples": 2545920, "global_step/max_steps": "9945/12700"}
{"lm loss": 2.05603385, "grad_norm": 0.32298997, "learning_rate": 1.495e-05, "elapsed_time_per_iteration": 5.0845232, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 35s", "remaining_time": "3h 44m 43s", "loss_scale": 1.0, "consumed_samples": 2546176, "global_step/max_steps": "9946/12700"}
{"lm loss": 2.05100775, "grad_norm": 0.31420904, "learning_rate": 1.494e-05, "elapsed_time_per_iteration": 4.91345739, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 40s", "remaining_time": "3h 44m 38s", "loss_scale": 1.0, "consumed_samples": 2546432, "global_step/max_steps": "9947/12700"}
{"lm loss": 2.04091334, "grad_norm": 0.31532341, "learning_rate": 1.493e-05, "elapsed_time_per_iteration": 4.91639519, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 45s", "remaining_time": "3h 44m 33s", "loss_scale": 1.0, "consumed_samples": 2546688, "global_step/max_steps": "9948/12700"}
{"lm loss": 2.03277564, "grad_norm": 0.33604366, "learning_rate": 1.492e-05, "elapsed_time_per_iteration": 4.88183522, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 50s", "remaining_time": "3h 44m 28s", "loss_scale": 1.0, "consumed_samples": 2546944, "global_step/max_steps": "9949/12700"}
{"lm loss": 2.03226066, "grad_norm": 0.31578404, "learning_rate": 1.491e-05, "elapsed_time_per_iteration": 5.07410169, "memory(GiB)": 28.98, "elapsed_time": "13h 31m 55s", "remaining_time": "3h 44m 23s", "loss_scale": 1.0, "consumed_samples": 2547200, "global_step/max_steps": "9950/12700"}
{"lm loss": 2.03398108, "grad_norm": 0.32042617, "learning_rate": 1.49e-05, "elapsed_time_per_iteration": 4.92203832, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 0s", "remaining_time": "3h 44m 19s", "loss_scale": 1.0, "consumed_samples": 2547456, "global_step/max_steps": "9951/12700"}
{"lm loss": 2.05080128, "grad_norm": 0.31401667, "learning_rate": 1.49e-05, "elapsed_time_per_iteration": 4.86820078, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 4s", "remaining_time": "3h 44m 14s", "loss_scale": 1.0, "consumed_samples": 2547712, "global_step/max_steps": "9952/12700"}
{"lm loss": 2.06865335, "grad_norm": 0.34412795, "learning_rate": 1.489e-05, "elapsed_time_per_iteration": 5.0397892, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 9s", "remaining_time": "3h 44m 9s", "loss_scale": 1.0, "consumed_samples": 2547968, "global_step/max_steps": "9953/12700"}
{"lm loss": 2.0577445, "grad_norm": 0.30760512, "learning_rate": 1.488e-05, "elapsed_time_per_iteration": 4.94741344, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 14s", "remaining_time": "3h 44m 4s", "loss_scale": 1.0, "consumed_samples": 2548224, "global_step/max_steps": "9954/12700"}
{"lm loss": 2.09142065, "grad_norm": 0.34468156, "learning_rate": 1.487e-05, "elapsed_time_per_iteration": 4.85556936, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 19s", "remaining_time": "3h 43m 59s", "loss_scale": 1.0, "consumed_samples": 2548480, "global_step/max_steps": "9955/12700"}
{"lm loss": 2.06689048, "grad_norm": 0.32419512, "learning_rate": 1.486e-05, "elapsed_time_per_iteration": 4.81207442, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 24s", "remaining_time": "3h 43m 54s", "loss_scale": 1.0, "consumed_samples": 2548736, "global_step/max_steps": "9956/12700"}
{"lm loss": 1.98002315, "grad_norm": 0.31609875, "learning_rate": 1.485e-05, "elapsed_time_per_iteration": 4.90296483, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 29s", "remaining_time": "3h 43m 49s", "loss_scale": 1.0, "consumed_samples": 2548992, "global_step/max_steps": "9957/12700"}
{"lm loss": 2.07137775, "grad_norm": 0.31959736, "learning_rate": 1.485e-05, "elapsed_time_per_iteration": 4.96488595, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 34s", "remaining_time": "3h 43m 44s", "loss_scale": 1.0, "consumed_samples": 2549248, "global_step/max_steps": "9958/12700"}
{"lm loss": 2.08966041, "grad_norm": 0.33349356, "learning_rate": 1.484e-05, "elapsed_time_per_iteration": 4.96035933, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 39s", "remaining_time": "3h 43m 39s", "loss_scale": 1.0, "consumed_samples": 2549504, "global_step/max_steps": "9959/12700"}
{"lm loss": 2.03731775, "grad_norm": 0.31138727, "learning_rate": 1.483e-05, "elapsed_time_per_iteration": 4.95108938, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 44s", "remaining_time": "3h 43m 35s", "loss_scale": 1.0, "consumed_samples": 2549760, "global_step/max_steps": "9960/12700"}
{"lm loss": 2.08018041, "grad_norm": 0.32503963, "learning_rate": 1.482e-05, "elapsed_time_per_iteration": 4.78534651, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 49s", "remaining_time": "3h 43m 30s", "loss_scale": 1.0, "consumed_samples": 2550016, "global_step/max_steps": "9961/12700"}
{"lm loss": 2.05622053, "grad_norm": 0.33092707, "learning_rate": 1.481e-05, "elapsed_time_per_iteration": 4.9359293, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 54s", "remaining_time": "3h 43m 25s", "loss_scale": 1.0, "consumed_samples": 2550272, "global_step/max_steps": "9962/12700"}
{"lm loss": 2.03445196, "grad_norm": 0.32237819, "learning_rate": 1.48e-05, "elapsed_time_per_iteration": 4.85697842, "memory(GiB)": 28.98, "elapsed_time": "13h 32m 58s", "remaining_time": "3h 43m 20s", "loss_scale": 1.0, "consumed_samples": 2550528, "global_step/max_steps": "9963/12700"}
{"lm loss": 2.07856369, "grad_norm": 0.32962558, "learning_rate": 1.48e-05, "elapsed_time_per_iteration": 4.90976858, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 3s", "remaining_time": "3h 43m 15s", "loss_scale": 1.0, "consumed_samples": 2550784, "global_step/max_steps": "9964/12700"}
{"lm loss": 2.07371712, "grad_norm": 0.35598245, "learning_rate": 1.479e-05, "elapsed_time_per_iteration": 4.84490204, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 8s", "remaining_time": "3h 43m 10s", "loss_scale": 1.0, "consumed_samples": 2551040, "global_step/max_steps": "9965/12700"}
{"lm loss": 2.04671693, "grad_norm": 0.35084292, "learning_rate": 1.478e-05, "elapsed_time_per_iteration": 4.83523226, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 13s", "remaining_time": "3h 43m 5s", "loss_scale": 1.0, "consumed_samples": 2551296, "global_step/max_steps": "9966/12700"}
{"lm loss": 2.0504396, "grad_norm": 0.34837005, "learning_rate": 1.477e-05, "elapsed_time_per_iteration": 4.86543703, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 18s", "remaining_time": "3h 43m 0s", "loss_scale": 1.0, "consumed_samples": 2551552, "global_step/max_steps": "9967/12700"}
{"lm loss": 2.0112977, "grad_norm": 0.34989944, "learning_rate": 1.476e-05, "elapsed_time_per_iteration": 4.92152834, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 23s", "remaining_time": "3h 42m 55s", "loss_scale": 1.0, "consumed_samples": 2551808, "global_step/max_steps": "9968/12700"}
{"lm loss": 2.06309152, "grad_norm": 0.33496532, "learning_rate": 1.475e-05, "elapsed_time_per_iteration": 4.94097877, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 28s", "remaining_time": "3h 42m 50s", "loss_scale": 1.0, "consumed_samples": 2552064, "global_step/max_steps": "9969/12700"}
{"lm loss": 2.0568738, "grad_norm": 0.31321582, "learning_rate": 1.475e-05, "elapsed_time_per_iteration": 4.84689379, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 33s", "remaining_time": "3h 42m 46s", "loss_scale": 1.0, "consumed_samples": 2552320, "global_step/max_steps": "9970/12700"}
{"lm loss": 2.04617357, "grad_norm": 0.36369061, "learning_rate": 1.474e-05, "elapsed_time_per_iteration": 4.82867098, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 37s", "remaining_time": "3h 42m 41s", "loss_scale": 1.0, "consumed_samples": 2552576, "global_step/max_steps": "9971/12700"}
{"lm loss": 2.05842614, "grad_norm": 0.31262898, "learning_rate": 1.473e-05, "elapsed_time_per_iteration": 4.82762814, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 42s", "remaining_time": "3h 42m 36s", "loss_scale": 1.0, "consumed_samples": 2552832, "global_step/max_steps": "9972/12700"}
{"lm loss": 2.04605961, "grad_norm": 0.38337469, "learning_rate": 1.472e-05, "elapsed_time_per_iteration": 4.90250349, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 47s", "remaining_time": "3h 42m 31s", "loss_scale": 1.0, "consumed_samples": 2553088, "global_step/max_steps": "9973/12700"}
{"lm loss": 2.10745621, "grad_norm": 0.35308781, "learning_rate": 1.471e-05, "elapsed_time_per_iteration": 4.78742051, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 52s", "remaining_time": "3h 42m 26s", "loss_scale": 1.0, "consumed_samples": 2553344, "global_step/max_steps": "9974/12700"}
{"lm loss": 2.08718419, "grad_norm": 0.33379233, "learning_rate": 1.471e-05, "elapsed_time_per_iteration": 5.07731771, "memory(GiB)": 28.98, "elapsed_time": "13h 33m 57s", "remaining_time": "3h 42m 21s", "loss_scale": 1.0, "consumed_samples": 2553600, "global_step/max_steps": "9975/12700"}
{"lm loss": 2.04734683, "grad_norm": 0.31993523, "learning_rate": 1.47e-05, "elapsed_time_per_iteration": 4.869946, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 2s", "remaining_time": "3h 42m 16s", "loss_scale": 1.0, "consumed_samples": 2553856, "global_step/max_steps": "9976/12700"}
{"lm loss": 2.05616021, "grad_norm": 0.33067128, "learning_rate": 1.469e-05, "elapsed_time_per_iteration": 4.88019443, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 7s", "remaining_time": "3h 42m 11s", "loss_scale": 1.0, "consumed_samples": 2554112, "global_step/max_steps": "9977/12700"}
{"lm loss": 2.04698896, "grad_norm": 0.33593091, "learning_rate": 1.468e-05, "elapsed_time_per_iteration": 4.90737534, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 12s", "remaining_time": "3h 42m 6s", "loss_scale": 1.0, "consumed_samples": 2554368, "global_step/max_steps": "9978/12700"}
{"lm loss": 2.08886003, "grad_norm": 0.35079405, "learning_rate": 1.467e-05, "elapsed_time_per_iteration": 4.913625, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 17s", "remaining_time": "3h 42m 1s", "loss_scale": 1.0, "consumed_samples": 2554624, "global_step/max_steps": "9979/12700"}
{"lm loss": 2.0621078, "grad_norm": 0.3202498, "learning_rate": 1.466e-05, "elapsed_time_per_iteration": 4.78548646, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 21s", "remaining_time": "3h 41m 57s", "loss_scale": 1.0, "consumed_samples": 2554880, "global_step/max_steps": "9980/12700"}
{"lm loss": 2.06518078, "grad_norm": 0.34186342, "learning_rate": 1.466e-05, "elapsed_time_per_iteration": 4.93340302, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 26s", "remaining_time": "3h 41m 52s", "loss_scale": 1.0, "consumed_samples": 2555136, "global_step/max_steps": "9981/12700"}
{"lm loss": 2.08000827, "grad_norm": 0.34030786, "learning_rate": 1.465e-05, "elapsed_time_per_iteration": 4.84972453, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 31s", "remaining_time": "3h 41m 47s", "loss_scale": 1.0, "consumed_samples": 2555392, "global_step/max_steps": "9982/12700"}
{"lm loss": 2.09807324, "grad_norm": 0.33947226, "learning_rate": 1.464e-05, "elapsed_time_per_iteration": 4.81046534, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 36s", "remaining_time": "3h 41m 42s", "loss_scale": 1.0, "consumed_samples": 2555648, "global_step/max_steps": "9983/12700"}
{"lm loss": 2.04394078, "grad_norm": 0.33578312, "learning_rate": 1.463e-05, "elapsed_time_per_iteration": 4.87510777, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 41s", "remaining_time": "3h 41m 37s", "loss_scale": 1.0, "consumed_samples": 2555904, "global_step/max_steps": "9984/12700"}
{"lm loss": 1.99938655, "grad_norm": 0.32432339, "learning_rate": 1.462e-05, "elapsed_time_per_iteration": 4.8641367, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 46s", "remaining_time": "3h 41m 32s", "loss_scale": 1.0, "consumed_samples": 2556160, "global_step/max_steps": "9985/12700"}
{"lm loss": 2.0655992, "grad_norm": 0.33690917, "learning_rate": 1.462e-05, "elapsed_time_per_iteration": 4.97319412, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 51s", "remaining_time": "3h 41m 27s", "loss_scale": 1.0, "consumed_samples": 2556416, "global_step/max_steps": "9986/12700"}
{"lm loss": 2.04431581, "grad_norm": 0.33705077, "learning_rate": 1.461e-05, "elapsed_time_per_iteration": 4.93313169, "memory(GiB)": 28.98, "elapsed_time": "13h 34m 56s", "remaining_time": "3h 41m 22s", "loss_scale": 1.0, "consumed_samples": 2556672, "global_step/max_steps": "9987/12700"}
{"lm loss": 2.05344129, "grad_norm": 0.31294978, "learning_rate": 1.46e-05, "elapsed_time_per_iteration": 4.93471527, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 1s", "remaining_time": "3h 41m 17s", "loss_scale": 1.0, "consumed_samples": 2556928, "global_step/max_steps": "9988/12700"}
{"lm loss": 2.07858372, "grad_norm": 0.35731637, "learning_rate": 1.459e-05, "elapsed_time_per_iteration": 4.92265463, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 5s", "remaining_time": "3h 41m 13s", "loss_scale": 1.0, "consumed_samples": 2557184, "global_step/max_steps": "9989/12700"}
{"lm loss": 2.07553315, "grad_norm": 0.3296583, "learning_rate": 1.458e-05, "elapsed_time_per_iteration": 4.99973679, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 10s", "remaining_time": "3h 41m 8s", "loss_scale": 1.0, "consumed_samples": 2557440, "global_step/max_steps": "9990/12700"}
{"lm loss": 2.07415318, "grad_norm": 0.33917156, "learning_rate": 1.457e-05, "elapsed_time_per_iteration": 4.81156421, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 15s", "remaining_time": "3h 41m 3s", "loss_scale": 1.0, "consumed_samples": 2557696, "global_step/max_steps": "9991/12700"}
{"lm loss": 2.0443368, "grad_norm": 0.32068586, "learning_rate": 1.457e-05, "elapsed_time_per_iteration": 4.8510406, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 20s", "remaining_time": "3h 40m 58s", "loss_scale": 1.0, "consumed_samples": 2557952, "global_step/max_steps": "9992/12700"}
{"lm loss": 2.02749872, "grad_norm": 0.32770172, "learning_rate": 1.456e-05, "elapsed_time_per_iteration": 4.9782002, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 25s", "remaining_time": "3h 40m 53s", "loss_scale": 1.0, "consumed_samples": 2558208, "global_step/max_steps": "9993/12700"}
{"lm loss": 2.03387141, "grad_norm": 0.33542362, "learning_rate": 1.455e-05, "elapsed_time_per_iteration": 4.79192209, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 30s", "remaining_time": "3h 40m 48s", "loss_scale": 1.0, "consumed_samples": 2558464, "global_step/max_steps": "9994/12700"}
{"lm loss": 2.05966353, "grad_norm": 0.38581485, "learning_rate": 1.454e-05, "elapsed_time_per_iteration": 5.08000183, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 35s", "remaining_time": "3h 40m 43s", "loss_scale": 1.0, "consumed_samples": 2558720, "global_step/max_steps": "9995/12700"}
{"lm loss": 2.04224968, "grad_norm": 0.32618508, "learning_rate": 1.453e-05, "elapsed_time_per_iteration": 4.96519065, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 40s", "remaining_time": "3h 40m 38s", "loss_scale": 1.0, "consumed_samples": 2558976, "global_step/max_steps": "9996/12700"}
{"lm loss": 2.03386307, "grad_norm": 0.32892632, "learning_rate": 1.453e-05, "elapsed_time_per_iteration": 4.94062972, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 45s", "remaining_time": "3h 40m 33s", "loss_scale": 1.0, "consumed_samples": 2559232, "global_step/max_steps": "9997/12700"}
{"lm loss": 2.04111362, "grad_norm": 0.32735875, "learning_rate": 1.452e-05, "elapsed_time_per_iteration": 4.94038057, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 50s", "remaining_time": "3h 40m 29s", "loss_scale": 1.0, "consumed_samples": 2559488, "global_step/max_steps": "9998/12700"}
{"lm loss": 2.03985882, "grad_norm": 0.33569163, "learning_rate": 1.451e-05, "elapsed_time_per_iteration": 4.82819533, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 55s", "remaining_time": "3h 40m 24s", "loss_scale": 1.0, "consumed_samples": 2559744, "global_step/max_steps": "9999/12700"}
{"lm loss": 2.04477072, "grad_norm": 0.35199308, "learning_rate": 1.45e-05, "elapsed_time_per_iteration": 4.78327513, "memory(GiB)": 28.98, "elapsed_time": "13h 35m 59s", "remaining_time": "3h 40m 19s", "loss_scale": 1.0, "consumed_samples": 2560000, "global_step/max_steps": "10000/12700"}
{"lm loss": 2.04623866, "grad_norm": 0.34238958, "learning_rate": 1.449e-05, "elapsed_time_per_iteration": 4.94722247, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 4s", "remaining_time": "3h 40m 14s", "loss_scale": 1.0, "consumed_samples": 2560256, "global_step/max_steps": "10001/12700"}
{"lm loss": 2.05155897, "grad_norm": 0.31604445, "learning_rate": 1.448e-05, "elapsed_time_per_iteration": 4.82152963, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 9s", "remaining_time": "3h 40m 9s", "loss_scale": 1.0, "consumed_samples": 2560512, "global_step/max_steps": "10002/12700"}
{"lm loss": 2.0622592, "grad_norm": 0.32077095, "learning_rate": 1.448e-05, "elapsed_time_per_iteration": 4.99354768, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 14s", "remaining_time": "3h 40m 4s", "loss_scale": 1.0, "consumed_samples": 2560768, "global_step/max_steps": "10003/12700"}
{"lm loss": 2.02455163, "grad_norm": 0.31932852, "learning_rate": 1.447e-05, "elapsed_time_per_iteration": 4.81128573, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 19s", "remaining_time": "3h 39m 59s", "loss_scale": 1.0, "consumed_samples": 2561024, "global_step/max_steps": "10004/12700"}
{"lm loss": 2.06221509, "grad_norm": 0.32668898, "learning_rate": 1.446e-05, "elapsed_time_per_iteration": 4.88054371, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 24s", "remaining_time": "3h 39m 54s", "loss_scale": 1.0, "consumed_samples": 2561280, "global_step/max_steps": "10005/12700"}
{"lm loss": 2.05623055, "grad_norm": 0.3272568, "learning_rate": 1.445e-05, "elapsed_time_per_iteration": 4.99744844, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 29s", "remaining_time": "3h 39m 49s", "loss_scale": 1.0, "consumed_samples": 2561536, "global_step/max_steps": "10006/12700"}
{"lm loss": 2.03184938, "grad_norm": 0.3174853, "learning_rate": 1.444e-05, "elapsed_time_per_iteration": 4.96434283, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 34s", "remaining_time": "3h 39m 44s", "loss_scale": 1.0, "consumed_samples": 2561792, "global_step/max_steps": "10007/12700"}
{"lm loss": 2.07124662, "grad_norm": 0.37242079, "learning_rate": 1.444e-05, "elapsed_time_per_iteration": 4.88121152, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 39s", "remaining_time": "3h 39m 40s", "loss_scale": 1.0, "consumed_samples": 2562048, "global_step/max_steps": "10008/12700"}
{"lm loss": 2.07219625, "grad_norm": 0.33896318, "learning_rate": 1.443e-05, "elapsed_time_per_iteration": 4.82451797, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 44s", "remaining_time": "3h 39m 35s", "loss_scale": 1.0, "consumed_samples": 2562304, "global_step/max_steps": "10009/12700"}
{"lm loss": 2.03870964, "grad_norm": 0.35391477, "learning_rate": 1.442e-05, "elapsed_time_per_iteration": 4.81301093, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 48s", "remaining_time": "3h 39m 30s", "loss_scale": 1.0, "consumed_samples": 2562560, "global_step/max_steps": "10010/12700"}
{"lm loss": 2.05049658, "grad_norm": 0.3199001, "learning_rate": 1.441e-05, "elapsed_time_per_iteration": 4.84158874, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 53s", "remaining_time": "3h 39m 25s", "loss_scale": 1.0, "consumed_samples": 2562816, "global_step/max_steps": "10011/12700"}
{"lm loss": 2.07556772, "grad_norm": 0.34208182, "learning_rate": 1.44e-05, "elapsed_time_per_iteration": 4.92803621, "memory(GiB)": 28.98, "elapsed_time": "13h 36m 58s", "remaining_time": "3h 39m 20s", "loss_scale": 1.0, "consumed_samples": 2563072, "global_step/max_steps": "10012/12700"}
{"lm loss": 2.05710793, "grad_norm": 0.33696353, "learning_rate": 1.439e-05, "elapsed_time_per_iteration": 4.87443399, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 3s", "remaining_time": "3h 39m 15s", "loss_scale": 1.0, "consumed_samples": 2563328, "global_step/max_steps": "10013/12700"}
{"lm loss": 2.01955605, "grad_norm": 0.34866858, "learning_rate": 1.439e-05, "elapsed_time_per_iteration": 4.86103201, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 8s", "remaining_time": "3h 39m 10s", "loss_scale": 1.0, "consumed_samples": 2563584, "global_step/max_steps": "10014/12700"}
{"lm loss": 2.02712035, "grad_norm": 0.33651966, "learning_rate": 1.438e-05, "elapsed_time_per_iteration": 4.85954642, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 13s", "remaining_time": "3h 39m 5s", "loss_scale": 1.0, "consumed_samples": 2563840, "global_step/max_steps": "10015/12700"}
{"lm loss": 2.06065893, "grad_norm": 0.34001085, "learning_rate": 1.437e-05, "elapsed_time_per_iteration": 5.00474858, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 18s", "remaining_time": "3h 39m 0s", "loss_scale": 1.0, "consumed_samples": 2564096, "global_step/max_steps": "10016/12700"}
{"lm loss": 2.08140182, "grad_norm": 0.34349829, "learning_rate": 1.436e-05, "elapsed_time_per_iteration": 4.98060012, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 23s", "remaining_time": "3h 38m 55s", "loss_scale": 1.0, "consumed_samples": 2564352, "global_step/max_steps": "10017/12700"}
{"lm loss": 2.05839419, "grad_norm": 0.33684421, "learning_rate": 1.435e-05, "elapsed_time_per_iteration": 4.82693648, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 28s", "remaining_time": "3h 38m 51s", "loss_scale": 1.0, "consumed_samples": 2564608, "global_step/max_steps": "10018/12700"}
{"lm loss": 2.07738543, "grad_norm": 0.32529277, "learning_rate": 1.435e-05, "elapsed_time_per_iteration": 4.90495467, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 32s", "remaining_time": "3h 38m 46s", "loss_scale": 1.0, "consumed_samples": 2564864, "global_step/max_steps": "10019/12700"}
{"lm loss": 2.06336236, "grad_norm": 0.33063492, "learning_rate": 1.434e-05, "elapsed_time_per_iteration": 4.95044065, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 37s", "remaining_time": "3h 38m 41s", "loss_scale": 1.0, "consumed_samples": 2565120, "global_step/max_steps": "10020/12700"}
{"lm loss": 2.01640463, "grad_norm": 0.34867439, "learning_rate": 1.433e-05, "elapsed_time_per_iteration": 4.86899829, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 42s", "remaining_time": "3h 38m 36s", "loss_scale": 1.0, "consumed_samples": 2565376, "global_step/max_steps": "10021/12700"}
{"lm loss": 2.06884098, "grad_norm": 0.35480708, "learning_rate": 1.432e-05, "elapsed_time_per_iteration": 4.84907317, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 47s", "remaining_time": "3h 38m 31s", "loss_scale": 1.0, "consumed_samples": 2565632, "global_step/max_steps": "10022/12700"}
{"lm loss": 2.06020331, "grad_norm": 0.34850153, "learning_rate": 1.431e-05, "elapsed_time_per_iteration": 4.88702893, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 52s", "remaining_time": "3h 38m 26s", "loss_scale": 1.0, "consumed_samples": 2565888, "global_step/max_steps": "10023/12700"}
{"lm loss": 2.0489924, "grad_norm": 0.3419179, "learning_rate": 1.431e-05, "elapsed_time_per_iteration": 4.88009691, "memory(GiB)": 28.98, "elapsed_time": "13h 37m 57s", "remaining_time": "3h 38m 21s", "loss_scale": 1.0, "consumed_samples": 2566144, "global_step/max_steps": "10024/12700"}
{"lm loss": 2.05372071, "grad_norm": 0.32591882, "learning_rate": 1.43e-05, "elapsed_time_per_iteration": 4.97362375, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 2s", "remaining_time": "3h 38m 16s", "loss_scale": 1.0, "consumed_samples": 2566400, "global_step/max_steps": "10025/12700"}
{"lm loss": 2.05296516, "grad_norm": 0.30768824, "learning_rate": 1.429e-05, "elapsed_time_per_iteration": 4.81070876, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 7s", "remaining_time": "3h 38m 11s", "loss_scale": 1.0, "consumed_samples": 2566656, "global_step/max_steps": "10026/12700"}
{"lm loss": 2.07115054, "grad_norm": 0.32945892, "learning_rate": 1.428e-05, "elapsed_time_per_iteration": 4.94547653, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 12s", "remaining_time": "3h 38m 6s", "loss_scale": 1.0, "consumed_samples": 2566912, "global_step/max_steps": "10027/12700"}
{"lm loss": 2.02934456, "grad_norm": 0.33742967, "learning_rate": 1.427e-05, "elapsed_time_per_iteration": 4.83290958, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 16s", "remaining_time": "3h 38m 2s", "loss_scale": 1.0, "consumed_samples": 2567168, "global_step/max_steps": "10028/12700"}
{"lm loss": 2.06559873, "grad_norm": 0.33490384, "learning_rate": 1.426e-05, "elapsed_time_per_iteration": 4.81061196, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 21s", "remaining_time": "3h 37m 57s", "loss_scale": 1.0, "consumed_samples": 2567424, "global_step/max_steps": "10029/12700"}
{"lm loss": 2.03973699, "grad_norm": 0.32346773, "learning_rate": 1.426e-05, "elapsed_time_per_iteration": 4.84995079, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 26s", "remaining_time": "3h 37m 52s", "loss_scale": 1.0, "consumed_samples": 2567680, "global_step/max_steps": "10030/12700"}
{"lm loss": 2.05624819, "grad_norm": 0.36287522, "learning_rate": 1.425e-05, "elapsed_time_per_iteration": 4.87213397, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 31s", "remaining_time": "3h 37m 47s", "loss_scale": 1.0, "consumed_samples": 2567936, "global_step/max_steps": "10031/12700"}
{"lm loss": 2.04241371, "grad_norm": 0.31545648, "learning_rate": 1.424e-05, "elapsed_time_per_iteration": 4.91199136, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 36s", "remaining_time": "3h 37m 42s", "loss_scale": 1.0, "consumed_samples": 2568192, "global_step/max_steps": "10032/12700"}
{"lm loss": 2.0263865, "grad_norm": 0.33345664, "learning_rate": 1.423e-05, "elapsed_time_per_iteration": 4.8863256, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 41s", "remaining_time": "3h 37m 37s", "loss_scale": 1.0, "consumed_samples": 2568448, "global_step/max_steps": "10033/12700"}
{"lm loss": 2.01192522, "grad_norm": 0.32641453, "learning_rate": 1.422e-05, "elapsed_time_per_iteration": 4.88693643, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 46s", "remaining_time": "3h 37m 32s", "loss_scale": 1.0, "consumed_samples": 2568704, "global_step/max_steps": "10034/12700"}
{"lm loss": 2.03131771, "grad_norm": 0.33319578, "learning_rate": 1.422e-05, "elapsed_time_per_iteration": 4.88356566, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 51s", "remaining_time": "3h 37m 27s", "loss_scale": 1.0, "consumed_samples": 2568960, "global_step/max_steps": "10035/12700"}
{"lm loss": 2.04126334, "grad_norm": 0.33999032, "learning_rate": 1.421e-05, "elapsed_time_per_iteration": 4.86443686, "memory(GiB)": 28.98, "elapsed_time": "13h 38m 55s", "remaining_time": "3h 37m 22s", "loss_scale": 1.0, "consumed_samples": 2569216, "global_step/max_steps": "10036/12700"}
{"lm loss": 2.06244946, "grad_norm": 0.32374957, "learning_rate": 1.42e-05, "elapsed_time_per_iteration": 4.92692137, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 0s", "remaining_time": "3h 37m 17s", "loss_scale": 1.0, "consumed_samples": 2569472, "global_step/max_steps": "10037/12700"}
{"lm loss": 2.05338168, "grad_norm": 0.32831055, "learning_rate": 1.419e-05, "elapsed_time_per_iteration": 4.98168564, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 5s", "remaining_time": "3h 37m 13s", "loss_scale": 1.0, "consumed_samples": 2569728, "global_step/max_steps": "10038/12700"}
{"lm loss": 2.02894497, "grad_norm": 0.32074642, "learning_rate": 1.418e-05, "elapsed_time_per_iteration": 4.83142185, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 10s", "remaining_time": "3h 37m 8s", "loss_scale": 1.0, "consumed_samples": 2569984, "global_step/max_steps": "10039/12700"}
{"lm loss": 2.06828237, "grad_norm": 0.3264704, "learning_rate": 1.418e-05, "elapsed_time_per_iteration": 4.92974663, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 15s", "remaining_time": "3h 37m 3s", "loss_scale": 1.0, "consumed_samples": 2570240, "global_step/max_steps": "10040/12700"}
{"lm loss": 2.07191873, "grad_norm": 0.349033, "learning_rate": 1.417e-05, "elapsed_time_per_iteration": 4.83539081, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 20s", "remaining_time": "3h 36m 58s", "loss_scale": 1.0, "consumed_samples": 2570496, "global_step/max_steps": "10041/12700"}
{"lm loss": 2.03941607, "grad_norm": 0.32951939, "learning_rate": 1.416e-05, "elapsed_time_per_iteration": 4.85141397, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 25s", "remaining_time": "3h 36m 53s", "loss_scale": 1.0, "consumed_samples": 2570752, "global_step/max_steps": "10042/12700"}
{"lm loss": 2.02842879, "grad_norm": 0.32854545, "learning_rate": 1.415e-05, "elapsed_time_per_iteration": 4.78475332, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 30s", "remaining_time": "3h 36m 48s", "loss_scale": 1.0, "consumed_samples": 2571008, "global_step/max_steps": "10043/12700"}
{"lm loss": 2.04684258, "grad_norm": 0.33935761, "learning_rate": 1.414e-05, "elapsed_time_per_iteration": 4.89960885, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 34s", "remaining_time": "3h 36m 43s", "loss_scale": 1.0, "consumed_samples": 2571264, "global_step/max_steps": "10044/12700"}
{"lm loss": 2.05569315, "grad_norm": 0.32342333, "learning_rate": 1.414e-05, "elapsed_time_per_iteration": 4.82313251, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 39s", "remaining_time": "3h 36m 38s", "loss_scale": 1.0, "consumed_samples": 2571520, "global_step/max_steps": "10045/12700"}
{"lm loss": 2.08744764, "grad_norm": 0.34416857, "learning_rate": 1.413e-05, "elapsed_time_per_iteration": 4.88467193, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 44s", "remaining_time": "3h 36m 33s", "loss_scale": 1.0, "consumed_samples": 2571776, "global_step/max_steps": "10046/12700"}
{"lm loss": 2.02235055, "grad_norm": 0.34469399, "learning_rate": 1.412e-05, "elapsed_time_per_iteration": 4.93222618, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 49s", "remaining_time": "3h 36m 28s", "loss_scale": 1.0, "consumed_samples": 2572032, "global_step/max_steps": "10047/12700"}
{"lm loss": 2.06176472, "grad_norm": 0.33260882, "learning_rate": 1.411e-05, "elapsed_time_per_iteration": 4.86940455, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 54s", "remaining_time": "3h 36m 24s", "loss_scale": 1.0, "consumed_samples": 2572288, "global_step/max_steps": "10048/12700"}
{"lm loss": 2.0634234, "grad_norm": 0.33679223, "learning_rate": 1.41e-05, "elapsed_time_per_iteration": 4.78797507, "memory(GiB)": 28.98, "elapsed_time": "13h 39m 59s", "remaining_time": "3h 36m 19s", "loss_scale": 1.0, "consumed_samples": 2572544, "global_step/max_steps": "10049/12700"}
{"lm loss": 2.05588317, "grad_norm": 0.32438487, "learning_rate": 1.41e-05, "elapsed_time_per_iteration": 4.92761469, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 4s", "remaining_time": "3h 36m 14s", "loss_scale": 1.0, "consumed_samples": 2572800, "global_step/max_steps": "10050/12700"}
{"lm loss": 2.03837204, "grad_norm": 0.35023642, "learning_rate": 1.409e-05, "elapsed_time_per_iteration": 4.94292378, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 9s", "remaining_time": "3h 36m 9s", "loss_scale": 1.0, "consumed_samples": 2573056, "global_step/max_steps": "10051/12700"}
{"lm loss": 2.04371738, "grad_norm": 0.32237786, "learning_rate": 1.408e-05, "elapsed_time_per_iteration": 4.88405585, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 14s", "remaining_time": "3h 36m 4s", "loss_scale": 1.0, "consumed_samples": 2573312, "global_step/max_steps": "10052/12700"}
{"lm loss": 2.04637885, "grad_norm": 0.32424957, "learning_rate": 1.407e-05, "elapsed_time_per_iteration": 5.05442047, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 19s", "remaining_time": "3h 35m 59s", "loss_scale": 1.0, "consumed_samples": 2573568, "global_step/max_steps": "10053/12700"}
{"lm loss": 2.07947493, "grad_norm": 0.33627871, "learning_rate": 1.406e-05, "elapsed_time_per_iteration": 4.86610103, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 23s", "remaining_time": "3h 35m 54s", "loss_scale": 1.0, "consumed_samples": 2573824, "global_step/max_steps": "10054/12700"}
{"lm loss": 2.03781939, "grad_norm": 0.33895308, "learning_rate": 1.406e-05, "elapsed_time_per_iteration": 4.88630509, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 28s", "remaining_time": "3h 35m 49s", "loss_scale": 1.0, "consumed_samples": 2574080, "global_step/max_steps": "10055/12700"}
{"lm loss": 2.01060796, "grad_norm": 0.33887661, "learning_rate": 1.405e-05, "elapsed_time_per_iteration": 4.81997776, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 33s", "remaining_time": "3h 35m 44s", "loss_scale": 1.0, "consumed_samples": 2574336, "global_step/max_steps": "10056/12700"}
{"lm loss": 2.04900765, "grad_norm": 0.33299774, "learning_rate": 1.404e-05, "elapsed_time_per_iteration": 5.00834775, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 38s", "remaining_time": "3h 35m 40s", "loss_scale": 1.0, "consumed_samples": 2574592, "global_step/max_steps": "10057/12700"}
{"lm loss": 2.0791049, "grad_norm": 0.31718022, "learning_rate": 1.403e-05, "elapsed_time_per_iteration": 4.74438524, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 43s", "remaining_time": "3h 35m 35s", "loss_scale": 1.0, "consumed_samples": 2574848, "global_step/max_steps": "10058/12700"}
{"lm loss": 2.07861638, "grad_norm": 0.31793293, "learning_rate": 1.402e-05, "elapsed_time_per_iteration": 4.91042018, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 48s", "remaining_time": "3h 35m 30s", "loss_scale": 1.0, "consumed_samples": 2575104, "global_step/max_steps": "10059/12700"}
{"lm loss": 2.06182504, "grad_norm": 0.32823744, "learning_rate": 1.402e-05, "elapsed_time_per_iteration": 4.88569736, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 53s", "remaining_time": "3h 35m 25s", "loss_scale": 1.0, "consumed_samples": 2575360, "global_step/max_steps": "10060/12700"}
{"lm loss": 2.03924704, "grad_norm": 0.33887687, "learning_rate": 1.401e-05, "elapsed_time_per_iteration": 4.80631971, "memory(GiB)": 28.98, "elapsed_time": "13h 40m 58s", "remaining_time": "3h 35m 20s", "loss_scale": 1.0, "consumed_samples": 2575616, "global_step/max_steps": "10061/12700"}
{"lm loss": 2.07780337, "grad_norm": 0.35619482, "learning_rate": 1.4e-05, "elapsed_time_per_iteration": 4.75900412, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 2s", "remaining_time": "3h 35m 15s", "loss_scale": 1.0, "consumed_samples": 2575872, "global_step/max_steps": "10062/12700"}
{"lm loss": 2.06797123, "grad_norm": 0.34225067, "learning_rate": 1.399e-05, "elapsed_time_per_iteration": 4.78661633, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 7s", "remaining_time": "3h 35m 10s", "loss_scale": 1.0, "consumed_samples": 2576128, "global_step/max_steps": "10063/12700"}
{"lm loss": 2.05234742, "grad_norm": 0.34181497, "learning_rate": 1.398e-05, "elapsed_time_per_iteration": 4.93037152, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 12s", "remaining_time": "3h 35m 5s", "loss_scale": 1.0, "consumed_samples": 2576384, "global_step/max_steps": "10064/12700"}
{"lm loss": 2.04797006, "grad_norm": 0.33185664, "learning_rate": 1.398e-05, "elapsed_time_per_iteration": 4.87056708, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 17s", "remaining_time": "3h 35m 0s", "loss_scale": 1.0, "consumed_samples": 2576640, "global_step/max_steps": "10065/12700"}
{"lm loss": 2.06371284, "grad_norm": 0.34202981, "learning_rate": 1.397e-05, "elapsed_time_per_iteration": 4.89873505, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 22s", "remaining_time": "3h 34m 55s", "loss_scale": 1.0, "consumed_samples": 2576896, "global_step/max_steps": "10066/12700"}
{"lm loss": 2.06715751, "grad_norm": 0.35228771, "learning_rate": 1.396e-05, "elapsed_time_per_iteration": 4.97448063, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 27s", "remaining_time": "3h 34m 50s", "loss_scale": 1.0, "consumed_samples": 2577152, "global_step/max_steps": "10067/12700"}
{"lm loss": 2.00774789, "grad_norm": 0.31938651, "learning_rate": 1.395e-05, "elapsed_time_per_iteration": 4.80788922, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 32s", "remaining_time": "3h 34m 46s", "loss_scale": 1.0, "consumed_samples": 2577408, "global_step/max_steps": "10068/12700"}
{"lm loss": 2.03308368, "grad_norm": 0.33612737, "learning_rate": 1.394e-05, "elapsed_time_per_iteration": 4.83795118, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 36s", "remaining_time": "3h 34m 41s", "loss_scale": 1.0, "consumed_samples": 2577664, "global_step/max_steps": "10069/12700"}
{"lm loss": 2.02666378, "grad_norm": 0.33034337, "learning_rate": 1.394e-05, "elapsed_time_per_iteration": 4.82253218, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 41s", "remaining_time": "3h 34m 36s", "loss_scale": 1.0, "consumed_samples": 2577920, "global_step/max_steps": "10070/12700"}
{"lm loss": 2.07682443, "grad_norm": 0.3296119, "learning_rate": 1.393e-05, "elapsed_time_per_iteration": 4.90851235, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 46s", "remaining_time": "3h 34m 31s", "loss_scale": 1.0, "consumed_samples": 2578176, "global_step/max_steps": "10071/12700"}
{"lm loss": 2.06479168, "grad_norm": 0.31832501, "learning_rate": 1.392e-05, "elapsed_time_per_iteration": 4.92271447, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 51s", "remaining_time": "3h 34m 26s", "loss_scale": 1.0, "consumed_samples": 2578432, "global_step/max_steps": "10072/12700"}
{"lm loss": 2.04930615, "grad_norm": 0.33606568, "learning_rate": 1.391e-05, "elapsed_time_per_iteration": 4.84140086, "memory(GiB)": 28.98, "elapsed_time": "13h 41m 56s", "remaining_time": "3h 34m 21s", "loss_scale": 1.0, "consumed_samples": 2578688, "global_step/max_steps": "10073/12700"}
{"lm loss": 2.07874751, "grad_norm": 0.33383939, "learning_rate": 1.39e-05, "elapsed_time_per_iteration": 4.9161756, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 1s", "remaining_time": "3h 34m 16s", "loss_scale": 1.0, "consumed_samples": 2578944, "global_step/max_steps": "10074/12700"}
{"lm loss": 2.04925561, "grad_norm": 0.35531974, "learning_rate": 1.39e-05, "elapsed_time_per_iteration": 4.88886404, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 6s", "remaining_time": "3h 34m 11s", "loss_scale": 1.0, "consumed_samples": 2579200, "global_step/max_steps": "10075/12700"}
{"lm loss": 2.06637168, "grad_norm": 0.3264308, "learning_rate": 1.389e-05, "elapsed_time_per_iteration": 4.86305022, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 11s", "remaining_time": "3h 34m 6s", "loss_scale": 1.0, "consumed_samples": 2579456, "global_step/max_steps": "10076/12700"}
{"lm loss": 2.07500315, "grad_norm": 0.32251713, "learning_rate": 1.388e-05, "elapsed_time_per_iteration": 4.87828922, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 15s", "remaining_time": "3h 34m 1s", "loss_scale": 1.0, "consumed_samples": 2579712, "global_step/max_steps": "10077/12700"}
{"lm loss": 2.07455802, "grad_norm": 0.33899769, "learning_rate": 1.387e-05, "elapsed_time_per_iteration": 4.91201878, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 20s", "remaining_time": "3h 33m 57s", "loss_scale": 1.0, "consumed_samples": 2579968, "global_step/max_steps": "10078/12700"}
{"lm loss": 2.0485189, "grad_norm": 0.33306652, "learning_rate": 1.386e-05, "elapsed_time_per_iteration": 4.82854557, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 25s", "remaining_time": "3h 33m 52s", "loss_scale": 1.0, "consumed_samples": 2580224, "global_step/max_steps": "10079/12700"}
{"lm loss": 2.12482858, "grad_norm": 0.33010629, "learning_rate": 1.386e-05, "elapsed_time_per_iteration": 4.83829856, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 30s", "remaining_time": "3h 33m 47s", "loss_scale": 1.0, "consumed_samples": 2580480, "global_step/max_steps": "10080/12700"}
{"lm loss": 2.05224538, "grad_norm": 0.33327025, "learning_rate": 1.385e-05, "elapsed_time_per_iteration": 4.8650651, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 35s", "remaining_time": "3h 33m 42s", "loss_scale": 1.0, "consumed_samples": 2580736, "global_step/max_steps": "10081/12700"}
{"lm loss": 2.05069518, "grad_norm": 0.34072822, "learning_rate": 1.384e-05, "elapsed_time_per_iteration": 4.85150051, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 40s", "remaining_time": "3h 33m 37s", "loss_scale": 1.0, "consumed_samples": 2580992, "global_step/max_steps": "10082/12700"}
{"lm loss": 2.05934906, "grad_norm": 0.34226459, "learning_rate": 1.383e-05, "elapsed_time_per_iteration": 4.77295756, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 44s", "remaining_time": "3h 33m 32s", "loss_scale": 1.0, "consumed_samples": 2581248, "global_step/max_steps": "10083/12700"}
{"lm loss": 2.03916812, "grad_norm": 0.32156318, "learning_rate": 1.382e-05, "elapsed_time_per_iteration": 4.85422635, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 49s", "remaining_time": "3h 33m 27s", "loss_scale": 1.0, "consumed_samples": 2581504, "global_step/max_steps": "10084/12700"}
{"lm loss": 2.0435195, "grad_norm": 0.32095, "learning_rate": 1.382e-05, "elapsed_time_per_iteration": 4.87486744, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 54s", "remaining_time": "3h 33m 22s", "loss_scale": 1.0, "consumed_samples": 2581760, "global_step/max_steps": "10085/12700"}
{"lm loss": 2.09519434, "grad_norm": 0.32400212, "learning_rate": 1.381e-05, "elapsed_time_per_iteration": 4.97633576, "memory(GiB)": 28.98, "elapsed_time": "13h 42m 59s", "remaining_time": "3h 33m 17s", "loss_scale": 1.0, "consumed_samples": 2582016, "global_step/max_steps": "10086/12700"}
{"lm loss": 2.0426569, "grad_norm": 0.3496426, "learning_rate": 1.38e-05, "elapsed_time_per_iteration": 4.86851597, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 4s", "remaining_time": "3h 33m 12s", "loss_scale": 1.0, "consumed_samples": 2582272, "global_step/max_steps": "10087/12700"}
{"lm loss": 2.04943442, "grad_norm": 0.32149217, "learning_rate": 1.379e-05, "elapsed_time_per_iteration": 4.8750546, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 9s", "remaining_time": "3h 33m 7s", "loss_scale": 1.0, "consumed_samples": 2582528, "global_step/max_steps": "10088/12700"}
{"lm loss": 2.05061173, "grad_norm": 0.33274674, "learning_rate": 1.378e-05, "elapsed_time_per_iteration": 4.88987803, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 14s", "remaining_time": "3h 33m 3s", "loss_scale": 1.0, "consumed_samples": 2582784, "global_step/max_steps": "10089/12700"}
{"lm loss": 2.06178522, "grad_norm": 0.33613133, "learning_rate": 1.378e-05, "elapsed_time_per_iteration": 4.86461401, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 19s", "remaining_time": "3h 32m 58s", "loss_scale": 1.0, "consumed_samples": 2583040, "global_step/max_steps": "10090/12700"}
{"lm loss": 2.05290079, "grad_norm": 0.33073291, "learning_rate": 1.377e-05, "elapsed_time_per_iteration": 4.81113672, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 23s", "remaining_time": "3h 32m 53s", "loss_scale": 1.0, "consumed_samples": 2583296, "global_step/max_steps": "10091/12700"}
{"lm loss": 2.0641458, "grad_norm": 0.34224677, "learning_rate": 1.376e-05, "elapsed_time_per_iteration": 4.92282915, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 28s", "remaining_time": "3h 32m 48s", "loss_scale": 1.0, "consumed_samples": 2583552, "global_step/max_steps": "10092/12700"}
{"lm loss": 2.0637219, "grad_norm": 0.31648237, "learning_rate": 1.375e-05, "elapsed_time_per_iteration": 4.97037387, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 33s", "remaining_time": "3h 32m 43s", "loss_scale": 1.0, "consumed_samples": 2583808, "global_step/max_steps": "10093/12700"}
{"lm loss": 2.05839086, "grad_norm": 0.33516309, "learning_rate": 1.374e-05, "elapsed_time_per_iteration": 4.92518997, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 38s", "remaining_time": "3h 32m 38s", "loss_scale": 1.0, "consumed_samples": 2584064, "global_step/max_steps": "10094/12700"}
{"lm loss": 2.05025959, "grad_norm": 0.33972833, "learning_rate": 1.374e-05, "elapsed_time_per_iteration": 4.91976428, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 43s", "remaining_time": "3h 32m 33s", "loss_scale": 1.0, "consumed_samples": 2584320, "global_step/max_steps": "10095/12700"}
{"lm loss": 2.07561946, "grad_norm": 0.33700612, "learning_rate": 1.373e-05, "elapsed_time_per_iteration": 4.84096408, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 48s", "remaining_time": "3h 32m 28s", "loss_scale": 1.0, "consumed_samples": 2584576, "global_step/max_steps": "10096/12700"}
{"lm loss": 2.04092836, "grad_norm": 0.31369019, "learning_rate": 1.372e-05, "elapsed_time_per_iteration": 4.92892313, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 53s", "remaining_time": "3h 32m 23s", "loss_scale": 1.0, "consumed_samples": 2584832, "global_step/max_steps": "10097/12700"}
{"lm loss": 2.05273008, "grad_norm": 0.3426412, "learning_rate": 1.371e-05, "elapsed_time_per_iteration": 4.86238289, "memory(GiB)": 28.98, "elapsed_time": "13h 43m 58s", "remaining_time": "3h 32m 19s", "loss_scale": 1.0, "consumed_samples": 2585088, "global_step/max_steps": "10098/12700"}
{"lm loss": 2.04447651, "grad_norm": 0.32238007, "learning_rate": 1.37e-05, "elapsed_time_per_iteration": 4.79653955, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 3s", "remaining_time": "3h 32m 14s", "loss_scale": 1.0, "consumed_samples": 2585344, "global_step/max_steps": "10099/12700"}
{"lm loss": 2.03880978, "grad_norm": 0.3327938, "learning_rate": 1.37e-05, "elapsed_time_per_iteration": 4.9242599, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 8s", "remaining_time": "3h 32m 9s", "loss_scale": 1.0, "consumed_samples": 2585600, "global_step/max_steps": "10100/12700"}
{"lm loss": 2.05889678, "grad_norm": 0.35645613, "learning_rate": 1.369e-05, "elapsed_time_per_iteration": 4.91193962, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 12s", "remaining_time": "3h 32m 4s", "loss_scale": 1.0, "consumed_samples": 2585856, "global_step/max_steps": "10101/12700"}
{"lm loss": 2.03549767, "grad_norm": 0.31151152, "learning_rate": 1.368e-05, "elapsed_time_per_iteration": 4.87448883, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 17s", "remaining_time": "3h 31m 59s", "loss_scale": 1.0, "consumed_samples": 2586112, "global_step/max_steps": "10102/12700"}
{"lm loss": 2.04086995, "grad_norm": 0.32889339, "learning_rate": 1.367e-05, "elapsed_time_per_iteration": 4.8953979, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 22s", "remaining_time": "3h 31m 54s", "loss_scale": 1.0, "consumed_samples": 2586368, "global_step/max_steps": "10103/12700"}
{"lm loss": 2.07198048, "grad_norm": 0.35435054, "learning_rate": 1.367e-05, "elapsed_time_per_iteration": 4.83074021, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 27s", "remaining_time": "3h 31m 49s", "loss_scale": 1.0, "consumed_samples": 2586624, "global_step/max_steps": "10104/12700"}
{"lm loss": 2.06278944, "grad_norm": 0.32907948, "learning_rate": 1.366e-05, "elapsed_time_per_iteration": 4.95890951, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 32s", "remaining_time": "3h 31m 44s", "loss_scale": 1.0, "consumed_samples": 2586880, "global_step/max_steps": "10105/12700"}
{"lm loss": 2.04593325, "grad_norm": 0.33412656, "learning_rate": 1.365e-05, "elapsed_time_per_iteration": 4.84730864, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 37s", "remaining_time": "3h 31m 39s", "loss_scale": 1.0, "consumed_samples": 2587136, "global_step/max_steps": "10106/12700"}
{"lm loss": 2.02680373, "grad_norm": 0.32973859, "learning_rate": 1.364e-05, "elapsed_time_per_iteration": 4.89270306, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 42s", "remaining_time": "3h 31m 34s", "loss_scale": 1.0, "consumed_samples": 2587392, "global_step/max_steps": "10107/12700"}
{"lm loss": 2.09899473, "grad_norm": 0.33156699, "learning_rate": 1.363e-05, "elapsed_time_per_iteration": 4.8665123, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 47s", "remaining_time": "3h 31m 30s", "loss_scale": 1.0, "consumed_samples": 2587648, "global_step/max_steps": "10108/12700"}
{"lm loss": 2.06298351, "grad_norm": 0.33429611, "learning_rate": 1.363e-05, "elapsed_time_per_iteration": 4.85355854, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 52s", "remaining_time": "3h 31m 25s", "loss_scale": 1.0, "consumed_samples": 2587904, "global_step/max_steps": "10109/12700"}
{"lm loss": 2.05324721, "grad_norm": 0.33573222, "learning_rate": 1.362e-05, "elapsed_time_per_iteration": 4.85380912, "memory(GiB)": 28.98, "elapsed_time": "13h 44m 56s", "remaining_time": "3h 31m 20s", "loss_scale": 1.0, "consumed_samples": 2588160, "global_step/max_steps": "10110/12700"}
{"lm loss": 2.084692, "grad_norm": 0.33905515, "learning_rate": 1.361e-05, "elapsed_time_per_iteration": 4.82828784, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 1s", "remaining_time": "3h 31m 15s", "loss_scale": 1.0, "consumed_samples": 2588416, "global_step/max_steps": "10111/12700"}
{"lm loss": 2.0285573, "grad_norm": 0.3080152, "learning_rate": 1.36e-05, "elapsed_time_per_iteration": 4.82277513, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 6s", "remaining_time": "3h 31m 10s", "loss_scale": 1.0, "consumed_samples": 2588672, "global_step/max_steps": "10112/12700"}
{"lm loss": 2.06459212, "grad_norm": 0.33008412, "learning_rate": 1.359e-05, "elapsed_time_per_iteration": 4.89917541, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 11s", "remaining_time": "3h 31m 5s", "loss_scale": 1.0, "consumed_samples": 2588928, "global_step/max_steps": "10113/12700"}
{"lm loss": 2.063061, "grad_norm": 0.32636046, "learning_rate": 1.359e-05, "elapsed_time_per_iteration": 4.92421532, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 16s", "remaining_time": "3h 31m 0s", "loss_scale": 1.0, "consumed_samples": 2589184, "global_step/max_steps": "10114/12700"}
{"lm loss": 2.03936839, "grad_norm": 0.32660985, "learning_rate": 1.358e-05, "elapsed_time_per_iteration": 4.88553905, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 21s", "remaining_time": "3h 30m 55s", "loss_scale": 1.0, "consumed_samples": 2589440, "global_step/max_steps": "10115/12700"}
{"lm loss": 2.01995587, "grad_norm": 0.35015783, "learning_rate": 1.357e-05, "elapsed_time_per_iteration": 4.94192648, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 26s", "remaining_time": "3h 30m 50s", "loss_scale": 1.0, "consumed_samples": 2589696, "global_step/max_steps": "10116/12700"}
{"lm loss": 2.04266262, "grad_norm": 0.33636251, "learning_rate": 1.356e-05, "elapsed_time_per_iteration": 4.89271426, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 31s", "remaining_time": "3h 30m 45s", "loss_scale": 1.0, "consumed_samples": 2589952, "global_step/max_steps": "10117/12700"}
{"lm loss": 2.05850434, "grad_norm": 0.33055905, "learning_rate": 1.355e-05, "elapsed_time_per_iteration": 4.84596729, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 35s", "remaining_time": "3h 30m 41s", "loss_scale": 1.0, "consumed_samples": 2590208, "global_step/max_steps": "10118/12700"}
{"lm loss": 2.05661798, "grad_norm": 0.32635939, "learning_rate": 1.355e-05, "elapsed_time_per_iteration": 4.85669899, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 40s", "remaining_time": "3h 30m 36s", "loss_scale": 1.0, "consumed_samples": 2590464, "global_step/max_steps": "10119/12700"}
{"lm loss": 2.03170609, "grad_norm": 0.34330264, "learning_rate": 1.354e-05, "elapsed_time_per_iteration": 4.94689393, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 45s", "remaining_time": "3h 30m 31s", "loss_scale": 1.0, "consumed_samples": 2590720, "global_step/max_steps": "10120/12700"}
{"lm loss": 2.06346822, "grad_norm": 0.37662068, "learning_rate": 1.353e-05, "elapsed_time_per_iteration": 4.7297051, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 50s", "remaining_time": "3h 30m 26s", "loss_scale": 1.0, "consumed_samples": 2590976, "global_step/max_steps": "10121/12700"}
{"lm loss": 2.01738882, "grad_norm": 0.33081514, "learning_rate": 1.352e-05, "elapsed_time_per_iteration": 4.83976483, "memory(GiB)": 28.98, "elapsed_time": "13h 45m 55s", "remaining_time": "3h 30m 21s", "loss_scale": 1.0, "consumed_samples": 2591232, "global_step/max_steps": "10122/12700"}
{"lm loss": 2.04065847, "grad_norm": 0.31838968, "learning_rate": 1.352e-05, "elapsed_time_per_iteration": 5.02157688, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 0s", "remaining_time": "3h 30m 16s", "loss_scale": 1.0, "consumed_samples": 2591488, "global_step/max_steps": "10123/12700"}
{"lm loss": 2.06189609, "grad_norm": 0.3250587, "learning_rate": 1.351e-05, "elapsed_time_per_iteration": 5.00977039, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 5s", "remaining_time": "3h 30m 11s", "loss_scale": 1.0, "consumed_samples": 2591744, "global_step/max_steps": "10124/12700"}
{"lm loss": 2.0322485, "grad_norm": 0.34256634, "learning_rate": 1.35e-05, "elapsed_time_per_iteration": 4.85825634, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 10s", "remaining_time": "3h 30m 6s", "loss_scale": 1.0, "consumed_samples": 2592000, "global_step/max_steps": "10125/12700"}
{"lm loss": 2.06308198, "grad_norm": 0.35335824, "learning_rate": 1.349e-05, "elapsed_time_per_iteration": 4.88658834, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 15s", "remaining_time": "3h 30m 1s", "loss_scale": 1.0, "consumed_samples": 2592256, "global_step/max_steps": "10126/12700"}
{"lm loss": 1.99132049, "grad_norm": 0.34094587, "learning_rate": 1.348e-05, "elapsed_time_per_iteration": 4.97172594, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 20s", "remaining_time": "3h 29m 56s", "loss_scale": 1.0, "consumed_samples": 2592512, "global_step/max_steps": "10127/12700"}
{"lm loss": 2.05949283, "grad_norm": 0.35275304, "learning_rate": 1.348e-05, "elapsed_time_per_iteration": 4.79893756, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 24s", "remaining_time": "3h 29m 52s", "loss_scale": 1.0, "consumed_samples": 2592768, "global_step/max_steps": "10128/12700"}
{"lm loss": 2.09909749, "grad_norm": 0.34129822, "learning_rate": 1.347e-05, "elapsed_time_per_iteration": 4.80002832, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 29s", "remaining_time": "3h 29m 47s", "loss_scale": 1.0, "consumed_samples": 2593024, "global_step/max_steps": "10129/12700"}
{"lm loss": 2.06541348, "grad_norm": 0.32630771, "learning_rate": 1.346e-05, "elapsed_time_per_iteration": 4.90026522, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 34s", "remaining_time": "3h 29m 42s", "loss_scale": 1.0, "consumed_samples": 2593280, "global_step/max_steps": "10130/12700"}
{"lm loss": 2.0318253, "grad_norm": 0.34052607, "learning_rate": 1.345e-05, "elapsed_time_per_iteration": 4.86940765, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 39s", "remaining_time": "3h 29m 37s", "loss_scale": 1.0, "consumed_samples": 2593536, "global_step/max_steps": "10131/12700"}
{"lm loss": 2.06340432, "grad_norm": 0.32985312, "learning_rate": 1.344e-05, "elapsed_time_per_iteration": 4.85939288, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 44s", "remaining_time": "3h 29m 32s", "loss_scale": 1.0, "consumed_samples": 2593792, "global_step/max_steps": "10132/12700"}
{"lm loss": 2.07973814, "grad_norm": 0.32275656, "learning_rate": 1.344e-05, "elapsed_time_per_iteration": 4.99856615, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 49s", "remaining_time": "3h 29m 27s", "loss_scale": 1.0, "consumed_samples": 2594048, "global_step/max_steps": "10133/12700"}
{"lm loss": 2.03252554, "grad_norm": 0.3388055, "learning_rate": 1.343e-05, "elapsed_time_per_iteration": 4.9026866, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 54s", "remaining_time": "3h 29m 22s", "loss_scale": 1.0, "consumed_samples": 2594304, "global_step/max_steps": "10134/12700"}
{"lm loss": 2.02759147, "grad_norm": 0.32679397, "learning_rate": 1.342e-05, "elapsed_time_per_iteration": 4.92698956, "memory(GiB)": 28.98, "elapsed_time": "13h 46m 59s", "remaining_time": "3h 29m 17s", "loss_scale": 1.0, "consumed_samples": 2594560, "global_step/max_steps": "10135/12700"}
{"lm loss": 2.04333496, "grad_norm": 0.32925802, "learning_rate": 1.341e-05, "elapsed_time_per_iteration": 4.83010697, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 3s", "remaining_time": "3h 29m 12s", "loss_scale": 1.0, "consumed_samples": 2594816, "global_step/max_steps": "10136/12700"}
{"lm loss": 2.05811954, "grad_norm": 0.35010201, "learning_rate": 1.341e-05, "elapsed_time_per_iteration": 4.86503363, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 8s", "remaining_time": "3h 29m 7s", "loss_scale": 1.0, "consumed_samples": 2595072, "global_step/max_steps": "10137/12700"}
{"lm loss": 2.02563214, "grad_norm": 0.33597672, "learning_rate": 1.34e-05, "elapsed_time_per_iteration": 4.8631742, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 13s", "remaining_time": "3h 29m 3s", "loss_scale": 1.0, "consumed_samples": 2595328, "global_step/max_steps": "10138/12700"}
{"lm loss": 2.02233338, "grad_norm": 0.32079965, "learning_rate": 1.339e-05, "elapsed_time_per_iteration": 4.95921516, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 18s", "remaining_time": "3h 28m 58s", "loss_scale": 1.0, "consumed_samples": 2595584, "global_step/max_steps": "10139/12700"}
{"lm loss": 2.06516147, "grad_norm": 0.31637713, "learning_rate": 1.338e-05, "elapsed_time_per_iteration": 4.82827377, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 23s", "remaining_time": "3h 28m 53s", "loss_scale": 1.0, "consumed_samples": 2595840, "global_step/max_steps": "10140/12700"}
{"lm loss": 2.03863502, "grad_norm": 0.33891612, "learning_rate": 1.337e-05, "elapsed_time_per_iteration": 4.8484745, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 28s", "remaining_time": "3h 28m 48s", "loss_scale": 1.0, "consumed_samples": 2596096, "global_step/max_steps": "10141/12700"}
{"lm loss": 2.02233458, "grad_norm": 0.32664096, "learning_rate": 1.337e-05, "elapsed_time_per_iteration": 4.95008135, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 33s", "remaining_time": "3h 28m 43s", "loss_scale": 1.0, "consumed_samples": 2596352, "global_step/max_steps": "10142/12700"}
{"lm loss": 2.09663963, "grad_norm": 0.33625439, "learning_rate": 1.336e-05, "elapsed_time_per_iteration": 4.91036367, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 38s", "remaining_time": "3h 28m 38s", "loss_scale": 1.0, "consumed_samples": 2596608, "global_step/max_steps": "10143/12700"}
{"lm loss": 2.07027364, "grad_norm": 0.33782572, "learning_rate": 1.335e-05, "elapsed_time_per_iteration": 4.89129233, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 43s", "remaining_time": "3h 28m 33s", "loss_scale": 1.0, "consumed_samples": 2596864, "global_step/max_steps": "10144/12700"}
{"lm loss": 2.07063484, "grad_norm": 0.33167335, "learning_rate": 1.334e-05, "elapsed_time_per_iteration": 5.00637007, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 48s", "remaining_time": "3h 28m 28s", "loss_scale": 1.0, "consumed_samples": 2597120, "global_step/max_steps": "10145/12700"}
{"lm loss": 2.06354904, "grad_norm": 0.34727123, "learning_rate": 1.334e-05, "elapsed_time_per_iteration": 4.81192923, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 52s", "remaining_time": "3h 28m 23s", "loss_scale": 1.0, "consumed_samples": 2597376, "global_step/max_steps": "10146/12700"}
{"lm loss": 2.05415249, "grad_norm": 0.35145122, "learning_rate": 1.333e-05, "elapsed_time_per_iteration": 4.91053772, "memory(GiB)": 28.98, "elapsed_time": "13h 47m 57s", "remaining_time": "3h 28m 18s", "loss_scale": 1.0, "consumed_samples": 2597632, "global_step/max_steps": "10147/12700"}
{"lm loss": 2.05875659, "grad_norm": 0.34304926, "learning_rate": 1.332e-05, "elapsed_time_per_iteration": 4.91048384, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 2s", "remaining_time": "3h 28m 14s", "loss_scale": 1.0, "consumed_samples": 2597888, "global_step/max_steps": "10148/12700"}
{"lm loss": 2.06510258, "grad_norm": 0.3208541, "learning_rate": 1.331e-05, "elapsed_time_per_iteration": 4.86758995, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 7s", "remaining_time": "3h 28m 9s", "loss_scale": 1.0, "consumed_samples": 2598144, "global_step/max_steps": "10149/12700"}
{"lm loss": 2.01418686, "grad_norm": 0.36124876, "learning_rate": 1.33e-05, "elapsed_time_per_iteration": 4.88754725, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 12s", "remaining_time": "3h 28m 4s", "loss_scale": 1.0, "consumed_samples": 2598400, "global_step/max_steps": "10150/12700"}
{"lm loss": 2.06115627, "grad_norm": 0.34235278, "learning_rate": 1.33e-05, "elapsed_time_per_iteration": 4.9338448, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 17s", "remaining_time": "3h 27m 59s", "loss_scale": 1.0, "consumed_samples": 2598656, "global_step/max_steps": "10151/12700"}
{"lm loss": 2.04076552, "grad_norm": 0.36048386, "learning_rate": 1.329e-05, "elapsed_time_per_iteration": 4.89323473, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 22s", "remaining_time": "3h 27m 54s", "loss_scale": 1.0, "consumed_samples": 2598912, "global_step/max_steps": "10152/12700"}
{"lm loss": 2.09746075, "grad_norm": 0.35776716, "learning_rate": 1.328e-05, "elapsed_time_per_iteration": 4.93130112, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 27s", "remaining_time": "3h 27m 49s", "loss_scale": 1.0, "consumed_samples": 2599168, "global_step/max_steps": "10153/12700"}
{"lm loss": 2.04175186, "grad_norm": 0.32642049, "learning_rate": 1.327e-05, "elapsed_time_per_iteration": 4.91306686, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 32s", "remaining_time": "3h 27m 44s", "loss_scale": 1.0, "consumed_samples": 2599424, "global_step/max_steps": "10154/12700"}
{"lm loss": 2.06013584, "grad_norm": 0.34587607, "learning_rate": 1.327e-05, "elapsed_time_per_iteration": 5.08462381, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 37s", "remaining_time": "3h 27m 39s", "loss_scale": 1.0, "consumed_samples": 2599680, "global_step/max_steps": "10155/12700"}
{"lm loss": 2.04015517, "grad_norm": 0.36077106, "learning_rate": 1.326e-05, "elapsed_time_per_iteration": 4.8849895, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 42s", "remaining_time": "3h 27m 34s", "loss_scale": 1.0, "consumed_samples": 2599936, "global_step/max_steps": "10156/12700"}
{"lm loss": 2.04807663, "grad_norm": 0.33550188, "learning_rate": 1.325e-05, "elapsed_time_per_iteration": 4.84206533, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 46s", "remaining_time": "3h 27m 30s", "loss_scale": 1.0, "consumed_samples": 2600192, "global_step/max_steps": "10157/12700"}
{"lm loss": 2.08225465, "grad_norm": 0.34439293, "learning_rate": 1.324e-05, "elapsed_time_per_iteration": 4.85396171, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 51s", "remaining_time": "3h 27m 25s", "loss_scale": 1.0, "consumed_samples": 2600448, "global_step/max_steps": "10158/12700"}
{"lm loss": 2.0611434, "grad_norm": 0.36683521, "learning_rate": 1.323e-05, "elapsed_time_per_iteration": 4.87124562, "memory(GiB)": 28.98, "elapsed_time": "13h 48m 56s", "remaining_time": "3h 27m 20s", "loss_scale": 1.0, "consumed_samples": 2600704, "global_step/max_steps": "10159/12700"}
{"lm loss": 2.06009293, "grad_norm": 0.34069014, "learning_rate": 1.323e-05, "elapsed_time_per_iteration": 4.83602357, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 1s", "remaining_time": "3h 27m 15s", "loss_scale": 1.0, "consumed_samples": 2600960, "global_step/max_steps": "10160/12700"}
{"lm loss": 2.08314562, "grad_norm": 0.33031735, "learning_rate": 1.322e-05, "elapsed_time_per_iteration": 4.90026283, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 6s", "remaining_time": "3h 27m 10s", "loss_scale": 1.0, "consumed_samples": 2601216, "global_step/max_steps": "10161/12700"}
{"lm loss": 2.03914952, "grad_norm": 0.33129209, "learning_rate": 1.321e-05, "elapsed_time_per_iteration": 4.94664669, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 11s", "remaining_time": "3h 27m 5s", "loss_scale": 1.0, "consumed_samples": 2601472, "global_step/max_steps": "10162/12700"}
{"lm loss": 2.03546357, "grad_norm": 0.34919116, "learning_rate": 1.32e-05, "elapsed_time_per_iteration": 4.91931081, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 16s", "remaining_time": "3h 27m 0s", "loss_scale": 1.0, "consumed_samples": 2601728, "global_step/max_steps": "10163/12700"}
{"lm loss": 2.02648759, "grad_norm": 0.33207303, "learning_rate": 1.32e-05, "elapsed_time_per_iteration": 4.94798446, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 21s", "remaining_time": "3h 26m 55s", "loss_scale": 1.0, "consumed_samples": 2601984, "global_step/max_steps": "10164/12700"}
{"lm loss": 2.05443525, "grad_norm": 0.34109524, "learning_rate": 1.319e-05, "elapsed_time_per_iteration": 4.88967514, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 26s", "remaining_time": "3h 26m 50s", "loss_scale": 1.0, "consumed_samples": 2602240, "global_step/max_steps": "10165/12700"}
{"lm loss": 2.05173063, "grad_norm": 0.33161697, "learning_rate": 1.318e-05, "elapsed_time_per_iteration": 4.86516452, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 30s", "remaining_time": "3h 26m 46s", "loss_scale": 1.0, "consumed_samples": 2602496, "global_step/max_steps": "10166/12700"}
{"lm loss": 2.05324483, "grad_norm": 0.34173116, "learning_rate": 1.317e-05, "elapsed_time_per_iteration": 4.89551926, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 35s", "remaining_time": "3h 26m 41s", "loss_scale": 1.0, "consumed_samples": 2602752, "global_step/max_steps": "10167/12700"}
{"lm loss": 2.02849245, "grad_norm": 0.33413783, "learning_rate": 1.316e-05, "elapsed_time_per_iteration": 4.84123111, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 40s", "remaining_time": "3h 26m 36s", "loss_scale": 1.0, "consumed_samples": 2603008, "global_step/max_steps": "10168/12700"}
{"lm loss": 2.0677433, "grad_norm": 0.31988278, "learning_rate": 1.316e-05, "elapsed_time_per_iteration": 4.96960926, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 45s", "remaining_time": "3h 26m 31s", "loss_scale": 1.0, "consumed_samples": 2603264, "global_step/max_steps": "10169/12700"}
{"lm loss": 2.0453229, "grad_norm": 0.36487415, "learning_rate": 1.315e-05, "elapsed_time_per_iteration": 5.00070667, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 50s", "remaining_time": "3h 26m 26s", "loss_scale": 1.0, "consumed_samples": 2603520, "global_step/max_steps": "10170/12700"}
{"lm loss": 2.06548333, "grad_norm": 0.34241897, "learning_rate": 1.314e-05, "elapsed_time_per_iteration": 4.87510276, "memory(GiB)": 28.98, "elapsed_time": "13h 49m 55s", "remaining_time": "3h 26m 21s", "loss_scale": 1.0, "consumed_samples": 2603776, "global_step/max_steps": "10171/12700"}
{"lm loss": 2.07942605, "grad_norm": 0.3378199, "learning_rate": 1.313e-05, "elapsed_time_per_iteration": 4.95016432, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 0s", "remaining_time": "3h 26m 16s", "loss_scale": 1.0, "consumed_samples": 2604032, "global_step/max_steps": "10172/12700"}
{"lm loss": 2.09451199, "grad_norm": 0.34181032, "learning_rate": 1.313e-05, "elapsed_time_per_iteration": 4.962111, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 5s", "remaining_time": "3h 26m 11s", "loss_scale": 1.0, "consumed_samples": 2604288, "global_step/max_steps": "10173/12700"}
{"lm loss": 2.03054905, "grad_norm": 0.32966569, "learning_rate": 1.312e-05, "elapsed_time_per_iteration": 4.86308813, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 10s", "remaining_time": "3h 26m 6s", "loss_scale": 1.0, "consumed_samples": 2604544, "global_step/max_steps": "10174/12700"}
{"lm loss": 2.07907271, "grad_norm": 0.31961921, "learning_rate": 1.311e-05, "elapsed_time_per_iteration": 4.86322808, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 15s", "remaining_time": "3h 26m 1s", "loss_scale": 1.0, "consumed_samples": 2604800, "global_step/max_steps": "10175/12700"}
{"lm loss": 2.04375482, "grad_norm": 0.32969964, "learning_rate": 1.31e-05, "elapsed_time_per_iteration": 4.89288163, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 20s", "remaining_time": "3h 25m 57s", "loss_scale": 1.0, "consumed_samples": 2605056, "global_step/max_steps": "10176/12700"}
{"lm loss": 2.04872894, "grad_norm": 0.33328536, "learning_rate": 1.31e-05, "elapsed_time_per_iteration": 4.88299251, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 24s", "remaining_time": "3h 25m 52s", "loss_scale": 1.0, "consumed_samples": 2605312, "global_step/max_steps": "10177/12700"}
{"lm loss": 2.0483427, "grad_norm": 0.32779464, "learning_rate": 1.309e-05, "elapsed_time_per_iteration": 4.91025782, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 29s", "remaining_time": "3h 25m 47s", "loss_scale": 1.0, "consumed_samples": 2605568, "global_step/max_steps": "10178/12700"}
{"lm loss": 2.02868795, "grad_norm": 0.33477545, "learning_rate": 1.308e-05, "elapsed_time_per_iteration": 4.97623777, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 34s", "remaining_time": "3h 25m 42s", "loss_scale": 1.0, "consumed_samples": 2605824, "global_step/max_steps": "10179/12700"}
{"lm loss": 2.0703702, "grad_norm": 0.32932445, "learning_rate": 1.307e-05, "elapsed_time_per_iteration": 4.92072749, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 39s", "remaining_time": "3h 25m 37s", "loss_scale": 1.0, "consumed_samples": 2606080, "global_step/max_steps": "10180/12700"}
{"lm loss": 2.06523013, "grad_norm": 0.33212048, "learning_rate": 1.306e-05, "elapsed_time_per_iteration": 4.82342815, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 44s", "remaining_time": "3h 25m 32s", "loss_scale": 1.0, "consumed_samples": 2606336, "global_step/max_steps": "10181/12700"}
{"lm loss": 2.0132277, "grad_norm": 0.32338038, "learning_rate": 1.306e-05, "elapsed_time_per_iteration": 5.02954555, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 49s", "remaining_time": "3h 25m 27s", "loss_scale": 1.0, "consumed_samples": 2606592, "global_step/max_steps": "10182/12700"}
{"lm loss": 2.0609045, "grad_norm": 0.33194101, "learning_rate": 1.305e-05, "elapsed_time_per_iteration": 4.98098278, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 54s", "remaining_time": "3h 25m 22s", "loss_scale": 1.0, "consumed_samples": 2606848, "global_step/max_steps": "10183/12700"}
{"lm loss": 2.04788685, "grad_norm": 0.34316286, "learning_rate": 1.304e-05, "elapsed_time_per_iteration": 5.08964014, "memory(GiB)": 28.98, "elapsed_time": "13h 50m 59s", "remaining_time": "3h 25m 18s", "loss_scale": 1.0, "consumed_samples": 2607104, "global_step/max_steps": "10184/12700"}
{"lm loss": 2.05894375, "grad_norm": 0.34058681, "learning_rate": 1.303e-05, "elapsed_time_per_iteration": 4.95644736, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 4s", "remaining_time": "3h 25m 13s", "loss_scale": 1.0, "consumed_samples": 2607360, "global_step/max_steps": "10185/12700"}
{"lm loss": 2.09141922, "grad_norm": 0.33800197, "learning_rate": 1.303e-05, "elapsed_time_per_iteration": 4.8917737, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 9s", "remaining_time": "3h 25m 8s", "loss_scale": 1.0, "consumed_samples": 2607616, "global_step/max_steps": "10186/12700"}
{"lm loss": 2.08919072, "grad_norm": 0.3321296, "learning_rate": 1.302e-05, "elapsed_time_per_iteration": 4.89885163, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 14s", "remaining_time": "3h 25m 3s", "loss_scale": 1.0, "consumed_samples": 2607872, "global_step/max_steps": "10187/12700"}
{"lm loss": 2.06440949, "grad_norm": 0.31728074, "learning_rate": 1.301e-05, "elapsed_time_per_iteration": 4.85748696, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 19s", "remaining_time": "3h 24m 58s", "loss_scale": 1.0, "consumed_samples": 2608128, "global_step/max_steps": "10188/12700"}
{"lm loss": 2.09292102, "grad_norm": 0.33294037, "learning_rate": 1.3e-05, "elapsed_time_per_iteration": 4.84050322, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 24s", "remaining_time": "3h 24m 53s", "loss_scale": 1.0, "consumed_samples": 2608384, "global_step/max_steps": "10189/12700"}
{"lm loss": 2.04939866, "grad_norm": 0.33782801, "learning_rate": 1.3e-05, "elapsed_time_per_iteration": 4.90438843, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 29s", "remaining_time": "3h 24m 48s", "loss_scale": 1.0, "consumed_samples": 2608640, "global_step/max_steps": "10190/12700"}
{"lm loss": 2.04270244, "grad_norm": 0.33919951, "learning_rate": 1.299e-05, "elapsed_time_per_iteration": 4.81729531, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 33s", "remaining_time": "3h 24m 43s", "loss_scale": 1.0, "consumed_samples": 2608896, "global_step/max_steps": "10191/12700"}
{"lm loss": 2.04376054, "grad_norm": 0.34152234, "learning_rate": 1.298e-05, "elapsed_time_per_iteration": 4.90541434, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 38s", "remaining_time": "3h 24m 38s", "loss_scale": 1.0, "consumed_samples": 2609152, "global_step/max_steps": "10192/12700"}
{"lm loss": 2.0459311, "grad_norm": 0.33812869, "learning_rate": 1.297e-05, "elapsed_time_per_iteration": 4.8859272, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 43s", "remaining_time": "3h 24m 33s", "loss_scale": 1.0, "consumed_samples": 2609408, "global_step/max_steps": "10193/12700"}
{"lm loss": 2.06211877, "grad_norm": 0.33741143, "learning_rate": 1.296e-05, "elapsed_time_per_iteration": 4.87949872, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 48s", "remaining_time": "3h 24m 29s", "loss_scale": 1.0, "consumed_samples": 2609664, "global_step/max_steps": "10194/12700"}
{"lm loss": 2.03230929, "grad_norm": 0.33868048, "learning_rate": 1.296e-05, "elapsed_time_per_iteration": 4.83798194, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 53s", "remaining_time": "3h 24m 24s", "loss_scale": 1.0, "consumed_samples": 2609920, "global_step/max_steps": "10195/12700"}
{"lm loss": 2.03600931, "grad_norm": 0.33626765, "learning_rate": 1.295e-05, "elapsed_time_per_iteration": 4.82386637, "memory(GiB)": 28.98, "elapsed_time": "13h 51m 58s", "remaining_time": "3h 24m 19s", "loss_scale": 1.0, "consumed_samples": 2610176, "global_step/max_steps": "10196/12700"}
{"lm loss": 2.05718398, "grad_norm": 0.33496547, "learning_rate": 1.294e-05, "elapsed_time_per_iteration": 4.88799119, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 3s", "remaining_time": "3h 24m 14s", "loss_scale": 1.0, "consumed_samples": 2610432, "global_step/max_steps": "10197/12700"}
{"lm loss": 2.08323526, "grad_norm": 0.32597294, "learning_rate": 1.293e-05, "elapsed_time_per_iteration": 4.83319044, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 7s", "remaining_time": "3h 24m 9s", "loss_scale": 1.0, "consumed_samples": 2610688, "global_step/max_steps": "10198/12700"}
{"lm loss": 2.01940751, "grad_norm": 0.35343927, "learning_rate": 1.293e-05, "elapsed_time_per_iteration": 4.86176944, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 12s", "remaining_time": "3h 24m 4s", "loss_scale": 1.0, "consumed_samples": 2610944, "global_step/max_steps": "10199/12700"}
{"lm loss": 2.05952907, "grad_norm": 0.34285879, "learning_rate": 1.292e-05, "elapsed_time_per_iteration": 4.89601684, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 17s", "remaining_time": "3h 23m 59s", "loss_scale": 1.0, "consumed_samples": 2611200, "global_step/max_steps": "10200/12700"}
{"lm loss": 2.09014988, "grad_norm": 0.33685824, "learning_rate": 1.291e-05, "elapsed_time_per_iteration": 4.9412303, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 22s", "remaining_time": "3h 23m 54s", "loss_scale": 1.0, "consumed_samples": 2611456, "global_step/max_steps": "10201/12700"}
{"lm loss": 2.08752012, "grad_norm": 0.32430452, "learning_rate": 1.29e-05, "elapsed_time_per_iteration": 4.85158205, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 27s", "remaining_time": "3h 23m 49s", "loss_scale": 1.0, "consumed_samples": 2611712, "global_step/max_steps": "10202/12700"}
{"lm loss": 2.06526017, "grad_norm": 0.37020946, "learning_rate": 1.29e-05, "elapsed_time_per_iteration": 4.97947741, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 32s", "remaining_time": "3h 23m 44s", "loss_scale": 1.0, "consumed_samples": 2611968, "global_step/max_steps": "10203/12700"}
{"lm loss": 2.05467963, "grad_norm": 0.31987047, "learning_rate": 1.289e-05, "elapsed_time_per_iteration": 4.94183993, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 37s", "remaining_time": "3h 23m 40s", "loss_scale": 1.0, "consumed_samples": 2612224, "global_step/max_steps": "10204/12700"}
{"lm loss": 2.05940723, "grad_norm": 0.3356491, "learning_rate": 1.288e-05, "elapsed_time_per_iteration": 4.797719, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 42s", "remaining_time": "3h 23m 35s", "loss_scale": 1.0, "consumed_samples": 2612480, "global_step/max_steps": "10205/12700"}
{"lm loss": 2.07081842, "grad_norm": 0.33639681, "learning_rate": 1.287e-05, "elapsed_time_per_iteration": 4.89130759, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 47s", "remaining_time": "3h 23m 30s", "loss_scale": 1.0, "consumed_samples": 2612736, "global_step/max_steps": "10206/12700"}
{"lm loss": 2.07362151, "grad_norm": 0.32770005, "learning_rate": 1.286e-05, "elapsed_time_per_iteration": 4.89671254, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 51s", "remaining_time": "3h 23m 25s", "loss_scale": 1.0, "consumed_samples": 2612992, "global_step/max_steps": "10207/12700"}
{"lm loss": 2.07050347, "grad_norm": 0.33803791, "learning_rate": 1.286e-05, "elapsed_time_per_iteration": 4.90025377, "memory(GiB)": 28.98, "elapsed_time": "13h 52m 56s", "remaining_time": "3h 23m 20s", "loss_scale": 1.0, "consumed_samples": 2613248, "global_step/max_steps": "10208/12700"}
{"lm loss": 2.06978559, "grad_norm": 0.3237206, "learning_rate": 1.285e-05, "elapsed_time_per_iteration": 4.84880137, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 1s", "remaining_time": "3h 23m 15s", "loss_scale": 1.0, "consumed_samples": 2613504, "global_step/max_steps": "10209/12700"}
{"lm loss": 2.04414845, "grad_norm": 0.33196163, "learning_rate": 1.284e-05, "elapsed_time_per_iteration": 5.14379358, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 6s", "remaining_time": "3h 23m 10s", "loss_scale": 1.0, "consumed_samples": 2613760, "global_step/max_steps": "10210/12700"}
{"lm loss": 2.06888771, "grad_norm": 0.34226537, "learning_rate": 1.283e-05, "elapsed_time_per_iteration": 4.79200029, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 11s", "remaining_time": "3h 23m 5s", "loss_scale": 1.0, "consumed_samples": 2614016, "global_step/max_steps": "10211/12700"}
{"lm loss": 2.08028865, "grad_norm": 0.32176164, "learning_rate": 1.283e-05, "elapsed_time_per_iteration": 4.83961987, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 16s", "remaining_time": "3h 23m 0s", "loss_scale": 1.0, "consumed_samples": 2614272, "global_step/max_steps": "10212/12700"}
{"lm loss": 2.06926632, "grad_norm": 0.3283878, "learning_rate": 1.282e-05, "elapsed_time_per_iteration": 4.97125649, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 21s", "remaining_time": "3h 22m 56s", "loss_scale": 1.0, "consumed_samples": 2614528, "global_step/max_steps": "10213/12700"}
{"lm loss": 2.01620746, "grad_norm": 0.33781564, "learning_rate": 1.281e-05, "elapsed_time_per_iteration": 4.80175972, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 26s", "remaining_time": "3h 22m 51s", "loss_scale": 1.0, "consumed_samples": 2614784, "global_step/max_steps": "10214/12700"}
{"lm loss": 2.07363725, "grad_norm": 0.32222003, "learning_rate": 1.28e-05, "elapsed_time_per_iteration": 4.87012863, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 31s", "remaining_time": "3h 22m 46s", "loss_scale": 1.0, "consumed_samples": 2615040, "global_step/max_steps": "10215/12700"}
{"lm loss": 2.03124404, "grad_norm": 0.33318719, "learning_rate": 1.28e-05, "elapsed_time_per_iteration": 4.96623325, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 36s", "remaining_time": "3h 22m 41s", "loss_scale": 1.0, "consumed_samples": 2615296, "global_step/max_steps": "10216/12700"}
{"lm loss": 2.03335643, "grad_norm": 0.30697244, "learning_rate": 1.279e-05, "elapsed_time_per_iteration": 4.95281863, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 41s", "remaining_time": "3h 22m 36s", "loss_scale": 1.0, "consumed_samples": 2615552, "global_step/max_steps": "10217/12700"}
{"lm loss": 2.02125645, "grad_norm": 0.32955471, "learning_rate": 1.278e-05, "elapsed_time_per_iteration": 4.9326973, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 45s", "remaining_time": "3h 22m 31s", "loss_scale": 1.0, "consumed_samples": 2615808, "global_step/max_steps": "10218/12700"}
{"lm loss": 2.05243635, "grad_norm": 0.33917114, "learning_rate": 1.277e-05, "elapsed_time_per_iteration": 4.8940413, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 50s", "remaining_time": "3h 22m 26s", "loss_scale": 1.0, "consumed_samples": 2616064, "global_step/max_steps": "10219/12700"}
{"lm loss": 2.07714868, "grad_norm": 0.34066468, "learning_rate": 1.277e-05, "elapsed_time_per_iteration": 4.84999728, "memory(GiB)": 28.98, "elapsed_time": "13h 53m 55s", "remaining_time": "3h 22m 21s", "loss_scale": 1.0, "consumed_samples": 2616320, "global_step/max_steps": "10220/12700"}
{"lm loss": 2.07894635, "grad_norm": 0.32718143, "learning_rate": 1.276e-05, "elapsed_time_per_iteration": 5.1044445, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 0s", "remaining_time": "3h 22m 16s", "loss_scale": 1.0, "consumed_samples": 2616576, "global_step/max_steps": "10221/12700"}
{"lm loss": 2.04581571, "grad_norm": 0.31199509, "learning_rate": 1.275e-05, "elapsed_time_per_iteration": 4.97373366, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 5s", "remaining_time": "3h 22m 12s", "loss_scale": 1.0, "consumed_samples": 2616832, "global_step/max_steps": "10222/12700"}
{"lm loss": 2.02927589, "grad_norm": 0.34101376, "learning_rate": 1.274e-05, "elapsed_time_per_iteration": 5.01501203, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 10s", "remaining_time": "3h 22m 7s", "loss_scale": 1.0, "consumed_samples": 2617088, "global_step/max_steps": "10223/12700"}
{"lm loss": 2.03487134, "grad_norm": 0.31527698, "learning_rate": 1.274e-05, "elapsed_time_per_iteration": 4.91286826, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 15s", "remaining_time": "3h 22m 2s", "loss_scale": 1.0, "consumed_samples": 2617344, "global_step/max_steps": "10224/12700"}
{"lm loss": 2.04187775, "grad_norm": 0.34543273, "learning_rate": 1.273e-05, "elapsed_time_per_iteration": 4.85074997, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 20s", "remaining_time": "3h 21m 57s", "loss_scale": 1.0, "consumed_samples": 2617600, "global_step/max_steps": "10225/12700"}
{"lm loss": 2.04075003, "grad_norm": 0.32949683, "learning_rate": 1.272e-05, "elapsed_time_per_iteration": 4.91433096, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 25s", "remaining_time": "3h 21m 52s", "loss_scale": 1.0, "consumed_samples": 2617856, "global_step/max_steps": "10226/12700"}
{"lm loss": 2.06411958, "grad_norm": 0.32326654, "learning_rate": 1.271e-05, "elapsed_time_per_iteration": 4.83532333, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 30s", "remaining_time": "3h 21m 47s", "loss_scale": 1.0, "consumed_samples": 2618112, "global_step/max_steps": "10227/12700"}
{"lm loss": 2.03652501, "grad_norm": 0.31655866, "learning_rate": 1.271e-05, "elapsed_time_per_iteration": 4.91305542, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 35s", "remaining_time": "3h 21m 42s", "loss_scale": 1.0, "consumed_samples": 2618368, "global_step/max_steps": "10228/12700"}
{"lm loss": 2.07928109, "grad_norm": 0.32688209, "learning_rate": 1.27e-05, "elapsed_time_per_iteration": 4.8560617, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 40s", "remaining_time": "3h 21m 37s", "loss_scale": 1.0, "consumed_samples": 2618624, "global_step/max_steps": "10229/12700"}
{"lm loss": 2.07415676, "grad_norm": 0.32932138, "learning_rate": 1.269e-05, "elapsed_time_per_iteration": 4.96559215, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 45s", "remaining_time": "3h 21m 32s", "loss_scale": 1.0, "consumed_samples": 2618880, "global_step/max_steps": "10230/12700"}
{"lm loss": 2.04938626, "grad_norm": 0.32327545, "learning_rate": 1.268e-05, "elapsed_time_per_iteration": 4.91258359, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 49s", "remaining_time": "3h 21m 27s", "loss_scale": 1.0, "consumed_samples": 2619136, "global_step/max_steps": "10231/12700"}
{"lm loss": 2.08704686, "grad_norm": 0.32403174, "learning_rate": 1.267e-05, "elapsed_time_per_iteration": 4.92665982, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 54s", "remaining_time": "3h 21m 23s", "loss_scale": 1.0, "consumed_samples": 2619392, "global_step/max_steps": "10232/12700"}
{"lm loss": 2.06747603, "grad_norm": 0.33234638, "learning_rate": 1.267e-05, "elapsed_time_per_iteration": 4.95429635, "memory(GiB)": 28.98, "elapsed_time": "13h 54m 59s", "remaining_time": "3h 21m 18s", "loss_scale": 1.0, "consumed_samples": 2619648, "global_step/max_steps": "10233/12700"}
{"lm loss": 2.0364337, "grad_norm": 0.30822703, "learning_rate": 1.266e-05, "elapsed_time_per_iteration": 4.98282313, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 4s", "remaining_time": "3h 21m 13s", "loss_scale": 1.0, "consumed_samples": 2619904, "global_step/max_steps": "10234/12700"}
{"lm loss": 2.05777049, "grad_norm": 0.32392102, "learning_rate": 1.265e-05, "elapsed_time_per_iteration": 4.87659931, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 9s", "remaining_time": "3h 21m 8s", "loss_scale": 1.0, "consumed_samples": 2620160, "global_step/max_steps": "10235/12700"}
{"lm loss": 2.08463931, "grad_norm": 0.32750726, "learning_rate": 1.264e-05, "elapsed_time_per_iteration": 4.7669735, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 14s", "remaining_time": "3h 21m 3s", "loss_scale": 1.0, "consumed_samples": 2620416, "global_step/max_steps": "10236/12700"}
{"lm loss": 2.02684784, "grad_norm": 0.33311182, "learning_rate": 1.264e-05, "elapsed_time_per_iteration": 4.91551208, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 19s", "remaining_time": "3h 20m 58s", "loss_scale": 1.0, "consumed_samples": 2620672, "global_step/max_steps": "10237/12700"}
{"lm loss": 2.07165885, "grad_norm": 0.35459983, "learning_rate": 1.263e-05, "elapsed_time_per_iteration": 4.89791107, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 24s", "remaining_time": "3h 20m 53s", "loss_scale": 1.0, "consumed_samples": 2620928, "global_step/max_steps": "10238/12700"}
{"lm loss": 2.02173901, "grad_norm": 0.3530089, "learning_rate": 1.262e-05, "elapsed_time_per_iteration": 4.83993912, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 29s", "remaining_time": "3h 20m 48s", "loss_scale": 1.0, "consumed_samples": 2621184, "global_step/max_steps": "10239/12700"}
{"lm loss": 2.08110666, "grad_norm": 0.33827287, "learning_rate": 1.261e-05, "elapsed_time_per_iteration": 4.94607162, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 34s", "remaining_time": "3h 20m 43s", "loss_scale": 1.0, "consumed_samples": 2621440, "global_step/max_steps": "10240/12700"}
{"lm loss": 2.0444479, "grad_norm": 0.32012513, "learning_rate": 1.261e-05, "elapsed_time_per_iteration": 4.86021924, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 38s", "remaining_time": "3h 20m 39s", "loss_scale": 1.0, "consumed_samples": 2621696, "global_step/max_steps": "10241/12700"}
{"lm loss": 2.04109597, "grad_norm": 0.34545964, "learning_rate": 1.26e-05, "elapsed_time_per_iteration": 4.95613885, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 43s", "remaining_time": "3h 20m 34s", "loss_scale": 1.0, "consumed_samples": 2621952, "global_step/max_steps": "10242/12700"}
{"lm loss": 2.02762842, "grad_norm": 0.34341604, "learning_rate": 1.259e-05, "elapsed_time_per_iteration": 4.86067724, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 48s", "remaining_time": "3h 20m 29s", "loss_scale": 1.0, "consumed_samples": 2622208, "global_step/max_steps": "10243/12700"}
{"lm loss": 2.03164506, "grad_norm": 0.33342987, "learning_rate": 1.258e-05, "elapsed_time_per_iteration": 4.88502145, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 53s", "remaining_time": "3h 20m 24s", "loss_scale": 1.0, "consumed_samples": 2622464, "global_step/max_steps": "10244/12700"}
{"lm loss": 2.04179978, "grad_norm": 0.33395401, "learning_rate": 1.258e-05, "elapsed_time_per_iteration": 4.88135862, "memory(GiB)": 28.98, "elapsed_time": "13h 55m 58s", "remaining_time": "3h 20m 19s", "loss_scale": 1.0, "consumed_samples": 2622720, "global_step/max_steps": "10245/12700"}
{"lm loss": 2.01847434, "grad_norm": 0.36164439, "learning_rate": 1.257e-05, "elapsed_time_per_iteration": 4.86881328, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 3s", "remaining_time": "3h 20m 14s", "loss_scale": 1.0, "consumed_samples": 2622976, "global_step/max_steps": "10246/12700"}
{"lm loss": 2.03780866, "grad_norm": 0.36122695, "learning_rate": 1.256e-05, "elapsed_time_per_iteration": 4.84576368, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 8s", "remaining_time": "3h 20m 9s", "loss_scale": 1.0, "consumed_samples": 2623232, "global_step/max_steps": "10247/12700"}
{"lm loss": 2.05777407, "grad_norm": 0.33269027, "learning_rate": 1.255e-05, "elapsed_time_per_iteration": 4.83638501, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 13s", "remaining_time": "3h 20m 4s", "loss_scale": 1.0, "consumed_samples": 2623488, "global_step/max_steps": "10248/12700"}
{"lm loss": 2.06390643, "grad_norm": 0.33998495, "learning_rate": 1.255e-05, "elapsed_time_per_iteration": 4.93129468, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 17s", "remaining_time": "3h 19m 59s", "loss_scale": 1.0, "consumed_samples": 2623744, "global_step/max_steps": "10249/12700"}
{"lm loss": 2.06620049, "grad_norm": 0.35199523, "learning_rate": 1.254e-05, "elapsed_time_per_iteration": 4.88627958, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 22s", "remaining_time": "3h 19m 54s", "loss_scale": 1.0, "consumed_samples": 2624000, "global_step/max_steps": "10250/12700"}
{"lm loss": 2.07408619, "grad_norm": 0.34148327, "learning_rate": 1.253e-05, "elapsed_time_per_iteration": 4.9015727, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 27s", "remaining_time": "3h 19m 50s", "loss_scale": 1.0, "consumed_samples": 2624256, "global_step/max_steps": "10251/12700"}
{"lm loss": 2.07969236, "grad_norm": 0.32794827, "learning_rate": 1.252e-05, "elapsed_time_per_iteration": 4.94704556, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 32s", "remaining_time": "3h 19m 45s", "loss_scale": 1.0, "consumed_samples": 2624512, "global_step/max_steps": "10252/12700"}
{"lm loss": 2.06051612, "grad_norm": 0.3251445, "learning_rate": 1.252e-05, "elapsed_time_per_iteration": 4.93607211, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 37s", "remaining_time": "3h 19m 40s", "loss_scale": 1.0, "consumed_samples": 2624768, "global_step/max_steps": "10253/12700"}
{"lm loss": 2.0121944, "grad_norm": 0.32723555, "learning_rate": 1.251e-05, "elapsed_time_per_iteration": 4.95325232, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 42s", "remaining_time": "3h 19m 35s", "loss_scale": 1.0, "consumed_samples": 2625024, "global_step/max_steps": "10254/12700"}
{"lm loss": 2.08356047, "grad_norm": 0.31827286, "learning_rate": 1.25e-05, "elapsed_time_per_iteration": 4.86733198, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 47s", "remaining_time": "3h 19m 30s", "loss_scale": 1.0, "consumed_samples": 2625280, "global_step/max_steps": "10255/12700"}
{"lm loss": 2.03214955, "grad_norm": 0.32698801, "learning_rate": 1.249e-05, "elapsed_time_per_iteration": 4.93150735, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 52s", "remaining_time": "3h 19m 25s", "loss_scale": 1.0, "consumed_samples": 2625536, "global_step/max_steps": "10256/12700"}
{"lm loss": 2.01633048, "grad_norm": 0.34772804, "learning_rate": 1.249e-05, "elapsed_time_per_iteration": 4.88545799, "memory(GiB)": 28.98, "elapsed_time": "13h 56m 57s", "remaining_time": "3h 19m 20s", "loss_scale": 1.0, "consumed_samples": 2625792, "global_step/max_steps": "10257/12700"}
{"lm loss": 2.04761648, "grad_norm": 0.32814673, "learning_rate": 1.248e-05, "elapsed_time_per_iteration": 4.91396737, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 2s", "remaining_time": "3h 19m 15s", "loss_scale": 1.0, "consumed_samples": 2626048, "global_step/max_steps": "10258/12700"}
{"lm loss": 2.04685378, "grad_norm": 0.31301636, "learning_rate": 1.247e-05, "elapsed_time_per_iteration": 4.83547854, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 7s", "remaining_time": "3h 19m 10s", "loss_scale": 1.0, "consumed_samples": 2626304, "global_step/max_steps": "10259/12700"}
{"lm loss": 2.04663682, "grad_norm": 0.34839469, "learning_rate": 1.246e-05, "elapsed_time_per_iteration": 4.84913874, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 11s", "remaining_time": "3h 19m 5s", "loss_scale": 1.0, "consumed_samples": 2626560, "global_step/max_steps": "10260/12700"}
{"lm loss": 2.08216429, "grad_norm": 0.32596484, "learning_rate": 1.246e-05, "elapsed_time_per_iteration": 4.90891933, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 16s", "remaining_time": "3h 19m 1s", "loss_scale": 1.0, "consumed_samples": 2626816, "global_step/max_steps": "10261/12700"}
{"lm loss": 2.06648159, "grad_norm": 0.32864365, "learning_rate": 1.245e-05, "elapsed_time_per_iteration": 4.85444856, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 21s", "remaining_time": "3h 18m 56s", "loss_scale": 1.0, "consumed_samples": 2627072, "global_step/max_steps": "10262/12700"}
{"lm loss": 2.07478476, "grad_norm": 0.33489871, "learning_rate": 1.244e-05, "elapsed_time_per_iteration": 4.89207554, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 26s", "remaining_time": "3h 18m 51s", "loss_scale": 1.0, "consumed_samples": 2627328, "global_step/max_steps": "10263/12700"}
{"lm loss": 2.0529604, "grad_norm": 0.34707773, "learning_rate": 1.243e-05, "elapsed_time_per_iteration": 4.84701896, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 31s", "remaining_time": "3h 18m 46s", "loss_scale": 1.0, "consumed_samples": 2627584, "global_step/max_steps": "10264/12700"}
{"lm loss": 2.06261015, "grad_norm": 0.32155371, "learning_rate": 1.243e-05, "elapsed_time_per_iteration": 4.81507778, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 36s", "remaining_time": "3h 18m 41s", "loss_scale": 1.0, "consumed_samples": 2627840, "global_step/max_steps": "10265/12700"}
{"lm loss": 2.04346466, "grad_norm": 0.32154304, "learning_rate": 1.242e-05, "elapsed_time_per_iteration": 4.86991882, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 41s", "remaining_time": "3h 18m 36s", "loss_scale": 1.0, "consumed_samples": 2628096, "global_step/max_steps": "10266/12700"}
{"lm loss": 2.04622364, "grad_norm": 0.31246769, "learning_rate": 1.241e-05, "elapsed_time_per_iteration": 4.93301654, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 46s", "remaining_time": "3h 18m 31s", "loss_scale": 1.0, "consumed_samples": 2628352, "global_step/max_steps": "10267/12700"}
{"lm loss": 2.0559988, "grad_norm": 0.33913895, "learning_rate": 1.24e-05, "elapsed_time_per_iteration": 4.99525237, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 51s", "remaining_time": "3h 18m 26s", "loss_scale": 1.0, "consumed_samples": 2628608, "global_step/max_steps": "10268/12700"}
{"lm loss": 2.06432366, "grad_norm": 0.32432628, "learning_rate": 1.24e-05, "elapsed_time_per_iteration": 4.90201831, "memory(GiB)": 28.98, "elapsed_time": "13h 57m 55s", "remaining_time": "3h 18m 21s", "loss_scale": 1.0, "consumed_samples": 2628864, "global_step/max_steps": "10269/12700"}
{"lm loss": 2.04129505, "grad_norm": 0.3281104, "learning_rate": 1.239e-05, "elapsed_time_per_iteration": 4.84821582, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 0s", "remaining_time": "3h 18m 17s", "loss_scale": 1.0, "consumed_samples": 2629120, "global_step/max_steps": "10270/12700"}
{"lm loss": 2.05408311, "grad_norm": 0.31742233, "learning_rate": 1.238e-05, "elapsed_time_per_iteration": 4.82248139, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 5s", "remaining_time": "3h 18m 12s", "loss_scale": 1.0, "consumed_samples": 2629376, "global_step/max_steps": "10271/12700"}
{"lm loss": 2.0408833, "grad_norm": 0.30949599, "learning_rate": 1.237e-05, "elapsed_time_per_iteration": 4.91773605, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 10s", "remaining_time": "3h 18m 7s", "loss_scale": 1.0, "consumed_samples": 2629632, "global_step/max_steps": "10272/12700"}
{"lm loss": 2.0386827, "grad_norm": 0.33723208, "learning_rate": 1.237e-05, "elapsed_time_per_iteration": 4.92006207, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 15s", "remaining_time": "3h 18m 2s", "loss_scale": 1.0, "consumed_samples": 2629888, "global_step/max_steps": "10273/12700"}
{"lm loss": 2.0532403, "grad_norm": 0.31811514, "learning_rate": 1.236e-05, "elapsed_time_per_iteration": 4.95252061, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 20s", "remaining_time": "3h 17m 57s", "loss_scale": 1.0, "consumed_samples": 2630144, "global_step/max_steps": "10274/12700"}
{"lm loss": 2.03066969, "grad_norm": 0.31964087, "learning_rate": 1.235e-05, "elapsed_time_per_iteration": 4.91141343, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 25s", "remaining_time": "3h 17m 52s", "loss_scale": 1.0, "consumed_samples": 2630400, "global_step/max_steps": "10275/12700"}
{"lm loss": 2.05269933, "grad_norm": 0.34130275, "learning_rate": 1.234e-05, "elapsed_time_per_iteration": 4.85217381, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 30s", "remaining_time": "3h 17m 47s", "loss_scale": 1.0, "consumed_samples": 2630656, "global_step/max_steps": "10276/12700"}
{"lm loss": 2.03242826, "grad_norm": 0.33333644, "learning_rate": 1.234e-05, "elapsed_time_per_iteration": 4.8470757, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 34s", "remaining_time": "3h 17m 42s", "loss_scale": 1.0, "consumed_samples": 2630912, "global_step/max_steps": "10277/12700"}
{"lm loss": 2.03273058, "grad_norm": 0.34812945, "learning_rate": 1.233e-05, "elapsed_time_per_iteration": 4.78129911, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 39s", "remaining_time": "3h 17m 37s", "loss_scale": 1.0, "consumed_samples": 2631168, "global_step/max_steps": "10278/12700"}
{"lm loss": 2.0454042, "grad_norm": 0.32526007, "learning_rate": 1.232e-05, "elapsed_time_per_iteration": 4.80147052, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 44s", "remaining_time": "3h 17m 32s", "loss_scale": 1.0, "consumed_samples": 2631424, "global_step/max_steps": "10279/12700"}
{"lm loss": 2.04105163, "grad_norm": 0.31730774, "learning_rate": 1.231e-05, "elapsed_time_per_iteration": 4.85944486, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 49s", "remaining_time": "3h 17m 27s", "loss_scale": 1.0, "consumed_samples": 2631680, "global_step/max_steps": "10280/12700"}
{"lm loss": 2.04035807, "grad_norm": 0.32030073, "learning_rate": 1.231e-05, "elapsed_time_per_iteration": 4.89277077, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 54s", "remaining_time": "3h 17m 23s", "loss_scale": 1.0, "consumed_samples": 2631936, "global_step/max_steps": "10281/12700"}
{"lm loss": 2.0343616, "grad_norm": 0.31375635, "learning_rate": 1.23e-05, "elapsed_time_per_iteration": 5.04052782, "memory(GiB)": 28.98, "elapsed_time": "13h 58m 59s", "remaining_time": "3h 17m 18s", "loss_scale": 1.0, "consumed_samples": 2632192, "global_step/max_steps": "10282/12700"}
{"lm loss": 2.0839386, "grad_norm": 0.3605105, "learning_rate": 1.229e-05, "elapsed_time_per_iteration": 4.9940536, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 4s", "remaining_time": "3h 17m 13s", "loss_scale": 1.0, "consumed_samples": 2632448, "global_step/max_steps": "10283/12700"}
{"lm loss": 2.04441237, "grad_norm": 0.31086689, "learning_rate": 1.228e-05, "elapsed_time_per_iteration": 4.83539033, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 9s", "remaining_time": "3h 17m 8s", "loss_scale": 1.0, "consumed_samples": 2632704, "global_step/max_steps": "10284/12700"}
{"lm loss": 2.04732418, "grad_norm": 0.31016093, "learning_rate": 1.228e-05, "elapsed_time_per_iteration": 4.88102508, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 14s", "remaining_time": "3h 17m 3s", "loss_scale": 1.0, "consumed_samples": 2632960, "global_step/max_steps": "10285/12700"}
{"lm loss": 2.00625062, "grad_norm": 0.33290973, "learning_rate": 1.227e-05, "elapsed_time_per_iteration": 4.87221622, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 18s", "remaining_time": "3h 16m 58s", "loss_scale": 1.0, "consumed_samples": 2633216, "global_step/max_steps": "10286/12700"}
{"lm loss": 2.08250475, "grad_norm": 0.32167265, "learning_rate": 1.226e-05, "elapsed_time_per_iteration": 4.82179117, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 23s", "remaining_time": "3h 16m 53s", "loss_scale": 1.0, "consumed_samples": 2633472, "global_step/max_steps": "10287/12700"}
{"lm loss": 2.0398891, "grad_norm": 0.35338342, "learning_rate": 1.226e-05, "elapsed_time_per_iteration": 4.93224669, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 28s", "remaining_time": "3h 16m 48s", "loss_scale": 1.0, "consumed_samples": 2633728, "global_step/max_steps": "10288/12700"}
{"lm loss": 2.05466032, "grad_norm": 0.31329191, "learning_rate": 1.225e-05, "elapsed_time_per_iteration": 4.8995297, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 33s", "remaining_time": "3h 16m 43s", "loss_scale": 1.0, "consumed_samples": 2633984, "global_step/max_steps": "10289/12700"}
{"lm loss": 2.04612517, "grad_norm": 0.32998675, "learning_rate": 1.224e-05, "elapsed_time_per_iteration": 4.9137013, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 38s", "remaining_time": "3h 16m 39s", "loss_scale": 1.0, "consumed_samples": 2634240, "global_step/max_steps": "10290/12700"}
{"lm loss": 2.0370338, "grad_norm": 0.33655608, "learning_rate": 1.223e-05, "elapsed_time_per_iteration": 4.90492153, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 43s", "remaining_time": "3h 16m 34s", "loss_scale": 1.0, "consumed_samples": 2634496, "global_step/max_steps": "10291/12700"}
{"lm loss": 2.10017848, "grad_norm": 0.31958067, "learning_rate": 1.223e-05, "elapsed_time_per_iteration": 4.99489689, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 48s", "remaining_time": "3h 16m 29s", "loss_scale": 1.0, "consumed_samples": 2634752, "global_step/max_steps": "10292/12700"}
{"lm loss": 2.0564065, "grad_norm": 0.31364202, "learning_rate": 1.222e-05, "elapsed_time_per_iteration": 4.90526128, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 53s", "remaining_time": "3h 16m 24s", "loss_scale": 1.0, "consumed_samples": 2635008, "global_step/max_steps": "10293/12700"}
{"lm loss": 2.05714226, "grad_norm": 0.33380651, "learning_rate": 1.221e-05, "elapsed_time_per_iteration": 4.88441014, "memory(GiB)": 28.98, "elapsed_time": "13h 59m 58s", "remaining_time": "3h 16m 19s", "loss_scale": 1.0, "consumed_samples": 2635264, "global_step/max_steps": "10294/12700"}
{"lm loss": 2.06142068, "grad_norm": 0.3648538, "learning_rate": 1.22e-05, "elapsed_time_per_iteration": 4.83574033, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 3s", "remaining_time": "3h 16m 14s", "loss_scale": 1.0, "consumed_samples": 2635520, "global_step/max_steps": "10295/12700"}
{"lm loss": 2.02987146, "grad_norm": 0.32364741, "learning_rate": 1.22e-05, "elapsed_time_per_iteration": 4.88863873, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 7s", "remaining_time": "3h 16m 9s", "loss_scale": 1.0, "consumed_samples": 2635776, "global_step/max_steps": "10296/12700"}
{"lm loss": 2.04590487, "grad_norm": 0.31787151, "learning_rate": 1.219e-05, "elapsed_time_per_iteration": 4.96076107, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 12s", "remaining_time": "3h 16m 4s", "loss_scale": 1.0, "consumed_samples": 2636032, "global_step/max_steps": "10297/12700"}
{"lm loss": 2.0136559, "grad_norm": 0.33367047, "learning_rate": 1.218e-05, "elapsed_time_per_iteration": 4.88428473, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 17s", "remaining_time": "3h 15m 59s", "loss_scale": 1.0, "consumed_samples": 2636288, "global_step/max_steps": "10298/12700"}
{"lm loss": 2.07725453, "grad_norm": 0.3130239, "learning_rate": 1.217e-05, "elapsed_time_per_iteration": 4.80930781, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 22s", "remaining_time": "3h 15m 54s", "loss_scale": 1.0, "consumed_samples": 2636544, "global_step/max_steps": "10299/12700"}
{"lm loss": 2.09373999, "grad_norm": 0.32934278, "learning_rate": 1.217e-05, "elapsed_time_per_iteration": 4.80728698, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 27s", "remaining_time": "3h 15m 50s", "loss_scale": 1.0, "consumed_samples": 2636800, "global_step/max_steps": "10300/12700"}
{"lm loss": 2.06969881, "grad_norm": 0.33651862, "learning_rate": 1.216e-05, "elapsed_time_per_iteration": 4.88135123, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 32s", "remaining_time": "3h 15m 45s", "loss_scale": 1.0, "consumed_samples": 2637056, "global_step/max_steps": "10301/12700"}
{"lm loss": 2.06875706, "grad_norm": 0.36664581, "learning_rate": 1.215e-05, "elapsed_time_per_iteration": 4.89651823, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 37s", "remaining_time": "3h 15m 40s", "loss_scale": 1.0, "consumed_samples": 2637312, "global_step/max_steps": "10302/12700"}
{"lm loss": 2.09779263, "grad_norm": 0.34529501, "learning_rate": 1.214e-05, "elapsed_time_per_iteration": 4.90259433, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 42s", "remaining_time": "3h 15m 35s", "loss_scale": 1.0, "consumed_samples": 2637568, "global_step/max_steps": "10303/12700"}
{"lm loss": 2.04469371, "grad_norm": 0.32905051, "learning_rate": 1.214e-05, "elapsed_time_per_iteration": 4.8783989, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 46s", "remaining_time": "3h 15m 30s", "loss_scale": 1.0, "consumed_samples": 2637824, "global_step/max_steps": "10304/12700"}
{"lm loss": 2.04804659, "grad_norm": 0.33206695, "learning_rate": 1.213e-05, "elapsed_time_per_iteration": 4.87544298, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 51s", "remaining_time": "3h 15m 25s", "loss_scale": 1.0, "consumed_samples": 2638080, "global_step/max_steps": "10305/12700"}
{"lm loss": 2.05697513, "grad_norm": 0.38752115, "learning_rate": 1.212e-05, "elapsed_time_per_iteration": 4.90310001, "memory(GiB)": 28.98, "elapsed_time": "14h 0m 56s", "remaining_time": "3h 15m 20s", "loss_scale": 1.0, "consumed_samples": 2638336, "global_step/max_steps": "10306/12700"}
{"lm loss": 2.06178355, "grad_norm": 0.33685717, "learning_rate": 1.211e-05, "elapsed_time_per_iteration": 4.94225931, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 1s", "remaining_time": "3h 15m 15s", "loss_scale": 1.0, "consumed_samples": 2638592, "global_step/max_steps": "10307/12700"}
{"lm loss": 2.00025845, "grad_norm": 0.34621632, "learning_rate": 1.211e-05, "elapsed_time_per_iteration": 4.8517108, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 6s", "remaining_time": "3h 15m 10s", "loss_scale": 1.0, "consumed_samples": 2638848, "global_step/max_steps": "10308/12700"}
{"lm loss": 2.08150768, "grad_norm": 0.36046606, "learning_rate": 1.21e-05, "elapsed_time_per_iteration": 5.04986262, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 11s", "remaining_time": "3h 15m 6s", "loss_scale": 1.0, "consumed_samples": 2639104, "global_step/max_steps": "10309/12700"}
{"lm loss": 2.04966116, "grad_norm": 0.35724053, "learning_rate": 1.209e-05, "elapsed_time_per_iteration": 4.88380718, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 16s", "remaining_time": "3h 15m 1s", "loss_scale": 1.0, "consumed_samples": 2639360, "global_step/max_steps": "10310/12700"}
{"lm loss": 2.06909776, "grad_norm": 0.33041364, "learning_rate": 1.209e-05, "elapsed_time_per_iteration": 4.96786165, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 21s", "remaining_time": "3h 14m 56s", "loss_scale": 1.0, "consumed_samples": 2639616, "global_step/max_steps": "10311/12700"}
{"lm loss": 2.05792308, "grad_norm": 0.35628515, "learning_rate": 1.208e-05, "elapsed_time_per_iteration": 4.9441936, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 26s", "remaining_time": "3h 14m 51s", "loss_scale": 1.0, "consumed_samples": 2639872, "global_step/max_steps": "10312/12700"}
{"lm loss": 2.04828668, "grad_norm": 0.36279935, "learning_rate": 1.207e-05, "elapsed_time_per_iteration": 4.85931802, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 31s", "remaining_time": "3h 14m 46s", "loss_scale": 1.0, "consumed_samples": 2640128, "global_step/max_steps": "10313/12700"}
{"lm loss": 2.02305984, "grad_norm": 0.32115039, "learning_rate": 1.206e-05, "elapsed_time_per_iteration": 4.92393517, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 36s", "remaining_time": "3h 14m 41s", "loss_scale": 1.0, "consumed_samples": 2640384, "global_step/max_steps": "10314/12700"}
{"lm loss": 2.05407977, "grad_norm": 0.36314511, "learning_rate": 1.206e-05, "elapsed_time_per_iteration": 4.79923296, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 40s", "remaining_time": "3h 14m 36s", "loss_scale": 1.0, "consumed_samples": 2640640, "global_step/max_steps": "10315/12700"}
{"lm loss": 2.07006812, "grad_norm": 0.3340458, "learning_rate": 1.205e-05, "elapsed_time_per_iteration": 4.83758497, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 45s", "remaining_time": "3h 14m 31s", "loss_scale": 1.0, "consumed_samples": 2640896, "global_step/max_steps": "10316/12700"}
{"lm loss": 2.05814028, "grad_norm": 0.34091473, "learning_rate": 1.204e-05, "elapsed_time_per_iteration": 4.84238577, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 50s", "remaining_time": "3h 14m 26s", "loss_scale": 1.0, "consumed_samples": 2641152, "global_step/max_steps": "10317/12700"}
{"lm loss": 2.07622361, "grad_norm": 0.34915519, "learning_rate": 1.203e-05, "elapsed_time_per_iteration": 4.85954356, "memory(GiB)": 28.98, "elapsed_time": "14h 1m 55s", "remaining_time": "3h 14m 21s", "loss_scale": 1.0, "consumed_samples": 2641408, "global_step/max_steps": "10318/12700"}
{"lm loss": 2.08214664, "grad_norm": 0.33747447, "learning_rate": 1.203e-05, "elapsed_time_per_iteration": 4.92335081, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 0s", "remaining_time": "3h 14m 17s", "loss_scale": 1.0, "consumed_samples": 2641664, "global_step/max_steps": "10319/12700"}
{"lm loss": 2.04292727, "grad_norm": 0.36236018, "learning_rate": 1.202e-05, "elapsed_time_per_iteration": 4.95541191, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 5s", "remaining_time": "3h 14m 12s", "loss_scale": 1.0, "consumed_samples": 2641920, "global_step/max_steps": "10320/12700"}
{"lm loss": 2.08623672, "grad_norm": 0.34342372, "learning_rate": 1.201e-05, "elapsed_time_per_iteration": 4.88512993, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 10s", "remaining_time": "3h 14m 7s", "loss_scale": 1.0, "consumed_samples": 2642176, "global_step/max_steps": "10321/12700"}
{"lm loss": 2.04572558, "grad_norm": 0.35793358, "learning_rate": 1.2e-05, "elapsed_time_per_iteration": 4.99026728, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 15s", "remaining_time": "3h 14m 2s", "loss_scale": 1.0, "consumed_samples": 2642432, "global_step/max_steps": "10322/12700"}
{"lm loss": 2.0549562, "grad_norm": 0.32928315, "learning_rate": 1.2e-05, "elapsed_time_per_iteration": 4.87817669, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 20s", "remaining_time": "3h 13m 57s", "loss_scale": 1.0, "consumed_samples": 2642688, "global_step/max_steps": "10323/12700"}
{"lm loss": 2.05626583, "grad_norm": 0.33194235, "learning_rate": 1.199e-05, "elapsed_time_per_iteration": 4.90793633, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 25s", "remaining_time": "3h 13m 52s", "loss_scale": 1.0, "consumed_samples": 2642944, "global_step/max_steps": "10324/12700"}
{"lm loss": 2.03535438, "grad_norm": 0.31451365, "learning_rate": 1.198e-05, "elapsed_time_per_iteration": 4.91300774, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 29s", "remaining_time": "3h 13m 47s", "loss_scale": 1.0, "consumed_samples": 2643200, "global_step/max_steps": "10325/12700"}
{"lm loss": 2.09293485, "grad_norm": 0.32453302, "learning_rate": 1.198e-05, "elapsed_time_per_iteration": 4.96439838, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 34s", "remaining_time": "3h 13m 42s", "loss_scale": 1.0, "consumed_samples": 2643456, "global_step/max_steps": "10326/12700"}
{"lm loss": 2.07387829, "grad_norm": 0.33435765, "learning_rate": 1.197e-05, "elapsed_time_per_iteration": 4.88363028, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 39s", "remaining_time": "3h 13m 37s", "loss_scale": 1.0, "consumed_samples": 2643712, "global_step/max_steps": "10327/12700"}
{"lm loss": 2.08276367, "grad_norm": 0.33284155, "learning_rate": 1.196e-05, "elapsed_time_per_iteration": 4.8708179, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 44s", "remaining_time": "3h 13m 33s", "loss_scale": 1.0, "consumed_samples": 2643968, "global_step/max_steps": "10328/12700"}
{"lm loss": 2.07014942, "grad_norm": 0.31817633, "learning_rate": 1.195e-05, "elapsed_time_per_iteration": 4.86621737, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 49s", "remaining_time": "3h 13m 28s", "loss_scale": 1.0, "consumed_samples": 2644224, "global_step/max_steps": "10329/12700"}
{"lm loss": 2.04556894, "grad_norm": 0.32011747, "learning_rate": 1.195e-05, "elapsed_time_per_iteration": 4.84240794, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 54s", "remaining_time": "3h 13m 23s", "loss_scale": 1.0, "consumed_samples": 2644480, "global_step/max_steps": "10330/12700"}
{"lm loss": 2.04818559, "grad_norm": 0.34860563, "learning_rate": 1.194e-05, "elapsed_time_per_iteration": 4.91576076, "memory(GiB)": 28.98, "elapsed_time": "14h 2m 59s", "remaining_time": "3h 13m 18s", "loss_scale": 1.0, "consumed_samples": 2644736, "global_step/max_steps": "10331/12700"}
{"lm loss": 2.02944136, "grad_norm": 0.31551167, "learning_rate": 1.193e-05, "elapsed_time_per_iteration": 4.81524301, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 4s", "remaining_time": "3h 13m 13s", "loss_scale": 1.0, "consumed_samples": 2644992, "global_step/max_steps": "10332/12700"}
{"lm loss": 2.06618786, "grad_norm": 0.32914302, "learning_rate": 1.192e-05, "elapsed_time_per_iteration": 4.93037796, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 9s", "remaining_time": "3h 13m 8s", "loss_scale": 1.0, "consumed_samples": 2645248, "global_step/max_steps": "10333/12700"}
{"lm loss": 2.06956172, "grad_norm": 0.31306604, "learning_rate": 1.192e-05, "elapsed_time_per_iteration": 4.99530721, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 14s", "remaining_time": "3h 13m 3s", "loss_scale": 1.0, "consumed_samples": 2645504, "global_step/max_steps": "10334/12700"}
{"lm loss": 2.0182004, "grad_norm": 0.32925308, "learning_rate": 1.191e-05, "elapsed_time_per_iteration": 4.9863801, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 19s", "remaining_time": "3h 12m 58s", "loss_scale": 1.0, "consumed_samples": 2645760, "global_step/max_steps": "10335/12700"}
{"lm loss": 2.06123662, "grad_norm": 0.31111357, "learning_rate": 1.19e-05, "elapsed_time_per_iteration": 4.85123682, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 23s", "remaining_time": "3h 12m 53s", "loss_scale": 1.0, "consumed_samples": 2646016, "global_step/max_steps": "10336/12700"}
{"lm loss": 2.06311464, "grad_norm": 0.32240635, "learning_rate": 1.189e-05, "elapsed_time_per_iteration": 4.88237166, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 28s", "remaining_time": "3h 12m 48s", "loss_scale": 1.0, "consumed_samples": 2646272, "global_step/max_steps": "10337/12700"}
{"lm loss": 2.04630566, "grad_norm": 0.31831932, "learning_rate": 1.189e-05, "elapsed_time_per_iteration": 4.95170975, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 33s", "remaining_time": "3h 12m 44s", "loss_scale": 1.0, "consumed_samples": 2646528, "global_step/max_steps": "10338/12700"}
{"lm loss": 2.11146331, "grad_norm": 0.32679912, "learning_rate": 1.188e-05, "elapsed_time_per_iteration": 4.83002877, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 38s", "remaining_time": "3h 12m 39s", "loss_scale": 1.0, "consumed_samples": 2646784, "global_step/max_steps": "10339/12700"}
{"lm loss": 2.07741547, "grad_norm": 0.33868721, "learning_rate": 1.187e-05, "elapsed_time_per_iteration": 5.00034833, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 43s", "remaining_time": "3h 12m 34s", "loss_scale": 1.0, "consumed_samples": 2647040, "global_step/max_steps": "10340/12700"}
{"lm loss": 2.04704332, "grad_norm": 0.32584521, "learning_rate": 1.187e-05, "elapsed_time_per_iteration": 4.83960462, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 48s", "remaining_time": "3h 12m 29s", "loss_scale": 1.0, "consumed_samples": 2647296, "global_step/max_steps": "10341/12700"}
{"lm loss": 2.04692459, "grad_norm": 0.33726159, "learning_rate": 1.186e-05, "elapsed_time_per_iteration": 4.89100361, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 53s", "remaining_time": "3h 12m 24s", "loss_scale": 1.0, "consumed_samples": 2647552, "global_step/max_steps": "10342/12700"}
{"lm loss": 2.07459569, "grad_norm": 0.36634424, "learning_rate": 1.185e-05, "elapsed_time_per_iteration": 4.91303611, "memory(GiB)": 28.98, "elapsed_time": "14h 3m 58s", "remaining_time": "3h 12m 19s", "loss_scale": 1.0, "consumed_samples": 2647808, "global_step/max_steps": "10343/12700"}
{"lm loss": 2.06854939, "grad_norm": 0.33507562, "learning_rate": 1.184e-05, "elapsed_time_per_iteration": 5.02154636, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 3s", "remaining_time": "3h 12m 14s", "loss_scale": 1.0, "consumed_samples": 2648064, "global_step/max_steps": "10344/12700"}
{"lm loss": 2.05567002, "grad_norm": 0.33258367, "learning_rate": 1.184e-05, "elapsed_time_per_iteration": 4.88038778, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 8s", "remaining_time": "3h 12m 9s", "loss_scale": 1.0, "consumed_samples": 2648320, "global_step/max_steps": "10345/12700"}
{"lm loss": 2.06818819, "grad_norm": 0.32065395, "learning_rate": 1.183e-05, "elapsed_time_per_iteration": 4.78309631, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 12s", "remaining_time": "3h 12m 4s", "loss_scale": 1.0, "consumed_samples": 2648576, "global_step/max_steps": "10346/12700"}
{"lm loss": 2.05967116, "grad_norm": 0.33912984, "learning_rate": 1.182e-05, "elapsed_time_per_iteration": 4.85120273, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 17s", "remaining_time": "3h 12m 0s", "loss_scale": 1.0, "consumed_samples": 2648832, "global_step/max_steps": "10347/12700"}
{"lm loss": 2.05793524, "grad_norm": 0.32887018, "learning_rate": 1.181e-05, "elapsed_time_per_iteration": 4.8347621, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 22s", "remaining_time": "3h 11m 55s", "loss_scale": 1.0, "consumed_samples": 2649088, "global_step/max_steps": "10348/12700"}
{"lm loss": 2.04819131, "grad_norm": 0.33626074, "learning_rate": 1.181e-05, "elapsed_time_per_iteration": 4.88571429, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 27s", "remaining_time": "3h 11m 50s", "loss_scale": 1.0, "consumed_samples": 2649344, "global_step/max_steps": "10349/12700"}
{"lm loss": 2.05578876, "grad_norm": 0.31619066, "learning_rate": 1.18e-05, "elapsed_time_per_iteration": 4.99017954, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 32s", "remaining_time": "3h 11m 45s", "loss_scale": 1.0, "consumed_samples": 2649600, "global_step/max_steps": "10350/12700"}
{"lm loss": 2.05002213, "grad_norm": 0.34063548, "learning_rate": 1.179e-05, "elapsed_time_per_iteration": 4.83691859, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 37s", "remaining_time": "3h 11m 40s", "loss_scale": 1.0, "consumed_samples": 2649856, "global_step/max_steps": "10351/12700"}
{"lm loss": 2.06328034, "grad_norm": 0.33956465, "learning_rate": 1.179e-05, "elapsed_time_per_iteration": 4.93435836, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 42s", "remaining_time": "3h 11m 35s", "loss_scale": 1.0, "consumed_samples": 2650112, "global_step/max_steps": "10352/12700"}
{"lm loss": 2.0482583, "grad_norm": 0.31889367, "learning_rate": 1.178e-05, "elapsed_time_per_iteration": 4.90590739, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 47s", "remaining_time": "3h 11m 30s", "loss_scale": 1.0, "consumed_samples": 2650368, "global_step/max_steps": "10353/12700"}
{"lm loss": 2.05470562, "grad_norm": 0.32144254, "learning_rate": 1.177e-05, "elapsed_time_per_iteration": 4.85553932, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 51s", "remaining_time": "3h 11m 25s", "loss_scale": 1.0, "consumed_samples": 2650624, "global_step/max_steps": "10354/12700"}
{"lm loss": 2.05335951, "grad_norm": 0.32668376, "learning_rate": 1.176e-05, "elapsed_time_per_iteration": 4.8944118, "memory(GiB)": 28.98, "elapsed_time": "14h 4m 56s", "remaining_time": "3h 11m 20s", "loss_scale": 1.0, "consumed_samples": 2650880, "global_step/max_steps": "10355/12700"}
{"lm loss": 2.0607686, "grad_norm": 0.32309684, "learning_rate": 1.176e-05, "elapsed_time_per_iteration": 4.90887356, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 1s", "remaining_time": "3h 11m 15s", "loss_scale": 1.0, "consumed_samples": 2651136, "global_step/max_steps": "10356/12700"}
{"lm loss": 2.02362633, "grad_norm": 0.31803852, "learning_rate": 1.175e-05, "elapsed_time_per_iteration": 4.81445384, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 6s", "remaining_time": "3h 11m 11s", "loss_scale": 1.0, "consumed_samples": 2651392, "global_step/max_steps": "10357/12700"}
{"lm loss": 2.08356023, "grad_norm": 0.32475868, "learning_rate": 1.174e-05, "elapsed_time_per_iteration": 4.84142089, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 11s", "remaining_time": "3h 11m 6s", "loss_scale": 1.0, "consumed_samples": 2651648, "global_step/max_steps": "10358/12700"}
{"lm loss": 2.0596211, "grad_norm": 0.35149211, "learning_rate": 1.174e-05, "elapsed_time_per_iteration": 4.88048816, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 16s", "remaining_time": "3h 11m 1s", "loss_scale": 1.0, "consumed_samples": 2651904, "global_step/max_steps": "10359/12700"}
{"lm loss": 1.987239, "grad_norm": 0.33002532, "learning_rate": 1.173e-05, "elapsed_time_per_iteration": 4.82738733, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 21s", "remaining_time": "3h 10m 56s", "loss_scale": 1.0, "consumed_samples": 2652160, "global_step/max_steps": "10360/12700"}
{"lm loss": 2.05480933, "grad_norm": 0.33267999, "learning_rate": 1.172e-05, "elapsed_time_per_iteration": 4.8375802, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 25s", "remaining_time": "3h 10m 51s", "loss_scale": 1.0, "consumed_samples": 2652416, "global_step/max_steps": "10361/12700"}
{"lm loss": 2.04268026, "grad_norm": 0.34219477, "learning_rate": 1.171e-05, "elapsed_time_per_iteration": 4.87575126, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 30s", "remaining_time": "3h 10m 46s", "loss_scale": 1.0, "consumed_samples": 2652672, "global_step/max_steps": "10362/12700"}
{"lm loss": 2.10871339, "grad_norm": 0.33433363, "learning_rate": 1.171e-05, "elapsed_time_per_iteration": 4.94726944, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 35s", "remaining_time": "3h 10m 41s", "loss_scale": 1.0, "consumed_samples": 2652928, "global_step/max_steps": "10363/12700"}
{"lm loss": 2.05636668, "grad_norm": 0.32386869, "learning_rate": 1.17e-05, "elapsed_time_per_iteration": 4.87687659, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 40s", "remaining_time": "3h 10m 36s", "loss_scale": 1.0, "consumed_samples": 2653184, "global_step/max_steps": "10364/12700"}
{"lm loss": 2.07880902, "grad_norm": 0.31517285, "learning_rate": 1.169e-05, "elapsed_time_per_iteration": 4.86643195, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 45s", "remaining_time": "3h 10m 31s", "loss_scale": 1.0, "consumed_samples": 2653440, "global_step/max_steps": "10365/12700"}
{"lm loss": 2.02211404, "grad_norm": 0.36501741, "learning_rate": 1.168e-05, "elapsed_time_per_iteration": 4.91931701, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 50s", "remaining_time": "3h 10m 26s", "loss_scale": 1.0, "consumed_samples": 2653696, "global_step/max_steps": "10366/12700"}
{"lm loss": 2.09153295, "grad_norm": 0.34933707, "learning_rate": 1.168e-05, "elapsed_time_per_iteration": 4.86323094, "memory(GiB)": 28.98, "elapsed_time": "14h 5m 55s", "remaining_time": "3h 10m 22s", "loss_scale": 1.0, "consumed_samples": 2653952, "global_step/max_steps": "10367/12700"}
{"lm loss": 2.06027913, "grad_norm": 0.31350598, "learning_rate": 1.167e-05, "elapsed_time_per_iteration": 4.90109539, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 0s", "remaining_time": "3h 10m 17s", "loss_scale": 1.0, "consumed_samples": 2654208, "global_step/max_steps": "10368/12700"}
{"lm loss": 2.02596307, "grad_norm": 0.31262526, "learning_rate": 1.166e-05, "elapsed_time_per_iteration": 4.86506414, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 5s", "remaining_time": "3h 10m 12s", "loss_scale": 1.0, "consumed_samples": 2654464, "global_step/max_steps": "10369/12700"}
{"lm loss": 2.05835438, "grad_norm": 0.369625, "learning_rate": 1.166e-05, "elapsed_time_per_iteration": 4.86286616, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 9s", "remaining_time": "3h 10m 7s", "loss_scale": 1.0, "consumed_samples": 2654720, "global_step/max_steps": "10370/12700"}
{"lm loss": 2.04224801, "grad_norm": 0.32340714, "learning_rate": 1.165e-05, "elapsed_time_per_iteration": 4.82589865, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 14s", "remaining_time": "3h 10m 2s", "loss_scale": 1.0, "consumed_samples": 2654976, "global_step/max_steps": "10371/12700"}
{"lm loss": 2.04680085, "grad_norm": 0.34123528, "learning_rate": 1.164e-05, "elapsed_time_per_iteration": 4.89250708, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 19s", "remaining_time": "3h 9m 57s", "loss_scale": 1.0, "consumed_samples": 2655232, "global_step/max_steps": "10372/12700"}
{"lm loss": 2.04477835, "grad_norm": 0.33983257, "learning_rate": 1.163e-05, "elapsed_time_per_iteration": 4.94217372, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 24s", "remaining_time": "3h 9m 52s", "loss_scale": 1.0, "consumed_samples": 2655488, "global_step/max_steps": "10373/12700"}
{"lm loss": 2.06826878, "grad_norm": 0.34877297, "learning_rate": 1.163e-05, "elapsed_time_per_iteration": 4.93932295, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 29s", "remaining_time": "3h 9m 47s", "loss_scale": 1.0, "consumed_samples": 2655744, "global_step/max_steps": "10374/12700"}
{"lm loss": 2.061795, "grad_norm": 0.31978795, "learning_rate": 1.162e-05, "elapsed_time_per_iteration": 4.84750009, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 34s", "remaining_time": "3h 9m 42s", "loss_scale": 1.0, "consumed_samples": 2656000, "global_step/max_steps": "10375/12700"}
{"lm loss": 2.03878665, "grad_norm": 0.32136589, "learning_rate": 1.161e-05, "elapsed_time_per_iteration": 4.85509706, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 39s", "remaining_time": "3h 9m 37s", "loss_scale": 1.0, "consumed_samples": 2656256, "global_step/max_steps": "10376/12700"}
{"lm loss": 2.0688889, "grad_norm": 0.33701649, "learning_rate": 1.161e-05, "elapsed_time_per_iteration": 4.84954071, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 44s", "remaining_time": "3h 9m 33s", "loss_scale": 1.0, "consumed_samples": 2656512, "global_step/max_steps": "10377/12700"}
{"lm loss": 2.09430695, "grad_norm": 0.33705279, "learning_rate": 1.16e-05, "elapsed_time_per_iteration": 4.85378671, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 48s", "remaining_time": "3h 9m 28s", "loss_scale": 1.0, "consumed_samples": 2656768, "global_step/max_steps": "10378/12700"}
{"lm loss": 2.03821182, "grad_norm": 0.3386783, "learning_rate": 1.159e-05, "elapsed_time_per_iteration": 4.89299226, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 53s", "remaining_time": "3h 9m 23s", "loss_scale": 1.0, "consumed_samples": 2657024, "global_step/max_steps": "10379/12700"}
{"lm loss": 2.03757572, "grad_norm": 0.32118762, "learning_rate": 1.158e-05, "elapsed_time_per_iteration": 4.8998847, "memory(GiB)": 28.98, "elapsed_time": "14h 6m 58s", "remaining_time": "3h 9m 18s", "loss_scale": 1.0, "consumed_samples": 2657280, "global_step/max_steps": "10380/12700"}
{"lm loss": 2.03154159, "grad_norm": 0.33279005, "learning_rate": 1.158e-05, "elapsed_time_per_iteration": 4.85984397, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 3s", "remaining_time": "3h 9m 13s", "loss_scale": 1.0, "consumed_samples": 2657536, "global_step/max_steps": "10381/12700"}
{"lm loss": 2.06078315, "grad_norm": 0.36334163, "learning_rate": 1.157e-05, "elapsed_time_per_iteration": 4.80232644, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 8s", "remaining_time": "3h 9m 8s", "loss_scale": 1.0, "consumed_samples": 2657792, "global_step/max_steps": "10382/12700"}
{"lm loss": 2.06246877, "grad_norm": 0.30894294, "learning_rate": 1.156e-05, "elapsed_time_per_iteration": 4.89912391, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 13s", "remaining_time": "3h 9m 3s", "loss_scale": 1.0, "consumed_samples": 2658048, "global_step/max_steps": "10383/12700"}
{"lm loss": 2.05503893, "grad_norm": 0.33883029, "learning_rate": 1.156e-05, "elapsed_time_per_iteration": 4.92953897, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 18s", "remaining_time": "3h 8m 58s", "loss_scale": 1.0, "consumed_samples": 2658304, "global_step/max_steps": "10384/12700"}
{"lm loss": 2.04628491, "grad_norm": 0.35997537, "learning_rate": 1.155e-05, "elapsed_time_per_iteration": 4.83466268, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 23s", "remaining_time": "3h 8m 53s", "loss_scale": 1.0, "consumed_samples": 2658560, "global_step/max_steps": "10385/12700"}
{"lm loss": 2.08134317, "grad_norm": 0.32389829, "learning_rate": 1.154e-05, "elapsed_time_per_iteration": 4.88012934, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 27s", "remaining_time": "3h 8m 48s", "loss_scale": 1.0, "consumed_samples": 2658816, "global_step/max_steps": "10386/12700"}
{"lm loss": 2.08809423, "grad_norm": 0.34304768, "learning_rate": 1.153e-05, "elapsed_time_per_iteration": 4.95061755, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 32s", "remaining_time": "3h 8m 44s", "loss_scale": 1.0, "consumed_samples": 2659072, "global_step/max_steps": "10387/12700"}
{"lm loss": 2.05200624, "grad_norm": 0.34748882, "learning_rate": 1.153e-05, "elapsed_time_per_iteration": 4.8387928, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 37s", "remaining_time": "3h 8m 39s", "loss_scale": 1.0, "consumed_samples": 2659328, "global_step/max_steps": "10388/12700"}
{"lm loss": 2.0760169, "grad_norm": 0.31990728, "learning_rate": 1.152e-05, "elapsed_time_per_iteration": 4.8710463, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 42s", "remaining_time": "3h 8m 34s", "loss_scale": 1.0, "consumed_samples": 2659584, "global_step/max_steps": "10389/12700"}
{"lm loss": 2.05398273, "grad_norm": 0.32416102, "learning_rate": 1.151e-05, "elapsed_time_per_iteration": 4.81401062, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 47s", "remaining_time": "3h 8m 29s", "loss_scale": 1.0, "consumed_samples": 2659840, "global_step/max_steps": "10390/12700"}
{"lm loss": 2.06037664, "grad_norm": 0.33443734, "learning_rate": 1.151e-05, "elapsed_time_per_iteration": 4.88898277, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 52s", "remaining_time": "3h 8m 24s", "loss_scale": 1.0, "consumed_samples": 2660096, "global_step/max_steps": "10391/12700"}
{"lm loss": 2.03557324, "grad_norm": 0.34139746, "learning_rate": 1.15e-05, "elapsed_time_per_iteration": 4.91124558, "memory(GiB)": 28.98, "elapsed_time": "14h 7m 57s", "remaining_time": "3h 8m 19s", "loss_scale": 1.0, "consumed_samples": 2660352, "global_step/max_steps": "10392/12700"}
{"lm loss": 2.08552718, "grad_norm": 0.3267096, "learning_rate": 1.149e-05, "elapsed_time_per_iteration": 4.88057256, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 2s", "remaining_time": "3h 8m 14s", "loss_scale": 1.0, "consumed_samples": 2660608, "global_step/max_steps": "10393/12700"}
{"lm loss": 2.05459547, "grad_norm": 0.33190799, "learning_rate": 1.148e-05, "elapsed_time_per_iteration": 4.89402056, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 6s", "remaining_time": "3h 8m 9s", "loss_scale": 1.0, "consumed_samples": 2660864, "global_step/max_steps": "10394/12700"}
{"lm loss": 2.04509807, "grad_norm": 0.33369455, "learning_rate": 1.148e-05, "elapsed_time_per_iteration": 4.92937207, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 11s", "remaining_time": "3h 8m 4s", "loss_scale": 1.0, "consumed_samples": 2661120, "global_step/max_steps": "10395/12700"}
{"lm loss": 2.05250239, "grad_norm": 0.32227731, "learning_rate": 1.147e-05, "elapsed_time_per_iteration": 4.8383112, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 16s", "remaining_time": "3h 7m 59s", "loss_scale": 1.0, "consumed_samples": 2661376, "global_step/max_steps": "10396/12700"}
{"lm loss": 2.06867599, "grad_norm": 0.32090846, "learning_rate": 1.146e-05, "elapsed_time_per_iteration": 4.9525218, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 21s", "remaining_time": "3h 7m 55s", "loss_scale": 1.0, "consumed_samples": 2661632, "global_step/max_steps": "10397/12700"}
{"lm loss": 2.03240609, "grad_norm": 0.34076458, "learning_rate": 1.146e-05, "elapsed_time_per_iteration": 4.93492699, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 26s", "remaining_time": "3h 7m 50s", "loss_scale": 1.0, "consumed_samples": 2661888, "global_step/max_steps": "10398/12700"}
{"lm loss": 2.0162158, "grad_norm": 0.31824437, "learning_rate": 1.145e-05, "elapsed_time_per_iteration": 4.91672492, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 31s", "remaining_time": "3h 7m 45s", "loss_scale": 1.0, "consumed_samples": 2662144, "global_step/max_steps": "10399/12700"}
{"lm loss": 2.040694, "grad_norm": 0.32548037, "learning_rate": 1.144e-05, "elapsed_time_per_iteration": 4.94779134, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 36s", "remaining_time": "3h 7m 40s", "loss_scale": 1.0, "consumed_samples": 2662400, "global_step/max_steps": "10400/12700"}
{"lm loss": 2.08873367, "grad_norm": 0.3373183, "learning_rate": 1.143e-05, "elapsed_time_per_iteration": 4.93036723, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 41s", "remaining_time": "3h 7m 35s", "loss_scale": 1.0, "consumed_samples": 2662656, "global_step/max_steps": "10401/12700"}
{"lm loss": 2.0398531, "grad_norm": 0.33053014, "learning_rate": 1.143e-05, "elapsed_time_per_iteration": 4.84103155, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 46s", "remaining_time": "3h 7m 30s", "loss_scale": 1.0, "consumed_samples": 2662912, "global_step/max_steps": "10402/12700"}
{"lm loss": 2.07215095, "grad_norm": 0.32564422, "learning_rate": 1.142e-05, "elapsed_time_per_iteration": 4.92961001, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 51s", "remaining_time": "3h 7m 25s", "loss_scale": 1.0, "consumed_samples": 2663168, "global_step/max_steps": "10403/12700"}
{"lm loss": 2.09443736, "grad_norm": 0.36083618, "learning_rate": 1.141e-05, "elapsed_time_per_iteration": 4.88657618, "memory(GiB)": 28.98, "elapsed_time": "14h 8m 56s", "remaining_time": "3h 7m 20s", "loss_scale": 1.0, "consumed_samples": 2663424, "global_step/max_steps": "10404/12700"}
{"lm loss": 2.07463312, "grad_norm": 0.33863717, "learning_rate": 1.141e-05, "elapsed_time_per_iteration": 4.94611216, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 1s", "remaining_time": "3h 7m 15s", "loss_scale": 1.0, "consumed_samples": 2663680, "global_step/max_steps": "10405/12700"}
{"lm loss": 2.04297853, "grad_norm": 0.32493493, "learning_rate": 1.14e-05, "elapsed_time_per_iteration": 4.8558557, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 5s", "remaining_time": "3h 7m 11s", "loss_scale": 1.0, "consumed_samples": 2663936, "global_step/max_steps": "10406/12700"}
{"lm loss": 2.07339621, "grad_norm": 0.32476532, "learning_rate": 1.139e-05, "elapsed_time_per_iteration": 4.84109807, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 10s", "remaining_time": "3h 7m 6s", "loss_scale": 1.0, "consumed_samples": 2664192, "global_step/max_steps": "10407/12700"}
{"lm loss": 2.06565714, "grad_norm": 0.32066199, "learning_rate": 1.138e-05, "elapsed_time_per_iteration": 4.78999162, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 15s", "remaining_time": "3h 7m 1s", "loss_scale": 1.0, "consumed_samples": 2664448, "global_step/max_steps": "10408/12700"}
{"lm loss": 2.05072069, "grad_norm": 0.36156023, "learning_rate": 1.138e-05, "elapsed_time_per_iteration": 4.80225015, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 20s", "remaining_time": "3h 6m 56s", "loss_scale": 1.0, "consumed_samples": 2664704, "global_step/max_steps": "10409/12700"}
{"lm loss": 2.04592967, "grad_norm": 0.34787196, "learning_rate": 1.137e-05, "elapsed_time_per_iteration": 4.81641579, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 25s", "remaining_time": "3h 6m 51s", "loss_scale": 1.0, "consumed_samples": 2664960, "global_step/max_steps": "10410/12700"}
{"lm loss": 2.04549026, "grad_norm": 0.31312281, "learning_rate": 1.136e-05, "elapsed_time_per_iteration": 5.00132704, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 30s", "remaining_time": "3h 6m 46s", "loss_scale": 1.0, "consumed_samples": 2665216, "global_step/max_steps": "10411/12700"}
{"lm loss": 2.02617931, "grad_norm": 0.3157624, "learning_rate": 1.136e-05, "elapsed_time_per_iteration": 4.89219117, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 35s", "remaining_time": "3h 6m 41s", "loss_scale": 1.0, "consumed_samples": 2665472, "global_step/max_steps": "10412/12700"}
{"lm loss": 2.07683778, "grad_norm": 0.34832591, "learning_rate": 1.135e-05, "elapsed_time_per_iteration": 4.83733296, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 39s", "remaining_time": "3h 6m 36s", "loss_scale": 1.0, "consumed_samples": 2665728, "global_step/max_steps": "10413/12700"}
{"lm loss": 2.0100801, "grad_norm": 0.34951481, "learning_rate": 1.134e-05, "elapsed_time_per_iteration": 4.94238591, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 44s", "remaining_time": "3h 6m 31s", "loss_scale": 1.0, "consumed_samples": 2665984, "global_step/max_steps": "10414/12700"}
{"lm loss": 2.04769421, "grad_norm": 0.30957708, "learning_rate": 1.133e-05, "elapsed_time_per_iteration": 4.85338259, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 49s", "remaining_time": "3h 6m 26s", "loss_scale": 1.0, "consumed_samples": 2666240, "global_step/max_steps": "10415/12700"}
{"lm loss": 2.08337903, "grad_norm": 0.36697751, "learning_rate": 1.133e-05, "elapsed_time_per_iteration": 4.86166549, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 54s", "remaining_time": "3h 6m 21s", "loss_scale": 1.0, "consumed_samples": 2666496, "global_step/max_steps": "10416/12700"}
{"lm loss": 2.08093834, "grad_norm": 0.3386589, "learning_rate": 1.132e-05, "elapsed_time_per_iteration": 4.87253189, "memory(GiB)": 28.98, "elapsed_time": "14h 9m 59s", "remaining_time": "3h 6m 17s", "loss_scale": 1.0, "consumed_samples": 2666752, "global_step/max_steps": "10417/12700"}
{"lm loss": 2.05538487, "grad_norm": 0.34034237, "learning_rate": 1.131e-05, "elapsed_time_per_iteration": 4.84135318, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 4s", "remaining_time": "3h 6m 12s", "loss_scale": 1.0, "consumed_samples": 2667008, "global_step/max_steps": "10418/12700"}
{"lm loss": 2.04005647, "grad_norm": 0.331328, "learning_rate": 1.131e-05, "elapsed_time_per_iteration": 4.85830355, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 9s", "remaining_time": "3h 6m 7s", "loss_scale": 1.0, "consumed_samples": 2667264, "global_step/max_steps": "10419/12700"}
{"lm loss": 2.0417645, "grad_norm": 0.34782356, "learning_rate": 1.13e-05, "elapsed_time_per_iteration": 4.90453529, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 14s", "remaining_time": "3h 6m 2s", "loss_scale": 1.0, "consumed_samples": 2667520, "global_step/max_steps": "10420/12700"}
{"lm loss": 2.0944798, "grad_norm": 0.33611554, "learning_rate": 1.129e-05, "elapsed_time_per_iteration": 4.98519754, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 18s", "remaining_time": "3h 5m 57s", "loss_scale": 1.0, "consumed_samples": 2667776, "global_step/max_steps": "10421/12700"}
{"lm loss": 2.04679275, "grad_norm": 0.33996481, "learning_rate": 1.129e-05, "elapsed_time_per_iteration": 4.8627615, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 23s", "remaining_time": "3h 5m 52s", "loss_scale": 1.0, "consumed_samples": 2668032, "global_step/max_steps": "10422/12700"}
{"lm loss": 2.05382991, "grad_norm": 0.34847617, "learning_rate": 1.128e-05, "elapsed_time_per_iteration": 4.84536719, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 28s", "remaining_time": "3h 5m 47s", "loss_scale": 1.0, "consumed_samples": 2668288, "global_step/max_steps": "10423/12700"}
{"lm loss": 2.07365465, "grad_norm": 0.32738376, "learning_rate": 1.127e-05, "elapsed_time_per_iteration": 4.92500806, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 33s", "remaining_time": "3h 5m 42s", "loss_scale": 1.0, "consumed_samples": 2668544, "global_step/max_steps": "10424/12700"}
{"lm loss": 2.05983019, "grad_norm": 0.32869652, "learning_rate": 1.126e-05, "elapsed_time_per_iteration": 4.85493183, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 38s", "remaining_time": "3h 5m 37s", "loss_scale": 1.0, "consumed_samples": 2668800, "global_step/max_steps": "10425/12700"}
{"lm loss": 2.08156276, "grad_norm": 0.33885112, "learning_rate": 1.126e-05, "elapsed_time_per_iteration": 4.73595309, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 43s", "remaining_time": "3h 5m 32s", "loss_scale": 1.0, "consumed_samples": 2669056, "global_step/max_steps": "10426/12700"}
{"lm loss": 2.04538035, "grad_norm": 0.3261514, "learning_rate": 1.125e-05, "elapsed_time_per_iteration": 4.95499682, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 48s", "remaining_time": "3h 5m 28s", "loss_scale": 1.0, "consumed_samples": 2669312, "global_step/max_steps": "10427/12700"}
{"lm loss": 2.06105375, "grad_norm": 0.32656077, "learning_rate": 1.124e-05, "elapsed_time_per_iteration": 4.84205651, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 53s", "remaining_time": "3h 5m 23s", "loss_scale": 1.0, "consumed_samples": 2669568, "global_step/max_steps": "10428/12700"}
{"lm loss": 2.07447648, "grad_norm": 0.33535892, "learning_rate": 1.124e-05, "elapsed_time_per_iteration": 4.78929687, "memory(GiB)": 28.98, "elapsed_time": "14h 10m 57s", "remaining_time": "3h 5m 18s", "loss_scale": 1.0, "consumed_samples": 2669824, "global_step/max_steps": "10429/12700"}
{"lm loss": 2.04529667, "grad_norm": 0.32146826, "learning_rate": 1.123e-05, "elapsed_time_per_iteration": 4.81604505, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 2s", "remaining_time": "3h 5m 13s", "loss_scale": 1.0, "consumed_samples": 2670080, "global_step/max_steps": "10430/12700"}
{"lm loss": 2.0728569, "grad_norm": 0.31668961, "learning_rate": 1.122e-05, "elapsed_time_per_iteration": 4.96097565, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 7s", "remaining_time": "3h 5m 8s", "loss_scale": 1.0, "consumed_samples": 2670336, "global_step/max_steps": "10431/12700"}
{"lm loss": 2.05148578, "grad_norm": 0.31515482, "learning_rate": 1.121e-05, "elapsed_time_per_iteration": 4.94373417, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 12s", "remaining_time": "3h 5m 3s", "loss_scale": 1.0, "consumed_samples": 2670592, "global_step/max_steps": "10432/12700"}
{"lm loss": 2.05167317, "grad_norm": 0.3385832, "learning_rate": 1.121e-05, "elapsed_time_per_iteration": 5.01500344, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 17s", "remaining_time": "3h 4m 58s", "loss_scale": 1.0, "consumed_samples": 2670848, "global_step/max_steps": "10433/12700"}
{"lm loss": 2.05252814, "grad_norm": 0.31722638, "learning_rate": 1.12e-05, "elapsed_time_per_iteration": 4.91573524, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 22s", "remaining_time": "3h 4m 53s", "loss_scale": 1.0, "consumed_samples": 2671104, "global_step/max_steps": "10434/12700"}
{"lm loss": 2.0457387, "grad_norm": 0.32624686, "learning_rate": 1.119e-05, "elapsed_time_per_iteration": 4.9984858, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 27s", "remaining_time": "3h 4m 48s", "loss_scale": 1.0, "consumed_samples": 2671360, "global_step/max_steps": "10435/12700"}
{"lm loss": 2.04937625, "grad_norm": 0.32491973, "learning_rate": 1.119e-05, "elapsed_time_per_iteration": 4.83405256, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 32s", "remaining_time": "3h 4m 44s", "loss_scale": 1.0, "consumed_samples": 2671616, "global_step/max_steps": "10436/12700"}
{"lm loss": 2.05038381, "grad_norm": 0.34301022, "learning_rate": 1.118e-05, "elapsed_time_per_iteration": 4.88672566, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 37s", "remaining_time": "3h 4m 39s", "loss_scale": 1.0, "consumed_samples": 2671872, "global_step/max_steps": "10437/12700"}
{"lm loss": 2.04210186, "grad_norm": 0.33064672, "learning_rate": 1.117e-05, "elapsed_time_per_iteration": 4.80707121, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 41s", "remaining_time": "3h 4m 34s", "loss_scale": 1.0, "consumed_samples": 2672128, "global_step/max_steps": "10438/12700"}
{"lm loss": 2.06975389, "grad_norm": 0.34263605, "learning_rate": 1.117e-05, "elapsed_time_per_iteration": 4.82868147, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 46s", "remaining_time": "3h 4m 29s", "loss_scale": 1.0, "consumed_samples": 2672384, "global_step/max_steps": "10439/12700"}
{"lm loss": 2.06783581, "grad_norm": 0.37136284, "learning_rate": 1.116e-05, "elapsed_time_per_iteration": 4.90059543, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 51s", "remaining_time": "3h 4m 24s", "loss_scale": 1.0, "consumed_samples": 2672640, "global_step/max_steps": "10440/12700"}
{"lm loss": 2.06577539, "grad_norm": 0.35215098, "learning_rate": 1.115e-05, "elapsed_time_per_iteration": 4.91064596, "memory(GiB)": 28.98, "elapsed_time": "14h 11m 56s", "remaining_time": "3h 4m 19s", "loss_scale": 1.0, "consumed_samples": 2672896, "global_step/max_steps": "10441/12700"}
{"lm loss": 2.08613253, "grad_norm": 0.33510637, "learning_rate": 1.114e-05, "elapsed_time_per_iteration": 4.84199619, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 1s", "remaining_time": "3h 4m 14s", "loss_scale": 1.0, "consumed_samples": 2673152, "global_step/max_steps": "10442/12700"}
{"lm loss": 2.03637862, "grad_norm": 0.34564137, "learning_rate": 1.114e-05, "elapsed_time_per_iteration": 4.89458561, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 6s", "remaining_time": "3h 4m 9s", "loss_scale": 1.0, "consumed_samples": 2673408, "global_step/max_steps": "10443/12700"}
{"lm loss": 2.06909013, "grad_norm": 0.33046991, "learning_rate": 1.113e-05, "elapsed_time_per_iteration": 4.86229658, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 11s", "remaining_time": "3h 4m 4s", "loss_scale": 1.0, "consumed_samples": 2673664, "global_step/max_steps": "10444/12700"}
{"lm loss": 2.06449151, "grad_norm": 0.3540656, "learning_rate": 1.112e-05, "elapsed_time_per_iteration": 4.91125512, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 16s", "remaining_time": "3h 3m 59s", "loss_scale": 1.0, "consumed_samples": 2673920, "global_step/max_steps": "10445/12700"}
{"lm loss": 2.03210926, "grad_norm": 0.33233085, "learning_rate": 1.112e-05, "elapsed_time_per_iteration": 4.83658385, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 20s", "remaining_time": "3h 3m 55s", "loss_scale": 1.0, "consumed_samples": 2674176, "global_step/max_steps": "10446/12700"}
{"lm loss": 2.04416156, "grad_norm": 0.31969103, "learning_rate": 1.111e-05, "elapsed_time_per_iteration": 4.87337351, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 25s", "remaining_time": "3h 3m 50s", "loss_scale": 1.0, "consumed_samples": 2674432, "global_step/max_steps": "10447/12700"}
{"lm loss": 2.06540561, "grad_norm": 0.31125611, "learning_rate": 1.11e-05, "elapsed_time_per_iteration": 4.81979775, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 30s", "remaining_time": "3h 3m 45s", "loss_scale": 1.0, "consumed_samples": 2674688, "global_step/max_steps": "10448/12700"}
{"lm loss": 2.00978756, "grad_norm": 0.34334221, "learning_rate": 1.11e-05, "elapsed_time_per_iteration": 4.9128871, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 35s", "remaining_time": "3h 3m 40s", "loss_scale": 1.0, "consumed_samples": 2674944, "global_step/max_steps": "10449/12700"}
{"lm loss": 2.06618428, "grad_norm": 0.32986692, "learning_rate": 1.109e-05, "elapsed_time_per_iteration": 4.96970129, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 40s", "remaining_time": "3h 3m 35s", "loss_scale": 1.0, "consumed_samples": 2675200, "global_step/max_steps": "10450/12700"}
{"lm loss": 2.01816893, "grad_norm": 0.34210163, "learning_rate": 1.108e-05, "elapsed_time_per_iteration": 4.97729611, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 45s", "remaining_time": "3h 3m 30s", "loss_scale": 1.0, "consumed_samples": 2675456, "global_step/max_steps": "10451/12700"}
{"lm loss": 2.05766177, "grad_norm": 0.3529028, "learning_rate": 1.107e-05, "elapsed_time_per_iteration": 4.91206479, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 50s", "remaining_time": "3h 3m 25s", "loss_scale": 1.0, "consumed_samples": 2675712, "global_step/max_steps": "10452/12700"}
{"lm loss": 2.05523396, "grad_norm": 0.32122451, "learning_rate": 1.107e-05, "elapsed_time_per_iteration": 4.94009638, "memory(GiB)": 28.98, "elapsed_time": "14h 12m 55s", "remaining_time": "3h 3m 20s", "loss_scale": 1.0, "consumed_samples": 2675968, "global_step/max_steps": "10453/12700"}
{"lm loss": 2.05103922, "grad_norm": 0.31123492, "learning_rate": 1.106e-05, "elapsed_time_per_iteration": 4.92806697, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 0s", "remaining_time": "3h 3m 15s", "loss_scale": 1.0, "consumed_samples": 2676224, "global_step/max_steps": "10454/12700"}
{"lm loss": 2.05362797, "grad_norm": 0.32818615, "learning_rate": 1.105e-05, "elapsed_time_per_iteration": 4.8919034, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 5s", "remaining_time": "3h 3m 10s", "loss_scale": 1.0, "consumed_samples": 2676480, "global_step/max_steps": "10455/12700"}
{"lm loss": 2.04134369, "grad_norm": 0.34417683, "learning_rate": 1.105e-05, "elapsed_time_per_iteration": 4.84217477, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 10s", "remaining_time": "3h 3m 6s", "loss_scale": 1.0, "consumed_samples": 2676736, "global_step/max_steps": "10456/12700"}
{"lm loss": 2.04288936, "grad_norm": 0.32369819, "learning_rate": 1.104e-05, "elapsed_time_per_iteration": 4.868963, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 14s", "remaining_time": "3h 3m 1s", "loss_scale": 1.0, "consumed_samples": 2676992, "global_step/max_steps": "10457/12700"}
{"lm loss": 2.07145739, "grad_norm": 0.35040155, "learning_rate": 1.103e-05, "elapsed_time_per_iteration": 4.92561221, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 19s", "remaining_time": "3h 2m 56s", "loss_scale": 1.0, "consumed_samples": 2677248, "global_step/max_steps": "10458/12700"}
{"lm loss": 2.05497837, "grad_norm": 0.31177142, "learning_rate": 1.103e-05, "elapsed_time_per_iteration": 4.90624046, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 24s", "remaining_time": "3h 2m 51s", "loss_scale": 1.0, "consumed_samples": 2677504, "global_step/max_steps": "10459/12700"}
{"lm loss": 2.03205991, "grad_norm": 0.32700244, "learning_rate": 1.102e-05, "elapsed_time_per_iteration": 4.81334829, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 29s", "remaining_time": "3h 2m 46s", "loss_scale": 1.0, "consumed_samples": 2677760, "global_step/max_steps": "10460/12700"}
{"lm loss": 2.06536245, "grad_norm": 0.31011191, "learning_rate": 1.101e-05, "elapsed_time_per_iteration": 4.96624708, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 34s", "remaining_time": "3h 2m 41s", "loss_scale": 1.0, "consumed_samples": 2678016, "global_step/max_steps": "10461/12700"}
{"lm loss": 2.05383992, "grad_norm": 0.3311967, "learning_rate": 1.1e-05, "elapsed_time_per_iteration": 4.90030122, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 39s", "remaining_time": "3h 2m 36s", "loss_scale": 1.0, "consumed_samples": 2678272, "global_step/max_steps": "10462/12700"}
{"lm loss": 2.07507873, "grad_norm": 0.32559234, "learning_rate": 1.1e-05, "elapsed_time_per_iteration": 4.90665603, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 44s", "remaining_time": "3h 2m 31s", "loss_scale": 1.0, "consumed_samples": 2678528, "global_step/max_steps": "10463/12700"}
{"lm loss": 2.03893065, "grad_norm": 0.30903745, "learning_rate": 1.099e-05, "elapsed_time_per_iteration": 4.88447857, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 49s", "remaining_time": "3h 2m 26s", "loss_scale": 1.0, "consumed_samples": 2678784, "global_step/max_steps": "10464/12700"}
{"lm loss": 2.08855247, "grad_norm": 0.3180556, "learning_rate": 1.098e-05, "elapsed_time_per_iteration": 4.79051661, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 54s", "remaining_time": "3h 2m 21s", "loss_scale": 1.0, "consumed_samples": 2679040, "global_step/max_steps": "10465/12700"}
{"lm loss": 2.07348442, "grad_norm": 0.32595164, "learning_rate": 1.098e-05, "elapsed_time_per_iteration": 4.7918694, "memory(GiB)": 28.98, "elapsed_time": "14h 13m 58s", "remaining_time": "3h 2m 17s", "loss_scale": 1.0, "consumed_samples": 2679296, "global_step/max_steps": "10466/12700"}
{"lm loss": 2.04979324, "grad_norm": 0.32651722, "learning_rate": 1.097e-05, "elapsed_time_per_iteration": 4.88975191, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 3s", "remaining_time": "3h 2m 12s", "loss_scale": 1.0, "consumed_samples": 2679552, "global_step/max_steps": "10467/12700"}
{"lm loss": 2.06051302, "grad_norm": 0.32004631, "learning_rate": 1.096e-05, "elapsed_time_per_iteration": 4.85581946, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 8s", "remaining_time": "3h 2m 7s", "loss_scale": 1.0, "consumed_samples": 2679808, "global_step/max_steps": "10468/12700"}
{"lm loss": 2.05877399, "grad_norm": 0.31870642, "learning_rate": 1.096e-05, "elapsed_time_per_iteration": 4.86038661, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 13s", "remaining_time": "3h 2m 2s", "loss_scale": 1.0, "consumed_samples": 2680064, "global_step/max_steps": "10469/12700"}
{"lm loss": 2.06764007, "grad_norm": 0.31133002, "learning_rate": 1.095e-05, "elapsed_time_per_iteration": 4.9264276, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 18s", "remaining_time": "3h 1m 57s", "loss_scale": 1.0, "consumed_samples": 2680320, "global_step/max_steps": "10470/12700"}
{"lm loss": 2.06759834, "grad_norm": 0.33945194, "learning_rate": 1.094e-05, "elapsed_time_per_iteration": 4.87435436, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 23s", "remaining_time": "3h 1m 52s", "loss_scale": 1.0, "consumed_samples": 2680576, "global_step/max_steps": "10471/12700"}
{"lm loss": 2.01707721, "grad_norm": 0.32215261, "learning_rate": 1.094e-05, "elapsed_time_per_iteration": 4.90116167, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 28s", "remaining_time": "3h 1m 47s", "loss_scale": 1.0, "consumed_samples": 2680832, "global_step/max_steps": "10472/12700"}
{"lm loss": 2.06403923, "grad_norm": 0.31287551, "learning_rate": 1.093e-05, "elapsed_time_per_iteration": 4.8915751, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 32s", "remaining_time": "3h 1m 42s", "loss_scale": 1.0, "consumed_samples": 2681088, "global_step/max_steps": "10473/12700"}
{"lm loss": 2.05565071, "grad_norm": 0.3245877, "learning_rate": 1.092e-05, "elapsed_time_per_iteration": 4.88655281, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 37s", "remaining_time": "3h 1m 37s", "loss_scale": 1.0, "consumed_samples": 2681344, "global_step/max_steps": "10474/12700"}
{"lm loss": 2.03577828, "grad_norm": 0.31163317, "learning_rate": 1.091e-05, "elapsed_time_per_iteration": 4.86007118, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 42s", "remaining_time": "3h 1m 32s", "loss_scale": 1.0, "consumed_samples": 2681600, "global_step/max_steps": "10475/12700"}
{"lm loss": 2.04210711, "grad_norm": 0.30645078, "learning_rate": 1.091e-05, "elapsed_time_per_iteration": 4.94005084, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 47s", "remaining_time": "3h 1m 28s", "loss_scale": 1.0, "consumed_samples": 2681856, "global_step/max_steps": "10476/12700"}
{"lm loss": 2.05027771, "grad_norm": 0.34096602, "learning_rate": 1.09e-05, "elapsed_time_per_iteration": 4.91322875, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 52s", "remaining_time": "3h 1m 23s", "loss_scale": 1.0, "consumed_samples": 2682112, "global_step/max_steps": "10477/12700"}
{"lm loss": 2.06447887, "grad_norm": 0.3456876, "learning_rate": 1.089e-05, "elapsed_time_per_iteration": 4.85597253, "memory(GiB)": 28.98, "elapsed_time": "14h 14m 57s", "remaining_time": "3h 1m 18s", "loss_scale": 1.0, "consumed_samples": 2682368, "global_step/max_steps": "10478/12700"}
{"lm loss": 2.0634141, "grad_norm": 0.31626502, "learning_rate": 1.089e-05, "elapsed_time_per_iteration": 4.84653926, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 2s", "remaining_time": "3h 1m 13s", "loss_scale": 1.0, "consumed_samples": 2682624, "global_step/max_steps": "10479/12700"}
{"lm loss": 2.0754745, "grad_norm": 0.33036146, "learning_rate": 1.088e-05, "elapsed_time_per_iteration": 4.79584599, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 7s", "remaining_time": "3h 1m 8s", "loss_scale": 1.0, "consumed_samples": 2682880, "global_step/max_steps": "10480/12700"}
{"lm loss": 2.07321262, "grad_norm": 0.31525868, "learning_rate": 1.087e-05, "elapsed_time_per_iteration": 4.8603394, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 11s", "remaining_time": "3h 1m 3s", "loss_scale": 1.0, "consumed_samples": 2683136, "global_step/max_steps": "10481/12700"}
{"lm loss": 2.03294849, "grad_norm": 0.32328579, "learning_rate": 1.087e-05, "elapsed_time_per_iteration": 4.89402246, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 16s", "remaining_time": "3h 0m 58s", "loss_scale": 1.0, "consumed_samples": 2683392, "global_step/max_steps": "10482/12700"}
{"lm loss": 2.03738523, "grad_norm": 0.3148689, "learning_rate": 1.086e-05, "elapsed_time_per_iteration": 5.03307414, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 21s", "remaining_time": "3h 0m 53s", "loss_scale": 1.0, "consumed_samples": 2683648, "global_step/max_steps": "10483/12700"}
{"lm loss": 2.06022263, "grad_norm": 0.30832532, "learning_rate": 1.085e-05, "elapsed_time_per_iteration": 4.92116761, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 26s", "remaining_time": "3h 0m 48s", "loss_scale": 1.0, "consumed_samples": 2683904, "global_step/max_steps": "10484/12700"}
{"lm loss": 2.08851624, "grad_norm": 0.33020848, "learning_rate": 1.085e-05, "elapsed_time_per_iteration": 4.88726878, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 31s", "remaining_time": "3h 0m 44s", "loss_scale": 1.0, "consumed_samples": 2684160, "global_step/max_steps": "10485/12700"}
{"lm loss": 2.07329082, "grad_norm": 0.32619402, "learning_rate": 1.084e-05, "elapsed_time_per_iteration": 4.87896729, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 36s", "remaining_time": "3h 0m 39s", "loss_scale": 1.0, "consumed_samples": 2684416, "global_step/max_steps": "10486/12700"}
{"lm loss": 2.03631186, "grad_norm": 0.33559942, "learning_rate": 1.083e-05, "elapsed_time_per_iteration": 4.93242121, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 41s", "remaining_time": "3h 0m 34s", "loss_scale": 1.0, "consumed_samples": 2684672, "global_step/max_steps": "10487/12700"}
{"lm loss": 2.07350707, "grad_norm": 0.3340801, "learning_rate": 1.083e-05, "elapsed_time_per_iteration": 4.84793735, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 46s", "remaining_time": "3h 0m 29s", "loss_scale": 1.0, "consumed_samples": 2684928, "global_step/max_steps": "10488/12700"}
{"lm loss": 2.08192801, "grad_norm": 0.31901231, "learning_rate": 1.082e-05, "elapsed_time_per_iteration": 4.97188187, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 51s", "remaining_time": "3h 0m 24s", "loss_scale": 1.0, "consumed_samples": 2685184, "global_step/max_steps": "10489/12700"}
{"lm loss": 2.03966451, "grad_norm": 0.31971824, "learning_rate": 1.081e-05, "elapsed_time_per_iteration": 4.82530594, "memory(GiB)": 28.98, "elapsed_time": "14h 15m 56s", "remaining_time": "3h 0m 19s", "loss_scale": 1.0, "consumed_samples": 2685440, "global_step/max_steps": "10490/12700"}
{"lm loss": 2.07401323, "grad_norm": 0.34431079, "learning_rate": 1.08e-05, "elapsed_time_per_iteration": 4.84186244, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 0s", "remaining_time": "3h 0m 14s", "loss_scale": 1.0, "consumed_samples": 2685696, "global_step/max_steps": "10491/12700"}
{"lm loss": 2.05516934, "grad_norm": 0.31525722, "learning_rate": 1.08e-05, "elapsed_time_per_iteration": 5.05626845, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 6s", "remaining_time": "3h 0m 9s", "loss_scale": 1.0, "consumed_samples": 2685952, "global_step/max_steps": "10492/12700"}
{"lm loss": 2.01573205, "grad_norm": 0.32351014, "learning_rate": 1.079e-05, "elapsed_time_per_iteration": 4.90103292, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 10s", "remaining_time": "3h 0m 4s", "loss_scale": 1.0, "consumed_samples": 2686208, "global_step/max_steps": "10493/12700"}
{"lm loss": 2.05151653, "grad_norm": 0.33679271, "learning_rate": 1.078e-05, "elapsed_time_per_iteration": 4.89772248, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 15s", "remaining_time": "2h 59m 59s", "loss_scale": 1.0, "consumed_samples": 2686464, "global_step/max_steps": "10494/12700"}
{"lm loss": 2.07425976, "grad_norm": 0.34782761, "learning_rate": 1.078e-05, "elapsed_time_per_iteration": 4.78265381, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 20s", "remaining_time": "2h 59m 55s", "loss_scale": 1.0, "consumed_samples": 2686720, "global_step/max_steps": "10495/12700"}
{"lm loss": 2.03401542, "grad_norm": 0.32339326, "learning_rate": 1.077e-05, "elapsed_time_per_iteration": 4.85011625, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 25s", "remaining_time": "2h 59m 50s", "loss_scale": 1.0, "consumed_samples": 2686976, "global_step/max_steps": "10496/12700"}
{"lm loss": 2.07612228, "grad_norm": 0.35091743, "learning_rate": 1.076e-05, "elapsed_time_per_iteration": 4.82527375, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 30s", "remaining_time": "2h 59m 45s", "loss_scale": 1.0, "consumed_samples": 2687232, "global_step/max_steps": "10497/12700"}
{"lm loss": 2.01637721, "grad_norm": 0.35574606, "learning_rate": 1.076e-05, "elapsed_time_per_iteration": 4.83874369, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 35s", "remaining_time": "2h 59m 40s", "loss_scale": 1.0, "consumed_samples": 2687488, "global_step/max_steps": "10498/12700"}
{"lm loss": 2.03677988, "grad_norm": 0.34587887, "learning_rate": 1.075e-05, "elapsed_time_per_iteration": 4.90315771, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 40s", "remaining_time": "2h 59m 35s", "loss_scale": 1.0, "consumed_samples": 2687744, "global_step/max_steps": "10499/12700"}
{"lm loss": 2.03489947, "grad_norm": 0.33018774, "learning_rate": 1.074e-05, "elapsed_time_per_iteration": 4.90418458, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 44s", "remaining_time": "2h 59m 30s", "loss_scale": 1.0, "consumed_samples": 2688000, "global_step/max_steps": "10500/12700"}
{"lm loss": 2.04959106, "grad_norm": 0.31864324, "learning_rate": 1.074e-05, "elapsed_time_per_iteration": 4.92874789, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 49s", "remaining_time": "2h 59m 25s", "loss_scale": 1.0, "consumed_samples": 2688256, "global_step/max_steps": "10501/12700"}
{"lm loss": 2.03744149, "grad_norm": 0.31467274, "learning_rate": 1.073e-05, "elapsed_time_per_iteration": 5.04486394, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 54s", "remaining_time": "2h 59m 20s", "loss_scale": 1.0, "consumed_samples": 2688512, "global_step/max_steps": "10502/12700"}
{"lm loss": 2.06311202, "grad_norm": 0.33025512, "learning_rate": 1.072e-05, "elapsed_time_per_iteration": 4.87245345, "memory(GiB)": 28.98, "elapsed_time": "14h 16m 59s", "remaining_time": "2h 59m 15s", "loss_scale": 1.0, "consumed_samples": 2688768, "global_step/max_steps": "10503/12700"}
{"lm loss": 2.04591632, "grad_norm": 0.3333602, "learning_rate": 1.072e-05, "elapsed_time_per_iteration": 4.9527781, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 4s", "remaining_time": "2h 59m 11s", "loss_scale": 1.0, "consumed_samples": 2689024, "global_step/max_steps": "10504/12700"}
{"lm loss": 2.06626558, "grad_norm": 0.33446455, "learning_rate": 1.071e-05, "elapsed_time_per_iteration": 4.98096395, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 9s", "remaining_time": "2h 59m 6s", "loss_scale": 1.0, "consumed_samples": 2689280, "global_step/max_steps": "10505/12700"}
{"lm loss": 2.03923535, "grad_norm": 0.3390246, "learning_rate": 1.07e-05, "elapsed_time_per_iteration": 4.8795433, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 14s", "remaining_time": "2h 59m 1s", "loss_scale": 1.0, "consumed_samples": 2689536, "global_step/max_steps": "10506/12700"}
{"lm loss": 2.04577947, "grad_norm": 0.3536109, "learning_rate": 1.069e-05, "elapsed_time_per_iteration": 4.92964792, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 19s", "remaining_time": "2h 58m 56s", "loss_scale": 1.0, "consumed_samples": 2689792, "global_step/max_steps": "10507/12700"}
{"lm loss": 2.04279566, "grad_norm": 0.33760303, "learning_rate": 1.069e-05, "elapsed_time_per_iteration": 4.78908706, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 24s", "remaining_time": "2h 58m 51s", "loss_scale": 1.0, "consumed_samples": 2690048, "global_step/max_steps": "10508/12700"}
{"lm loss": 2.05304122, "grad_norm": 0.31208238, "learning_rate": 1.068e-05, "elapsed_time_per_iteration": 4.92291689, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 29s", "remaining_time": "2h 58m 46s", "loss_scale": 1.0, "consumed_samples": 2690304, "global_step/max_steps": "10509/12700"}
{"lm loss": 2.00171113, "grad_norm": 0.31660846, "learning_rate": 1.067e-05, "elapsed_time_per_iteration": 4.91631222, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 34s", "remaining_time": "2h 58m 41s", "loss_scale": 1.0, "consumed_samples": 2690560, "global_step/max_steps": "10510/12700"}
{"lm loss": 1.99648511, "grad_norm": 0.34724009, "learning_rate": 1.067e-05, "elapsed_time_per_iteration": 4.87907457, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 39s", "remaining_time": "2h 58m 36s", "loss_scale": 1.0, "consumed_samples": 2690816, "global_step/max_steps": "10511/12700"}
{"lm loss": 2.04599547, "grad_norm": 0.32862478, "learning_rate": 1.066e-05, "elapsed_time_per_iteration": 4.88943624, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 43s", "remaining_time": "2h 58m 31s", "loss_scale": 1.0, "consumed_samples": 2691072, "global_step/max_steps": "10512/12700"}
{"lm loss": 2.04860592, "grad_norm": 0.33895689, "learning_rate": 1.065e-05, "elapsed_time_per_iteration": 4.85902166, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 48s", "remaining_time": "2h 58m 26s", "loss_scale": 1.0, "consumed_samples": 2691328, "global_step/max_steps": "10513/12700"}
{"lm loss": 2.04127622, "grad_norm": 0.33997962, "learning_rate": 1.065e-05, "elapsed_time_per_iteration": 4.96854544, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 53s", "remaining_time": "2h 58m 22s", "loss_scale": 1.0, "consumed_samples": 2691584, "global_step/max_steps": "10514/12700"}
{"lm loss": 2.02885127, "grad_norm": 0.32795304, "learning_rate": 1.064e-05, "elapsed_time_per_iteration": 4.80563331, "memory(GiB)": 28.98, "elapsed_time": "14h 17m 58s", "remaining_time": "2h 58m 17s", "loss_scale": 1.0, "consumed_samples": 2691840, "global_step/max_steps": "10515/12700"}
{"lm loss": 2.03683257, "grad_norm": 0.31361803, "learning_rate": 1.063e-05, "elapsed_time_per_iteration": 4.90300703, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 3s", "remaining_time": "2h 58m 12s", "loss_scale": 1.0, "consumed_samples": 2692096, "global_step/max_steps": "10516/12700"}
{"lm loss": 2.05943799, "grad_norm": 0.36714217, "learning_rate": 1.063e-05, "elapsed_time_per_iteration": 4.96930361, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 8s", "remaining_time": "2h 58m 7s", "loss_scale": 1.0, "consumed_samples": 2692352, "global_step/max_steps": "10517/12700"}
{"lm loss": 2.03348494, "grad_norm": 0.32640114, "learning_rate": 1.062e-05, "elapsed_time_per_iteration": 4.85632634, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 13s", "remaining_time": "2h 58m 2s", "loss_scale": 1.0, "consumed_samples": 2692608, "global_step/max_steps": "10518/12700"}
{"lm loss": 2.02853441, "grad_norm": 0.31458223, "learning_rate": 1.061e-05, "elapsed_time_per_iteration": 4.95489836, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 18s", "remaining_time": "2h 57m 57s", "loss_scale": 1.0, "consumed_samples": 2692864, "global_step/max_steps": "10519/12700"}
{"lm loss": 2.01441288, "grad_norm": 0.33643314, "learning_rate": 1.061e-05, "elapsed_time_per_iteration": 4.90562892, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 23s", "remaining_time": "2h 57m 52s", "loss_scale": 1.0, "consumed_samples": 2693120, "global_step/max_steps": "10520/12700"}
{"lm loss": 2.02482557, "grad_norm": 0.33950636, "learning_rate": 1.06e-05, "elapsed_time_per_iteration": 4.8715682, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 28s", "remaining_time": "2h 57m 47s", "loss_scale": 1.0, "consumed_samples": 2693376, "global_step/max_steps": "10521/12700"}
{"lm loss": 2.07896423, "grad_norm": 0.32722178, "learning_rate": 1.059e-05, "elapsed_time_per_iteration": 4.92353988, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 32s", "remaining_time": "2h 57m 42s", "loss_scale": 1.0, "consumed_samples": 2693632, "global_step/max_steps": "10522/12700"}
{"lm loss": 2.0542295, "grad_norm": 0.33682552, "learning_rate": 1.059e-05, "elapsed_time_per_iteration": 4.89195347, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 37s", "remaining_time": "2h 57m 38s", "loss_scale": 1.0, "consumed_samples": 2693888, "global_step/max_steps": "10523/12700"}
{"lm loss": 1.99909794, "grad_norm": 0.32864267, "learning_rate": 1.058e-05, "elapsed_time_per_iteration": 4.96780729, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 42s", "remaining_time": "2h 57m 33s", "loss_scale": 1.0, "consumed_samples": 2694144, "global_step/max_steps": "10524/12700"}
{"lm loss": 2.04230475, "grad_norm": 0.33472267, "learning_rate": 1.057e-05, "elapsed_time_per_iteration": 4.86369538, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 47s", "remaining_time": "2h 57m 28s", "loss_scale": 1.0, "consumed_samples": 2694400, "global_step/max_steps": "10525/12700"}
{"lm loss": 2.05828786, "grad_norm": 0.32549262, "learning_rate": 1.057e-05, "elapsed_time_per_iteration": 4.95334935, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 52s", "remaining_time": "2h 57m 23s", "loss_scale": 1.0, "consumed_samples": 2694656, "global_step/max_steps": "10526/12700"}
{"lm loss": 2.06746745, "grad_norm": 0.32984093, "learning_rate": 1.056e-05, "elapsed_time_per_iteration": 4.91666102, "memory(GiB)": 28.98, "elapsed_time": "14h 18m 57s", "remaining_time": "2h 57m 18s", "loss_scale": 1.0, "consumed_samples": 2694912, "global_step/max_steps": "10527/12700"}
{"lm loss": 2.05862594, "grad_norm": 0.30903208, "learning_rate": 1.055e-05, "elapsed_time_per_iteration": 4.92793536, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 2s", "remaining_time": "2h 57m 13s", "loss_scale": 1.0, "consumed_samples": 2695168, "global_step/max_steps": "10528/12700"}
{"lm loss": 2.09487557, "grad_norm": 0.33029816, "learning_rate": 1.055e-05, "elapsed_time_per_iteration": 4.83489704, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 7s", "remaining_time": "2h 57m 8s", "loss_scale": 1.0, "consumed_samples": 2695424, "global_step/max_steps": "10529/12700"}
{"lm loss": 2.04088783, "grad_norm": 0.34718683, "learning_rate": 1.054e-05, "elapsed_time_per_iteration": 4.91161108, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 12s", "remaining_time": "2h 57m 3s", "loss_scale": 1.0, "consumed_samples": 2695680, "global_step/max_steps": "10530/12700"}
{"lm loss": 2.02929115, "grad_norm": 0.32655156, "learning_rate": 1.053e-05, "elapsed_time_per_iteration": 4.89481783, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 17s", "remaining_time": "2h 56m 58s", "loss_scale": 1.0, "consumed_samples": 2695936, "global_step/max_steps": "10531/12700"}
{"lm loss": 2.04454827, "grad_norm": 0.33225214, "learning_rate": 1.053e-05, "elapsed_time_per_iteration": 4.97167516, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 22s", "remaining_time": "2h 56m 53s", "loss_scale": 1.0, "consumed_samples": 2696192, "global_step/max_steps": "10532/12700"}
{"lm loss": 2.02482533, "grad_norm": 0.32440713, "learning_rate": 1.052e-05, "elapsed_time_per_iteration": 4.96608925, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 27s", "remaining_time": "2h 56m 49s", "loss_scale": 1.0, "consumed_samples": 2696448, "global_step/max_steps": "10533/12700"}
{"lm loss": 2.0463531, "grad_norm": 0.32890055, "learning_rate": 1.051e-05, "elapsed_time_per_iteration": 4.92526102, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 31s", "remaining_time": "2h 56m 44s", "loss_scale": 1.0, "consumed_samples": 2696704, "global_step/max_steps": "10534/12700"}
{"lm loss": 2.03229427, "grad_norm": 0.32686728, "learning_rate": 1.05e-05, "elapsed_time_per_iteration": 4.83517671, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 36s", "remaining_time": "2h 56m 39s", "loss_scale": 1.0, "consumed_samples": 2696960, "global_step/max_steps": "10535/12700"}
{"lm loss": 2.06616592, "grad_norm": 0.32719383, "learning_rate": 1.05e-05, "elapsed_time_per_iteration": 4.88667059, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 41s", "remaining_time": "2h 56m 34s", "loss_scale": 1.0, "consumed_samples": 2697216, "global_step/max_steps": "10536/12700"}
{"lm loss": 2.04792166, "grad_norm": 0.3185969, "learning_rate": 1.049e-05, "elapsed_time_per_iteration": 4.86644077, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 46s", "remaining_time": "2h 56m 29s", "loss_scale": 1.0, "consumed_samples": 2697472, "global_step/max_steps": "10537/12700"}
{"lm loss": 2.0560329, "grad_norm": 0.31061441, "learning_rate": 1.048e-05, "elapsed_time_per_iteration": 4.89048839, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 51s", "remaining_time": "2h 56m 24s", "loss_scale": 1.0, "consumed_samples": 2697728, "global_step/max_steps": "10538/12700"}
{"lm loss": 2.05518723, "grad_norm": 0.33053872, "learning_rate": 1.048e-05, "elapsed_time_per_iteration": 4.82970667, "memory(GiB)": 28.98, "elapsed_time": "14h 19m 56s", "remaining_time": "2h 56m 19s", "loss_scale": 1.0, "consumed_samples": 2697984, "global_step/max_steps": "10539/12700"}
{"lm loss": 2.0670321, "grad_norm": 0.33677793, "learning_rate": 1.047e-05, "elapsed_time_per_iteration": 4.88208079, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 1s", "remaining_time": "2h 56m 14s", "loss_scale": 1.0, "consumed_samples": 2698240, "global_step/max_steps": "10540/12700"}
{"lm loss": 2.05316734, "grad_norm": 0.33254778, "learning_rate": 1.046e-05, "elapsed_time_per_iteration": 4.91365623, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 6s", "remaining_time": "2h 56m 9s", "loss_scale": 1.0, "consumed_samples": 2698496, "global_step/max_steps": "10541/12700"}
{"lm loss": 2.06543207, "grad_norm": 0.33762681, "learning_rate": 1.046e-05, "elapsed_time_per_iteration": 4.93143702, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 11s", "remaining_time": "2h 56m 5s", "loss_scale": 1.0, "consumed_samples": 2698752, "global_step/max_steps": "10542/12700"}
{"lm loss": 2.056113, "grad_norm": 0.31124318, "learning_rate": 1.045e-05, "elapsed_time_per_iteration": 5.03569508, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 16s", "remaining_time": "2h 56m 0s", "loss_scale": 1.0, "consumed_samples": 2699008, "global_step/max_steps": "10543/12700"}
{"lm loss": 2.04511619, "grad_norm": 0.3096965, "learning_rate": 1.044e-05, "elapsed_time_per_iteration": 4.81137729, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 20s", "remaining_time": "2h 55m 55s", "loss_scale": 1.0, "consumed_samples": 2699264, "global_step/max_steps": "10544/12700"}
{"lm loss": 2.05853605, "grad_norm": 0.32028538, "learning_rate": 1.044e-05, "elapsed_time_per_iteration": 4.91501856, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 25s", "remaining_time": "2h 55m 50s", "loss_scale": 1.0, "consumed_samples": 2699520, "global_step/max_steps": "10545/12700"}
{"lm loss": 2.05158496, "grad_norm": 0.3232342, "learning_rate": 1.043e-05, "elapsed_time_per_iteration": 4.84023738, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 30s", "remaining_time": "2h 55m 45s", "loss_scale": 1.0, "consumed_samples": 2699776, "global_step/max_steps": "10546/12700"}
{"lm loss": 2.03324986, "grad_norm": 0.33454579, "learning_rate": 1.042e-05, "elapsed_time_per_iteration": 4.90175962, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 35s", "remaining_time": "2h 55m 40s", "loss_scale": 1.0, "consumed_samples": 2700032, "global_step/max_steps": "10547/12700"}
{"lm loss": 2.08773851, "grad_norm": 0.33829916, "learning_rate": 1.042e-05, "elapsed_time_per_iteration": 4.83683848, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 40s", "remaining_time": "2h 55m 35s", "loss_scale": 1.0, "consumed_samples": 2700288, "global_step/max_steps": "10548/12700"}
{"lm loss": 2.08528781, "grad_norm": 0.33255351, "learning_rate": 1.041e-05, "elapsed_time_per_iteration": 4.86881828, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 45s", "remaining_time": "2h 55m 30s", "loss_scale": 1.0, "consumed_samples": 2700544, "global_step/max_steps": "10549/12700"}
{"lm loss": 2.04336715, "grad_norm": 0.31602702, "learning_rate": 1.04e-05, "elapsed_time_per_iteration": 4.9790225, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 50s", "remaining_time": "2h 55m 25s", "loss_scale": 1.0, "consumed_samples": 2700800, "global_step/max_steps": "10550/12700"}
{"lm loss": 2.04727364, "grad_norm": 0.31264791, "learning_rate": 1.04e-05, "elapsed_time_per_iteration": 4.86406326, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 55s", "remaining_time": "2h 55m 20s", "loss_scale": 1.0, "consumed_samples": 2701056, "global_step/max_steps": "10551/12700"}
{"lm loss": 2.06934929, "grad_norm": 0.31338331, "learning_rate": 1.039e-05, "elapsed_time_per_iteration": 4.89252186, "memory(GiB)": 28.98, "elapsed_time": "14h 20m 59s", "remaining_time": "2h 55m 16s", "loss_scale": 1.0, "consumed_samples": 2701312, "global_step/max_steps": "10552/12700"}
{"lm loss": 2.05177188, "grad_norm": 0.31663439, "learning_rate": 1.038e-05, "elapsed_time_per_iteration": 4.77561212, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 4s", "remaining_time": "2h 55m 11s", "loss_scale": 1.0, "consumed_samples": 2701568, "global_step/max_steps": "10553/12700"}
{"lm loss": 2.06397867, "grad_norm": 0.34409097, "learning_rate": 1.038e-05, "elapsed_time_per_iteration": 4.87992525, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 9s", "remaining_time": "2h 55m 6s", "loss_scale": 1.0, "consumed_samples": 2701824, "global_step/max_steps": "10554/12700"}
{"lm loss": 2.0566535, "grad_norm": 0.32373178, "learning_rate": 1.037e-05, "elapsed_time_per_iteration": 4.8658421, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 14s", "remaining_time": "2h 55m 1s", "loss_scale": 1.0, "consumed_samples": 2702080, "global_step/max_steps": "10555/12700"}
{"lm loss": 2.06854606, "grad_norm": 0.32883245, "learning_rate": 1.036e-05, "elapsed_time_per_iteration": 4.88737822, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 19s", "remaining_time": "2h 54m 56s", "loss_scale": 1.0, "consumed_samples": 2702336, "global_step/max_steps": "10556/12700"}
{"lm loss": 2.04342294, "grad_norm": 0.32563591, "learning_rate": 1.036e-05, "elapsed_time_per_iteration": 4.8350718, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 24s", "remaining_time": "2h 54m 51s", "loss_scale": 1.0, "consumed_samples": 2702592, "global_step/max_steps": "10557/12700"}
{"lm loss": 2.07880044, "grad_norm": 0.30681643, "learning_rate": 1.035e-05, "elapsed_time_per_iteration": 4.80789518, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 29s", "remaining_time": "2h 54m 46s", "loss_scale": 1.0, "consumed_samples": 2702848, "global_step/max_steps": "10558/12700"}
{"lm loss": 2.0391624, "grad_norm": 0.31709206, "learning_rate": 1.034e-05, "elapsed_time_per_iteration": 4.96039844, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 33s", "remaining_time": "2h 54m 41s", "loss_scale": 1.0, "consumed_samples": 2703104, "global_step/max_steps": "10559/12700"}
{"lm loss": 2.03928638, "grad_norm": 0.3138909, "learning_rate": 1.034e-05, "elapsed_time_per_iteration": 4.84022903, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 38s", "remaining_time": "2h 54m 36s", "loss_scale": 1.0, "consumed_samples": 2703360, "global_step/max_steps": "10560/12700"}
{"lm loss": 2.0268352, "grad_norm": 0.32318285, "learning_rate": 1.033e-05, "elapsed_time_per_iteration": 4.88158941, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 43s", "remaining_time": "2h 54m 31s", "loss_scale": 1.0, "consumed_samples": 2703616, "global_step/max_steps": "10561/12700"}
{"lm loss": 2.03202057, "grad_norm": 0.30552751, "learning_rate": 1.032e-05, "elapsed_time_per_iteration": 4.94696307, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 48s", "remaining_time": "2h 54m 27s", "loss_scale": 1.0, "consumed_samples": 2703872, "global_step/max_steps": "10562/12700"}
{"lm loss": 2.00592136, "grad_norm": 0.31165832, "learning_rate": 1.032e-05, "elapsed_time_per_iteration": 4.93162632, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 53s", "remaining_time": "2h 54m 22s", "loss_scale": 1.0, "consumed_samples": 2704128, "global_step/max_steps": "10563/12700"}
{"lm loss": 2.03086472, "grad_norm": 0.3102594, "learning_rate": 1.031e-05, "elapsed_time_per_iteration": 4.81105518, "memory(GiB)": 28.98, "elapsed_time": "14h 21m 58s", "remaining_time": "2h 54m 17s", "loss_scale": 1.0, "consumed_samples": 2704384, "global_step/max_steps": "10564/12700"}
{"lm loss": 2.03739405, "grad_norm": 0.32546973, "learning_rate": 1.03e-05, "elapsed_time_per_iteration": 4.90160894, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 3s", "remaining_time": "2h 54m 12s", "loss_scale": 1.0, "consumed_samples": 2704640, "global_step/max_steps": "10565/12700"}
{"lm loss": 2.08105254, "grad_norm": 0.33067125, "learning_rate": 1.03e-05, "elapsed_time_per_iteration": 4.88622475, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 8s", "remaining_time": "2h 54m 7s", "loss_scale": 1.0, "consumed_samples": 2704896, "global_step/max_steps": "10566/12700"}
{"lm loss": 2.05893564, "grad_norm": 0.31654492, "learning_rate": 1.029e-05, "elapsed_time_per_iteration": 4.89891696, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 13s", "remaining_time": "2h 54m 2s", "loss_scale": 1.0, "consumed_samples": 2705152, "global_step/max_steps": "10567/12700"}
{"lm loss": 2.05956721, "grad_norm": 0.3253448, "learning_rate": 1.028e-05, "elapsed_time_per_iteration": 4.82805896, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 17s", "remaining_time": "2h 53m 57s", "loss_scale": 1.0, "consumed_samples": 2705408, "global_step/max_steps": "10568/12700"}
{"lm loss": 2.05973744, "grad_norm": 0.32298768, "learning_rate": 1.028e-05, "elapsed_time_per_iteration": 4.89687061, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 22s", "remaining_time": "2h 53m 52s", "loss_scale": 1.0, "consumed_samples": 2705664, "global_step/max_steps": "10569/12700"}
{"lm loss": 2.05182028, "grad_norm": 0.3208724, "learning_rate": 1.027e-05, "elapsed_time_per_iteration": 4.90605164, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 27s", "remaining_time": "2h 53m 47s", "loss_scale": 1.0, "consumed_samples": 2705920, "global_step/max_steps": "10570/12700"}
{"lm loss": 2.05498171, "grad_norm": 0.32496232, "learning_rate": 1.026e-05, "elapsed_time_per_iteration": 5.02812719, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 32s", "remaining_time": "2h 53m 43s", "loss_scale": 1.0, "consumed_samples": 2706176, "global_step/max_steps": "10571/12700"}
{"lm loss": 2.06561089, "grad_norm": 0.32149002, "learning_rate": 1.026e-05, "elapsed_time_per_iteration": 4.89310288, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 37s", "remaining_time": "2h 53m 38s", "loss_scale": 1.0, "consumed_samples": 2706432, "global_step/max_steps": "10572/12700"}
{"lm loss": 2.03368378, "grad_norm": 0.30868086, "learning_rate": 1.025e-05, "elapsed_time_per_iteration": 4.79964972, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 42s", "remaining_time": "2h 53m 33s", "loss_scale": 1.0, "consumed_samples": 2706688, "global_step/max_steps": "10573/12700"}
{"lm loss": 2.05013371, "grad_norm": 0.31006044, "learning_rate": 1.024e-05, "elapsed_time_per_iteration": 4.80026746, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 47s", "remaining_time": "2h 53m 28s", "loss_scale": 1.0, "consumed_samples": 2706944, "global_step/max_steps": "10574/12700"}
{"lm loss": 2.07371664, "grad_norm": 0.34325647, "learning_rate": 1.024e-05, "elapsed_time_per_iteration": 4.86675668, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 52s", "remaining_time": "2h 53m 23s", "loss_scale": 1.0, "consumed_samples": 2707200, "global_step/max_steps": "10575/12700"}
{"lm loss": 2.05526042, "grad_norm": 0.34321848, "learning_rate": 1.023e-05, "elapsed_time_per_iteration": 4.87144828, "memory(GiB)": 28.98, "elapsed_time": "14h 22m 56s", "remaining_time": "2h 53m 18s", "loss_scale": 1.0, "consumed_samples": 2707456, "global_step/max_steps": "10576/12700"}
{"lm loss": 2.06019068, "grad_norm": 0.32466799, "learning_rate": 1.022e-05, "elapsed_time_per_iteration": 4.79945612, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 1s", "remaining_time": "2h 53m 13s", "loss_scale": 1.0, "consumed_samples": 2707712, "global_step/max_steps": "10577/12700"}
{"lm loss": 2.08332253, "grad_norm": 0.33074978, "learning_rate": 1.022e-05, "elapsed_time_per_iteration": 4.80932593, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 6s", "remaining_time": "2h 53m 8s", "loss_scale": 1.0, "consumed_samples": 2707968, "global_step/max_steps": "10578/12700"}
{"lm loss": 2.04604197, "grad_norm": 0.31551373, "learning_rate": 1.021e-05, "elapsed_time_per_iteration": 4.90621662, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 11s", "remaining_time": "2h 53m 3s", "loss_scale": 1.0, "consumed_samples": 2708224, "global_step/max_steps": "10579/12700"}
{"lm loss": 2.04053712, "grad_norm": 0.32480007, "learning_rate": 1.02e-05, "elapsed_time_per_iteration": 4.88640881, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 16s", "remaining_time": "2h 52m 58s", "loss_scale": 1.0, "consumed_samples": 2708480, "global_step/max_steps": "10580/12700"}
{"lm loss": 2.07993031, "grad_norm": 0.33678293, "learning_rate": 1.02e-05, "elapsed_time_per_iteration": 4.86756635, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 21s", "remaining_time": "2h 52m 53s", "loss_scale": 1.0, "consumed_samples": 2708736, "global_step/max_steps": "10581/12700"}
{"lm loss": 2.02799082, "grad_norm": 0.34300125, "learning_rate": 1.019e-05, "elapsed_time_per_iteration": 4.80999732, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 26s", "remaining_time": "2h 52m 49s", "loss_scale": 1.0, "consumed_samples": 2708992, "global_step/max_steps": "10582/12700"}
{"lm loss": 2.05850863, "grad_norm": 0.32557794, "learning_rate": 1.018e-05, "elapsed_time_per_iteration": 4.90519571, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 30s", "remaining_time": "2h 52m 44s", "loss_scale": 1.0, "consumed_samples": 2709248, "global_step/max_steps": "10583/12700"}
{"lm loss": 2.05070901, "grad_norm": 0.32213432, "learning_rate": 1.018e-05, "elapsed_time_per_iteration": 4.87277055, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 35s", "remaining_time": "2h 52m 39s", "loss_scale": 1.0, "consumed_samples": 2709504, "global_step/max_steps": "10584/12700"}
{"lm loss": 2.09533477, "grad_norm": 0.33118135, "learning_rate": 1.017e-05, "elapsed_time_per_iteration": 4.94840074, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 40s", "remaining_time": "2h 52m 34s", "loss_scale": 1.0, "consumed_samples": 2709760, "global_step/max_steps": "10585/12700"}
{"lm loss": 2.04503345, "grad_norm": 0.32668391, "learning_rate": 1.016e-05, "elapsed_time_per_iteration": 4.85543966, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 45s", "remaining_time": "2h 52m 29s", "loss_scale": 1.0, "consumed_samples": 2710016, "global_step/max_steps": "10586/12700"}
{"lm loss": 2.0390389, "grad_norm": 0.32886606, "learning_rate": 1.016e-05, "elapsed_time_per_iteration": 4.80661559, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 50s", "remaining_time": "2h 52m 24s", "loss_scale": 1.0, "consumed_samples": 2710272, "global_step/max_steps": "10587/12700"}
{"lm loss": 2.05994415, "grad_norm": 0.31629845, "learning_rate": 1.015e-05, "elapsed_time_per_iteration": 4.82982755, "memory(GiB)": 28.98, "elapsed_time": "14h 23m 55s", "remaining_time": "2h 52m 19s", "loss_scale": 1.0, "consumed_samples": 2710528, "global_step/max_steps": "10588/12700"}
{"lm loss": 2.07485509, "grad_norm": 0.32661608, "learning_rate": 1.014e-05, "elapsed_time_per_iteration": 4.88610458, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 0s", "remaining_time": "2h 52m 14s", "loss_scale": 1.0, "consumed_samples": 2710784, "global_step/max_steps": "10589/12700"}
{"lm loss": 2.05665469, "grad_norm": 0.34126213, "learning_rate": 1.014e-05, "elapsed_time_per_iteration": 4.93583274, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 5s", "remaining_time": "2h 52m 9s", "loss_scale": 1.0, "consumed_samples": 2711040, "global_step/max_steps": "10590/12700"}
{"lm loss": 2.00935411, "grad_norm": 0.35280529, "learning_rate": 1.013e-05, "elapsed_time_per_iteration": 4.98308253, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 10s", "remaining_time": "2h 52m 4s", "loss_scale": 1.0, "consumed_samples": 2711296, "global_step/max_steps": "10591/12700"}
{"lm loss": 2.04440117, "grad_norm": 0.32693803, "learning_rate": 1.012e-05, "elapsed_time_per_iteration": 4.88279772, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 14s", "remaining_time": "2h 52m 0s", "loss_scale": 1.0, "consumed_samples": 2711552, "global_step/max_steps": "10592/12700"}
{"lm loss": 2.03172851, "grad_norm": 0.35540956, "learning_rate": 1.012e-05, "elapsed_time_per_iteration": 4.83208919, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 19s", "remaining_time": "2h 51m 55s", "loss_scale": 1.0, "consumed_samples": 2711808, "global_step/max_steps": "10593/12700"}
{"lm loss": 2.04895544, "grad_norm": 0.34634802, "learning_rate": 1.011e-05, "elapsed_time_per_iteration": 4.87107396, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 24s", "remaining_time": "2h 51m 50s", "loss_scale": 1.0, "consumed_samples": 2712064, "global_step/max_steps": "10594/12700"}
{"lm loss": 2.03734803, "grad_norm": 0.31400204, "learning_rate": 1.01e-05, "elapsed_time_per_iteration": 4.84334135, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 29s", "remaining_time": "2h 51m 45s", "loss_scale": 1.0, "consumed_samples": 2712320, "global_step/max_steps": "10595/12700"}
{"lm loss": 2.05509782, "grad_norm": 0.32591787, "learning_rate": 1.01e-05, "elapsed_time_per_iteration": 4.95106006, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 34s", "remaining_time": "2h 51m 40s", "loss_scale": 1.0, "consumed_samples": 2712576, "global_step/max_steps": "10596/12700"}
{"lm loss": 2.05898833, "grad_norm": 0.36502913, "learning_rate": 1.009e-05, "elapsed_time_per_iteration": 4.90249705, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 39s", "remaining_time": "2h 51m 35s", "loss_scale": 1.0, "consumed_samples": 2712832, "global_step/max_steps": "10597/12700"}
{"lm loss": 2.01644635, "grad_norm": 0.34234536, "learning_rate": 1.009e-05, "elapsed_time_per_iteration": 4.88664794, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 44s", "remaining_time": "2h 51m 30s", "loss_scale": 1.0, "consumed_samples": 2713088, "global_step/max_steps": "10598/12700"}
{"lm loss": 2.03538108, "grad_norm": 0.33824059, "learning_rate": 1.008e-05, "elapsed_time_per_iteration": 4.85282278, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 49s", "remaining_time": "2h 51m 25s", "loss_scale": 1.0, "consumed_samples": 2713344, "global_step/max_steps": "10599/12700"}
{"lm loss": 2.0541389, "grad_norm": 0.32294565, "learning_rate": 1.007e-05, "elapsed_time_per_iteration": 4.8972683, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 53s", "remaining_time": "2h 51m 20s", "loss_scale": 1.0, "consumed_samples": 2713600, "global_step/max_steps": "10600/12700"}
{"lm loss": 2.02112103, "grad_norm": 0.34325579, "learning_rate": 1.007e-05, "elapsed_time_per_iteration": 4.87579203, "memory(GiB)": 28.98, "elapsed_time": "14h 24m 58s", "remaining_time": "2h 51m 15s", "loss_scale": 1.0, "consumed_samples": 2713856, "global_step/max_steps": "10601/12700"}
{"lm loss": 2.05933809, "grad_norm": 0.32566237, "learning_rate": 1.006e-05, "elapsed_time_per_iteration": 4.86962175, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 3s", "remaining_time": "2h 51m 11s", "loss_scale": 1.0, "consumed_samples": 2714112, "global_step/max_steps": "10602/12700"}
{"lm loss": 2.05358386, "grad_norm": 0.32086617, "learning_rate": 1.005e-05, "elapsed_time_per_iteration": 4.86883783, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 8s", "remaining_time": "2h 51m 6s", "loss_scale": 1.0, "consumed_samples": 2714368, "global_step/max_steps": "10603/12700"}
{"lm loss": 2.05235171, "grad_norm": 0.33269286, "learning_rate": 1.005e-05, "elapsed_time_per_iteration": 4.90933776, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 13s", "remaining_time": "2h 51m 1s", "loss_scale": 1.0, "consumed_samples": 2714624, "global_step/max_steps": "10604/12700"}
{"lm loss": 2.03213835, "grad_norm": 0.3306464, "learning_rate": 1.004e-05, "elapsed_time_per_iteration": 4.86131239, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 18s", "remaining_time": "2h 50m 56s", "loss_scale": 1.0, "consumed_samples": 2714880, "global_step/max_steps": "10605/12700"}
{"lm loss": 2.08204484, "grad_norm": 0.33031493, "learning_rate": 1.003e-05, "elapsed_time_per_iteration": 4.86995053, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 23s", "remaining_time": "2h 50m 51s", "loss_scale": 1.0, "consumed_samples": 2715136, "global_step/max_steps": "10606/12700"}
{"lm loss": 2.07899237, "grad_norm": 0.32073766, "learning_rate": 1.003e-05, "elapsed_time_per_iteration": 4.81378508, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 28s", "remaining_time": "2h 50m 46s", "loss_scale": 1.0, "consumed_samples": 2715392, "global_step/max_steps": "10607/12700"}
{"lm loss": 2.04047465, "grad_norm": 0.3467837, "learning_rate": 1.002e-05, "elapsed_time_per_iteration": 4.8954699, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 32s", "remaining_time": "2h 50m 41s", "loss_scale": 1.0, "consumed_samples": 2715648, "global_step/max_steps": "10608/12700"}
{"lm loss": 2.06976151, "grad_norm": 0.31971797, "learning_rate": 1.001e-05, "elapsed_time_per_iteration": 4.85387015, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 37s", "remaining_time": "2h 50m 36s", "loss_scale": 1.0, "consumed_samples": 2715904, "global_step/max_steps": "10609/12700"}
{"lm loss": 2.03923678, "grad_norm": 0.31841466, "learning_rate": 1.001e-05, "elapsed_time_per_iteration": 4.88927794, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 42s", "remaining_time": "2h 50m 31s", "loss_scale": 1.0, "consumed_samples": 2716160, "global_step/max_steps": "10610/12700"}
{"lm loss": 2.02533436, "grad_norm": 0.32561168, "learning_rate": 1e-05, "elapsed_time_per_iteration": 4.88665056, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 47s", "remaining_time": "2h 50m 26s", "loss_scale": 1.0, "consumed_samples": 2716416, "global_step/max_steps": "10611/12700"}
{"lm loss": 2.05054092, "grad_norm": 0.34233442, "learning_rate": 9.99e-06, "elapsed_time_per_iteration": 4.94782948, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 52s", "remaining_time": "2h 50m 22s", "loss_scale": 1.0, "consumed_samples": 2716672, "global_step/max_steps": "10612/12700"}
{"lm loss": 2.07344222, "grad_norm": 0.32411805, "learning_rate": 9.99e-06, "elapsed_time_per_iteration": 4.93766451, "memory(GiB)": 28.98, "elapsed_time": "14h 25m 57s", "remaining_time": "2h 50m 17s", "loss_scale": 1.0, "consumed_samples": 2716928, "global_step/max_steps": "10613/12700"}
{"lm loss": 2.05574155, "grad_norm": 0.3305665, "learning_rate": 9.98e-06, "elapsed_time_per_iteration": 4.99367976, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 2s", "remaining_time": "2h 50m 12s", "loss_scale": 1.0, "consumed_samples": 2717184, "global_step/max_steps": "10614/12700"}
{"lm loss": 2.02721214, "grad_norm": 0.33855784, "learning_rate": 9.97e-06, "elapsed_time_per_iteration": 4.87310123, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 7s", "remaining_time": "2h 50m 7s", "loss_scale": 1.0, "consumed_samples": 2717440, "global_step/max_steps": "10615/12700"}
{"lm loss": 2.04305196, "grad_norm": 0.32441878, "learning_rate": 9.97e-06, "elapsed_time_per_iteration": 4.90299749, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 12s", "remaining_time": "2h 50m 2s", "loss_scale": 1.0, "consumed_samples": 2717696, "global_step/max_steps": "10616/12700"}
{"lm loss": 2.05553842, "grad_norm": 0.34454364, "learning_rate": 9.96e-06, "elapsed_time_per_iteration": 4.86589622, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 17s", "remaining_time": "2h 49m 57s", "loss_scale": 1.0, "consumed_samples": 2717952, "global_step/max_steps": "10617/12700"}
{"lm loss": 2.04635692, "grad_norm": 0.33280563, "learning_rate": 9.95e-06, "elapsed_time_per_iteration": 5.0514524, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 22s", "remaining_time": "2h 49m 52s", "loss_scale": 1.0, "consumed_samples": 2718208, "global_step/max_steps": "10618/12700"}
{"lm loss": 2.04622126, "grad_norm": 0.32519808, "learning_rate": 9.95e-06, "elapsed_time_per_iteration": 4.88408661, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 27s", "remaining_time": "2h 49m 47s", "loss_scale": 1.0, "consumed_samples": 2718464, "global_step/max_steps": "10619/12700"}
{"lm loss": 2.06306386, "grad_norm": 0.32959557, "learning_rate": 9.94e-06, "elapsed_time_per_iteration": 4.87208652, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 31s", "remaining_time": "2h 49m 42s", "loss_scale": 1.0, "consumed_samples": 2718720, "global_step/max_steps": "10620/12700"}
{"lm loss": 2.08524466, "grad_norm": 0.32766816, "learning_rate": 9.93e-06, "elapsed_time_per_iteration": 4.86554217, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 36s", "remaining_time": "2h 49m 38s", "loss_scale": 1.0, "consumed_samples": 2718976, "global_step/max_steps": "10621/12700"}
{"lm loss": 2.06050324, "grad_norm": 0.30779672, "learning_rate": 9.93e-06, "elapsed_time_per_iteration": 4.78174758, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 41s", "remaining_time": "2h 49m 33s", "loss_scale": 1.0, "consumed_samples": 2719232, "global_step/max_steps": "10622/12700"}
{"lm loss": 2.06179571, "grad_norm": 0.30617678, "learning_rate": 9.92e-06, "elapsed_time_per_iteration": 4.87574172, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 46s", "remaining_time": "2h 49m 28s", "loss_scale": 1.0, "consumed_samples": 2719488, "global_step/max_steps": "10623/12700"}
{"lm loss": 2.07117605, "grad_norm": 0.33063707, "learning_rate": 9.92e-06, "elapsed_time_per_iteration": 4.96868467, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 51s", "remaining_time": "2h 49m 23s", "loss_scale": 1.0, "consumed_samples": 2719744, "global_step/max_steps": "10624/12700"}
{"lm loss": 2.03238869, "grad_norm": 0.32154158, "learning_rate": 9.91e-06, "elapsed_time_per_iteration": 4.8923316, "memory(GiB)": 28.98, "elapsed_time": "14h 26m 56s", "remaining_time": "2h 49m 18s", "loss_scale": 1.0, "consumed_samples": 2720000, "global_step/max_steps": "10625/12700"}
{"lm loss": 2.06058693, "grad_norm": 0.31778628, "learning_rate": 9.9e-06, "elapsed_time_per_iteration": 4.87430716, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 1s", "remaining_time": "2h 49m 13s", "loss_scale": 1.0, "consumed_samples": 2720256, "global_step/max_steps": "10626/12700"}
{"lm loss": 2.02557278, "grad_norm": 0.32350647, "learning_rate": 9.9e-06, "elapsed_time_per_iteration": 4.89746785, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 6s", "remaining_time": "2h 49m 8s", "loss_scale": 1.0, "consumed_samples": 2720512, "global_step/max_steps": "10627/12700"}
{"lm loss": 2.04405522, "grad_norm": 0.32397854, "learning_rate": 9.89e-06, "elapsed_time_per_iteration": 5.009552, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 11s", "remaining_time": "2h 49m 3s", "loss_scale": 1.0, "consumed_samples": 2720768, "global_step/max_steps": "10628/12700"}
{"lm loss": 2.05034804, "grad_norm": 0.33516365, "learning_rate": 9.88e-06, "elapsed_time_per_iteration": 4.8670156, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 15s", "remaining_time": "2h 48m 58s", "loss_scale": 1.0, "consumed_samples": 2721024, "global_step/max_steps": "10629/12700"}
{"lm loss": 2.10800362, "grad_norm": 0.34112498, "learning_rate": 9.88e-06, "elapsed_time_per_iteration": 5.07192922, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 21s", "remaining_time": "2h 48m 54s", "loss_scale": 1.0, "consumed_samples": 2721280, "global_step/max_steps": "10630/12700"}
{"lm loss": 2.00978518, "grad_norm": 0.31341901, "learning_rate": 9.87e-06, "elapsed_time_per_iteration": 4.97344923, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 25s", "remaining_time": "2h 48m 49s", "loss_scale": 1.0, "consumed_samples": 2721536, "global_step/max_steps": "10631/12700"}
{"lm loss": 2.03286076, "grad_norm": 0.30970895, "learning_rate": 9.86e-06, "elapsed_time_per_iteration": 4.87537575, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 30s", "remaining_time": "2h 48m 44s", "loss_scale": 1.0, "consumed_samples": 2721792, "global_step/max_steps": "10632/12700"}
{"lm loss": 2.07453609, "grad_norm": 0.31588671, "learning_rate": 9.86e-06, "elapsed_time_per_iteration": 4.83210111, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 35s", "remaining_time": "2h 48m 39s", "loss_scale": 1.0, "consumed_samples": 2722048, "global_step/max_steps": "10633/12700"}
{"lm loss": 2.08586955, "grad_norm": 0.3136279, "learning_rate": 9.85e-06, "elapsed_time_per_iteration": 4.87740445, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 40s", "remaining_time": "2h 48m 34s", "loss_scale": 1.0, "consumed_samples": 2722304, "global_step/max_steps": "10634/12700"}
{"lm loss": 2.06510925, "grad_norm": 0.31084701, "learning_rate": 9.84e-06, "elapsed_time_per_iteration": 4.84918809, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 45s", "remaining_time": "2h 48m 29s", "loss_scale": 1.0, "consumed_samples": 2722560, "global_step/max_steps": "10635/12700"}
{"lm loss": 2.07589841, "grad_norm": 0.30853528, "learning_rate": 9.84e-06, "elapsed_time_per_iteration": 4.90388513, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 50s", "remaining_time": "2h 48m 24s", "loss_scale": 1.0, "consumed_samples": 2722816, "global_step/max_steps": "10636/12700"}
{"lm loss": 2.07710433, "grad_norm": 0.32069099, "learning_rate": 9.83e-06, "elapsed_time_per_iteration": 4.94575119, "memory(GiB)": 28.98, "elapsed_time": "14h 27m 55s", "remaining_time": "2h 48m 19s", "loss_scale": 1.0, "consumed_samples": 2723072, "global_step/max_steps": "10637/12700"}
{"lm loss": 2.06631303, "grad_norm": 0.31084675, "learning_rate": 9.82e-06, "elapsed_time_per_iteration": 4.91945839, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 0s", "remaining_time": "2h 48m 14s", "loss_scale": 1.0, "consumed_samples": 2723328, "global_step/max_steps": "10638/12700"}
{"lm loss": 2.03288078, "grad_norm": 0.31471252, "learning_rate": 9.82e-06, "elapsed_time_per_iteration": 4.94377995, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 5s", "remaining_time": "2h 48m 9s", "loss_scale": 1.0, "consumed_samples": 2723584, "global_step/max_steps": "10639/12700"}
{"lm loss": 2.05294561, "grad_norm": 0.30130783, "learning_rate": 9.81e-06, "elapsed_time_per_iteration": 4.84149694, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 9s", "remaining_time": "2h 48m 5s", "loss_scale": 1.0, "consumed_samples": 2723840, "global_step/max_steps": "10640/12700"}
{"lm loss": 2.05538464, "grad_norm": 0.31960249, "learning_rate": 9.81e-06, "elapsed_time_per_iteration": 4.79849052, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 14s", "remaining_time": "2h 48m 0s", "loss_scale": 1.0, "consumed_samples": 2724096, "global_step/max_steps": "10641/12700"}
{"lm loss": 2.03629684, "grad_norm": 0.33369204, "learning_rate": 9.8e-06, "elapsed_time_per_iteration": 4.87006187, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 19s", "remaining_time": "2h 47m 55s", "loss_scale": 1.0, "consumed_samples": 2724352, "global_step/max_steps": "10642/12700"}
{"lm loss": 2.09819627, "grad_norm": 0.33858413, "learning_rate": 9.79e-06, "elapsed_time_per_iteration": 4.81976008, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 24s", "remaining_time": "2h 47m 50s", "loss_scale": 1.0, "consumed_samples": 2724608, "global_step/max_steps": "10643/12700"}
{"lm loss": 2.04924297, "grad_norm": 0.30831254, "learning_rate": 9.79e-06, "elapsed_time_per_iteration": 4.86679983, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 29s", "remaining_time": "2h 47m 45s", "loss_scale": 1.0, "consumed_samples": 2724864, "global_step/max_steps": "10644/12700"}
{"lm loss": 1.98429573, "grad_norm": 0.31751642, "learning_rate": 9.78e-06, "elapsed_time_per_iteration": 4.85039043, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 34s", "remaining_time": "2h 47m 40s", "loss_scale": 1.0, "consumed_samples": 2725120, "global_step/max_steps": "10645/12700"}
{"lm loss": 2.04088163, "grad_norm": 0.3222492, "learning_rate": 9.77e-06, "elapsed_time_per_iteration": 4.86485505, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 39s", "remaining_time": "2h 47m 35s", "loss_scale": 1.0, "consumed_samples": 2725376, "global_step/max_steps": "10646/12700"}
{"lm loss": 2.04232287, "grad_norm": 0.31450593, "learning_rate": 9.77e-06, "elapsed_time_per_iteration": 4.94737124, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 43s", "remaining_time": "2h 47m 30s", "loss_scale": 1.0, "consumed_samples": 2725632, "global_step/max_steps": "10647/12700"}
{"lm loss": 2.05659628, "grad_norm": 0.31363627, "learning_rate": 9.76e-06, "elapsed_time_per_iteration": 4.87871003, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 48s", "remaining_time": "2h 47m 25s", "loss_scale": 1.0, "consumed_samples": 2725888, "global_step/max_steps": "10648/12700"}
{"lm loss": 2.03483391, "grad_norm": 0.31471425, "learning_rate": 9.75e-06, "elapsed_time_per_iteration": 4.83486962, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 53s", "remaining_time": "2h 47m 20s", "loss_scale": 1.0, "consumed_samples": 2726144, "global_step/max_steps": "10649/12700"}
{"lm loss": 2.07340121, "grad_norm": 0.3218475, "learning_rate": 9.75e-06, "elapsed_time_per_iteration": 4.98755598, "memory(GiB)": 28.98, "elapsed_time": "14h 28m 58s", "remaining_time": "2h 47m 16s", "loss_scale": 1.0, "consumed_samples": 2726400, "global_step/max_steps": "10650/12700"}
{"lm loss": 2.04341698, "grad_norm": 0.32020006, "learning_rate": 9.74e-06, "elapsed_time_per_iteration": 4.84566045, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 3s", "remaining_time": "2h 47m 11s", "loss_scale": 1.0, "consumed_samples": 2726656, "global_step/max_steps": "10651/12700"}
{"lm loss": 2.0724957, "grad_norm": 0.32280707, "learning_rate": 9.73e-06, "elapsed_time_per_iteration": 4.92166233, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 8s", "remaining_time": "2h 47m 6s", "loss_scale": 1.0, "consumed_samples": 2726912, "global_step/max_steps": "10652/12700"}
{"lm loss": 2.03396082, "grad_norm": 0.30655015, "learning_rate": 9.73e-06, "elapsed_time_per_iteration": 4.89003539, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 13s", "remaining_time": "2h 47m 1s", "loss_scale": 1.0, "consumed_samples": 2727168, "global_step/max_steps": "10653/12700"}
{"lm loss": 2.04911685, "grad_norm": 0.32115948, "learning_rate": 9.72e-06, "elapsed_time_per_iteration": 4.85316181, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 18s", "remaining_time": "2h 46m 56s", "loss_scale": 1.0, "consumed_samples": 2727424, "global_step/max_steps": "10654/12700"}
{"lm loss": 2.09886885, "grad_norm": 0.33160552, "learning_rate": 9.72e-06, "elapsed_time_per_iteration": 4.96085262, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 23s", "remaining_time": "2h 46m 51s", "loss_scale": 1.0, "consumed_samples": 2727680, "global_step/max_steps": "10655/12700"}
{"lm loss": 2.0386343, "grad_norm": 0.31700981, "learning_rate": 9.71e-06, "elapsed_time_per_iteration": 4.85525894, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 28s", "remaining_time": "2h 46m 46s", "loss_scale": 1.0, "consumed_samples": 2727936, "global_step/max_steps": "10656/12700"}
{"lm loss": 2.06236792, "grad_norm": 0.32011521, "learning_rate": 9.7e-06, "elapsed_time_per_iteration": 4.93183565, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 32s", "remaining_time": "2h 46m 41s", "loss_scale": 1.0, "consumed_samples": 2728192, "global_step/max_steps": "10657/12700"}
{"lm loss": 2.07102942, "grad_norm": 0.31559026, "learning_rate": 9.7e-06, "elapsed_time_per_iteration": 5.00345969, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 37s", "remaining_time": "2h 46m 36s", "loss_scale": 1.0, "consumed_samples": 2728448, "global_step/max_steps": "10658/12700"}
{"lm loss": 2.04286718, "grad_norm": 0.32925531, "learning_rate": 9.69e-06, "elapsed_time_per_iteration": 4.90396929, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 42s", "remaining_time": "2h 46m 32s", "loss_scale": 1.0, "consumed_samples": 2728704, "global_step/max_steps": "10659/12700"}
{"lm loss": 2.05392385, "grad_norm": 0.31374538, "learning_rate": 9.68e-06, "elapsed_time_per_iteration": 4.94944549, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 47s", "remaining_time": "2h 46m 27s", "loss_scale": 1.0, "consumed_samples": 2728960, "global_step/max_steps": "10660/12700"}
{"lm loss": 2.03611517, "grad_norm": 0.32298544, "learning_rate": 9.68e-06, "elapsed_time_per_iteration": 4.85199976, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 52s", "remaining_time": "2h 46m 22s", "loss_scale": 1.0, "consumed_samples": 2729216, "global_step/max_steps": "10661/12700"}
{"lm loss": 2.0128448, "grad_norm": 0.33720106, "learning_rate": 9.67e-06, "elapsed_time_per_iteration": 4.88824558, "memory(GiB)": 28.98, "elapsed_time": "14h 29m 57s", "remaining_time": "2h 46m 17s", "loss_scale": 1.0, "consumed_samples": 2729472, "global_step/max_steps": "10662/12700"}
{"lm loss": 2.05968571, "grad_norm": 0.33720866, "learning_rate": 9.66e-06, "elapsed_time_per_iteration": 4.86056638, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 2s", "remaining_time": "2h 46m 12s", "loss_scale": 1.0, "consumed_samples": 2729728, "global_step/max_steps": "10663/12700"}
{"lm loss": 2.03019786, "grad_norm": 0.33668974, "learning_rate": 9.66e-06, "elapsed_time_per_iteration": 4.79362583, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 7s", "remaining_time": "2h 46m 7s", "loss_scale": 1.0, "consumed_samples": 2729984, "global_step/max_steps": "10664/12700"}
{"lm loss": 2.0025692, "grad_norm": 0.3155424, "learning_rate": 9.65e-06, "elapsed_time_per_iteration": 4.88899851, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 12s", "remaining_time": "2h 46m 2s", "loss_scale": 1.0, "consumed_samples": 2730240, "global_step/max_steps": "10665/12700"}
{"lm loss": 2.0748198, "grad_norm": 0.33583036, "learning_rate": 9.64e-06, "elapsed_time_per_iteration": 4.88483953, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 16s", "remaining_time": "2h 45m 57s", "loss_scale": 1.0, "consumed_samples": 2730496, "global_step/max_steps": "10666/12700"}
{"lm loss": 2.06670856, "grad_norm": 0.31733829, "learning_rate": 9.64e-06, "elapsed_time_per_iteration": 4.93165278, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 21s", "remaining_time": "2h 45m 52s", "loss_scale": 1.0, "consumed_samples": 2730752, "global_step/max_steps": "10667/12700"}
{"lm loss": 2.07186747, "grad_norm": 0.32712236, "learning_rate": 9.63e-06, "elapsed_time_per_iteration": 4.94399071, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 26s", "remaining_time": "2h 45m 47s", "loss_scale": 1.0, "consumed_samples": 2731008, "global_step/max_steps": "10668/12700"}
{"lm loss": 2.06727266, "grad_norm": 0.3155601, "learning_rate": 9.63e-06, "elapsed_time_per_iteration": 4.81818032, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 31s", "remaining_time": "2h 45m 43s", "loss_scale": 1.0, "consumed_samples": 2731264, "global_step/max_steps": "10669/12700"}
{"lm loss": 2.04281235, "grad_norm": 0.3139331, "learning_rate": 9.62e-06, "elapsed_time_per_iteration": 4.80330944, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 36s", "remaining_time": "2h 45m 38s", "loss_scale": 1.0, "consumed_samples": 2731520, "global_step/max_steps": "10670/12700"}
{"lm loss": 2.04134774, "grad_norm": 0.31593871, "learning_rate": 9.61e-06, "elapsed_time_per_iteration": 4.91102648, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 41s", "remaining_time": "2h 45m 33s", "loss_scale": 1.0, "consumed_samples": 2731776, "global_step/max_steps": "10671/12700"}
{"lm loss": 2.09688926, "grad_norm": 0.32178265, "learning_rate": 9.61e-06, "elapsed_time_per_iteration": 4.8808372, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 46s", "remaining_time": "2h 45m 28s", "loss_scale": 1.0, "consumed_samples": 2732032, "global_step/max_steps": "10672/12700"}
{"lm loss": 2.04611468, "grad_norm": 0.32583949, "learning_rate": 9.6e-06, "elapsed_time_per_iteration": 4.90047646, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 51s", "remaining_time": "2h 45m 23s", "loss_scale": 1.0, "consumed_samples": 2732288, "global_step/max_steps": "10673/12700"}
{"lm loss": 2.07301331, "grad_norm": 0.32023019, "learning_rate": 9.59e-06, "elapsed_time_per_iteration": 5.00837874, "memory(GiB)": 28.98, "elapsed_time": "14h 30m 56s", "remaining_time": "2h 45m 18s", "loss_scale": 1.0, "consumed_samples": 2732544, "global_step/max_steps": "10674/12700"}
{"lm loss": 2.03954577, "grad_norm": 0.31663403, "learning_rate": 9.59e-06, "elapsed_time_per_iteration": 4.87791204, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 1s", "remaining_time": "2h 45m 13s", "loss_scale": 1.0, "consumed_samples": 2732800, "global_step/max_steps": "10675/12700"}
{"lm loss": 2.03626108, "grad_norm": 0.30269653, "learning_rate": 9.58e-06, "elapsed_time_per_iteration": 4.82532692, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 5s", "remaining_time": "2h 45m 8s", "loss_scale": 1.0, "consumed_samples": 2733056, "global_step/max_steps": "10676/12700"}
{"lm loss": 2.05929446, "grad_norm": 0.32433736, "learning_rate": 9.57e-06, "elapsed_time_per_iteration": 5.05411196, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 10s", "remaining_time": "2h 45m 3s", "loss_scale": 1.0, "consumed_samples": 2733312, "global_step/max_steps": "10677/12700"}
{"lm loss": 2.07277179, "grad_norm": 0.32181078, "learning_rate": 9.57e-06, "elapsed_time_per_iteration": 4.83475399, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 15s", "remaining_time": "2h 44m 59s", "loss_scale": 1.0, "consumed_samples": 2733568, "global_step/max_steps": "10678/12700"}
{"lm loss": 2.05948949, "grad_norm": 0.31711304, "learning_rate": 9.56e-06, "elapsed_time_per_iteration": 4.86857796, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 20s", "remaining_time": "2h 44m 54s", "loss_scale": 1.0, "consumed_samples": 2733824, "global_step/max_steps": "10679/12700"}
{"lm loss": 2.0589745, "grad_norm": 0.33194965, "learning_rate": 9.56e-06, "elapsed_time_per_iteration": 4.85071993, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 25s", "remaining_time": "2h 44m 49s", "loss_scale": 1.0, "consumed_samples": 2734080, "global_step/max_steps": "10680/12700"}
{"lm loss": 2.06982589, "grad_norm": 0.31912935, "learning_rate": 9.55e-06, "elapsed_time_per_iteration": 4.84844398, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 30s", "remaining_time": "2h 44m 44s", "loss_scale": 1.0, "consumed_samples": 2734336, "global_step/max_steps": "10681/12700"}
{"lm loss": 2.05975127, "grad_norm": 0.35475561, "learning_rate": 9.54e-06, "elapsed_time_per_iteration": 4.84783363, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 35s", "remaining_time": "2h 44m 39s", "loss_scale": 1.0, "consumed_samples": 2734592, "global_step/max_steps": "10682/12700"}
{"lm loss": 2.04839063, "grad_norm": 0.33448282, "learning_rate": 9.54e-06, "elapsed_time_per_iteration": 4.89311099, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 40s", "remaining_time": "2h 44m 34s", "loss_scale": 1.0, "consumed_samples": 2734848, "global_step/max_steps": "10683/12700"}
{"lm loss": 2.05794168, "grad_norm": 0.30976883, "learning_rate": 9.53e-06, "elapsed_time_per_iteration": 4.88061595, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 44s", "remaining_time": "2h 44m 29s", "loss_scale": 1.0, "consumed_samples": 2735104, "global_step/max_steps": "10684/12700"}
{"lm loss": 2.06592751, "grad_norm": 0.32720608, "learning_rate": 9.52e-06, "elapsed_time_per_iteration": 4.86756396, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 49s", "remaining_time": "2h 44m 24s", "loss_scale": 1.0, "consumed_samples": 2735360, "global_step/max_steps": "10685/12700"}
{"lm loss": 2.057374, "grad_norm": 0.33153281, "learning_rate": 9.52e-06, "elapsed_time_per_iteration": 4.97989058, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 54s", "remaining_time": "2h 44m 19s", "loss_scale": 1.0, "consumed_samples": 2735616, "global_step/max_steps": "10686/12700"}
{"lm loss": 2.04867482, "grad_norm": 0.33562854, "learning_rate": 9.51e-06, "elapsed_time_per_iteration": 4.98445058, "memory(GiB)": 28.98, "elapsed_time": "14h 31m 59s", "remaining_time": "2h 44m 14s", "loss_scale": 1.0, "consumed_samples": 2735872, "global_step/max_steps": "10687/12700"}
{"lm loss": 2.05838442, "grad_norm": 0.31599402, "learning_rate": 9.51e-06, "elapsed_time_per_iteration": 4.97680306, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 4s", "remaining_time": "2h 44m 10s", "loss_scale": 1.0, "consumed_samples": 2736128, "global_step/max_steps": "10688/12700"}
{"lm loss": 2.08995247, "grad_norm": 0.31355551, "learning_rate": 9.5e-06, "elapsed_time_per_iteration": 4.89938927, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 9s", "remaining_time": "2h 44m 5s", "loss_scale": 1.0, "consumed_samples": 2736384, "global_step/max_steps": "10689/12700"}
{"lm loss": 2.0565691, "grad_norm": 0.34176493, "learning_rate": 9.49e-06, "elapsed_time_per_iteration": 4.88229966, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 14s", "remaining_time": "2h 44m 0s", "loss_scale": 1.0, "consumed_samples": 2736640, "global_step/max_steps": "10690/12700"}
{"lm loss": 2.05060101, "grad_norm": 0.36326373, "learning_rate": 9.49e-06, "elapsed_time_per_iteration": 4.80420947, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 19s", "remaining_time": "2h 43m 55s", "loss_scale": 1.0, "consumed_samples": 2736896, "global_step/max_steps": "10691/12700"}
{"lm loss": 2.08137631, "grad_norm": 0.31919396, "learning_rate": 9.48e-06, "elapsed_time_per_iteration": 4.91858697, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 24s", "remaining_time": "2h 43m 50s", "loss_scale": 1.0, "consumed_samples": 2737152, "global_step/max_steps": "10692/12700"}
{"lm loss": 2.06449318, "grad_norm": 0.34714183, "learning_rate": 9.47e-06, "elapsed_time_per_iteration": 4.93928075, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 29s", "remaining_time": "2h 43m 45s", "loss_scale": 1.0, "consumed_samples": 2737408, "global_step/max_steps": "10693/12700"}
{"lm loss": 2.04089999, "grad_norm": 0.35488138, "learning_rate": 9.47e-06, "elapsed_time_per_iteration": 4.8662498, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 34s", "remaining_time": "2h 43m 40s", "loss_scale": 1.0, "consumed_samples": 2737664, "global_step/max_steps": "10694/12700"}
{"lm loss": 2.06575894, "grad_norm": 0.33937761, "learning_rate": 9.46e-06, "elapsed_time_per_iteration": 4.99600887, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 39s", "remaining_time": "2h 43m 35s", "loss_scale": 1.0, "consumed_samples": 2737920, "global_step/max_steps": "10695/12700"}
{"lm loss": 2.06919169, "grad_norm": 0.33118466, "learning_rate": 9.45e-06, "elapsed_time_per_iteration": 4.9640522, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 44s", "remaining_time": "2h 43m 30s", "loss_scale": 1.0, "consumed_samples": 2738176, "global_step/max_steps": "10696/12700"}
{"lm loss": 2.06258607, "grad_norm": 0.3490794, "learning_rate": 9.45e-06, "elapsed_time_per_iteration": 4.79913616, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 48s", "remaining_time": "2h 43m 25s", "loss_scale": 1.0, "consumed_samples": 2738432, "global_step/max_steps": "10697/12700"}
{"lm loss": 2.04572082, "grad_norm": 0.35668978, "learning_rate": 9.44e-06, "elapsed_time_per_iteration": 4.88230491, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 53s", "remaining_time": "2h 43m 21s", "loss_scale": 1.0, "consumed_samples": 2738688, "global_step/max_steps": "10698/12700"}
{"lm loss": 2.04770112, "grad_norm": 0.31020361, "learning_rate": 9.44e-06, "elapsed_time_per_iteration": 4.79412389, "memory(GiB)": 28.98, "elapsed_time": "14h 32m 58s", "remaining_time": "2h 43m 16s", "loss_scale": 1.0, "consumed_samples": 2738944, "global_step/max_steps": "10699/12700"}
{"lm loss": 2.05947137, "grad_norm": 0.32891303, "learning_rate": 9.43e-06, "elapsed_time_per_iteration": 4.90034199, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 3s", "remaining_time": "2h 43m 11s", "loss_scale": 1.0, "consumed_samples": 2739200, "global_step/max_steps": "10700/12700"}
{"lm loss": 2.05014133, "grad_norm": 0.32919583, "learning_rate": 9.42e-06, "elapsed_time_per_iteration": 4.90778136, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 8s", "remaining_time": "2h 43m 6s", "loss_scale": 1.0, "consumed_samples": 2739456, "global_step/max_steps": "10701/12700"}
{"lm loss": 2.06022549, "grad_norm": 0.32875979, "learning_rate": 9.42e-06, "elapsed_time_per_iteration": 4.83095503, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 13s", "remaining_time": "2h 43m 1s", "loss_scale": 1.0, "consumed_samples": 2739712, "global_step/max_steps": "10702/12700"}
{"lm loss": 2.08409142, "grad_norm": 0.32528305, "learning_rate": 9.41e-06, "elapsed_time_per_iteration": 4.84966993, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 17s", "remaining_time": "2h 42m 56s", "loss_scale": 1.0, "consumed_samples": 2739968, "global_step/max_steps": "10703/12700"}
{"lm loss": 2.03599238, "grad_norm": 0.30590546, "learning_rate": 9.4e-06, "elapsed_time_per_iteration": 4.81994462, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 22s", "remaining_time": "2h 42m 51s", "loss_scale": 1.0, "consumed_samples": 2740224, "global_step/max_steps": "10704/12700"}
{"lm loss": 2.04730701, "grad_norm": 0.31740546, "learning_rate": 9.4e-06, "elapsed_time_per_iteration": 4.85719895, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 27s", "remaining_time": "2h 42m 46s", "loss_scale": 1.0, "consumed_samples": 2740480, "global_step/max_steps": "10705/12700"}
{"lm loss": 2.10752034, "grad_norm": 0.33490133, "learning_rate": 9.39e-06, "elapsed_time_per_iteration": 4.93898892, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 32s", "remaining_time": "2h 42m 41s", "loss_scale": 1.0, "consumed_samples": 2740736, "global_step/max_steps": "10706/12700"}
{"lm loss": 2.09148002, "grad_norm": 0.30903041, "learning_rate": 9.39e-06, "elapsed_time_per_iteration": 4.90640712, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 37s", "remaining_time": "2h 42m 36s", "loss_scale": 1.0, "consumed_samples": 2740992, "global_step/max_steps": "10707/12700"}
{"lm loss": 2.05846786, "grad_norm": 0.33310205, "learning_rate": 9.38e-06, "elapsed_time_per_iteration": 4.89439964, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 42s", "remaining_time": "2h 42m 32s", "loss_scale": 1.0, "consumed_samples": 2741248, "global_step/max_steps": "10708/12700"}
{"lm loss": 2.04414296, "grad_norm": 0.35134444, "learning_rate": 9.37e-06, "elapsed_time_per_iteration": 4.82806611, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 47s", "remaining_time": "2h 42m 27s", "loss_scale": 1.0, "consumed_samples": 2741504, "global_step/max_steps": "10709/12700"}
{"lm loss": 2.05148888, "grad_norm": 0.32855642, "learning_rate": 9.37e-06, "elapsed_time_per_iteration": 5.03582406, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 52s", "remaining_time": "2h 42m 22s", "loss_scale": 1.0, "consumed_samples": 2741760, "global_step/max_steps": "10710/12700"}
{"lm loss": 2.0505805, "grad_norm": 0.31696776, "learning_rate": 9.36e-06, "elapsed_time_per_iteration": 4.7998116, "memory(GiB)": 28.98, "elapsed_time": "14h 33m 57s", "remaining_time": "2h 42m 17s", "loss_scale": 1.0, "consumed_samples": 2742016, "global_step/max_steps": "10711/12700"}
{"lm loss": 2.04580688, "grad_norm": 0.34274158, "learning_rate": 9.35e-06, "elapsed_time_per_iteration": 4.88353896, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 1s", "remaining_time": "2h 42m 12s", "loss_scale": 1.0, "consumed_samples": 2742272, "global_step/max_steps": "10712/12700"}
{"lm loss": 2.00651097, "grad_norm": 0.32687521, "learning_rate": 9.35e-06, "elapsed_time_per_iteration": 4.85231495, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 6s", "remaining_time": "2h 42m 7s", "loss_scale": 1.0, "consumed_samples": 2742528, "global_step/max_steps": "10713/12700"}
{"lm loss": 2.04033518, "grad_norm": 0.3285695, "learning_rate": 9.34e-06, "elapsed_time_per_iteration": 4.89805722, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 11s", "remaining_time": "2h 42m 2s", "loss_scale": 1.0, "consumed_samples": 2742784, "global_step/max_steps": "10714/12700"}
{"lm loss": 2.05795336, "grad_norm": 0.32319605, "learning_rate": 9.34e-06, "elapsed_time_per_iteration": 5.08310747, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 16s", "remaining_time": "2h 41m 57s", "loss_scale": 1.0, "consumed_samples": 2743040, "global_step/max_steps": "10715/12700"}
{"lm loss": 2.05141306, "grad_norm": 0.31366134, "learning_rate": 9.33e-06, "elapsed_time_per_iteration": 4.91530919, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 21s", "remaining_time": "2h 41m 52s", "loss_scale": 1.0, "consumed_samples": 2743296, "global_step/max_steps": "10716/12700"}
{"lm loss": 2.06250095, "grad_norm": 0.36498848, "learning_rate": 9.32e-06, "elapsed_time_per_iteration": 4.90126896, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 26s", "remaining_time": "2h 41m 48s", "loss_scale": 1.0, "consumed_samples": 2743552, "global_step/max_steps": "10717/12700"}
{"lm loss": 2.04558778, "grad_norm": 0.3072634, "learning_rate": 9.32e-06, "elapsed_time_per_iteration": 4.82071877, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 31s", "remaining_time": "2h 41m 43s", "loss_scale": 1.0, "consumed_samples": 2743808, "global_step/max_steps": "10718/12700"}
{"lm loss": 2.08743525, "grad_norm": 0.3337889, "learning_rate": 9.31e-06, "elapsed_time_per_iteration": 4.92766881, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 36s", "remaining_time": "2h 41m 38s", "loss_scale": 1.0, "consumed_samples": 2744064, "global_step/max_steps": "10719/12700"}
{"lm loss": 2.06936169, "grad_norm": 0.31381705, "learning_rate": 9.3e-06, "elapsed_time_per_iteration": 4.85641384, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 41s", "remaining_time": "2h 41m 33s", "loss_scale": 1.0, "consumed_samples": 2744320, "global_step/max_steps": "10720/12700"}
{"lm loss": 2.03539681, "grad_norm": 0.33919159, "learning_rate": 9.3e-06, "elapsed_time_per_iteration": 4.93760014, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 46s", "remaining_time": "2h 41m 28s", "loss_scale": 1.0, "consumed_samples": 2744576, "global_step/max_steps": "10721/12700"}
{"lm loss": 2.03882885, "grad_norm": 0.31764266, "learning_rate": 9.29e-06, "elapsed_time_per_iteration": 4.89492083, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 51s", "remaining_time": "2h 41m 23s", "loss_scale": 1.0, "consumed_samples": 2744832, "global_step/max_steps": "10722/12700"}
{"lm loss": 2.07177162, "grad_norm": 0.31171441, "learning_rate": 9.29e-06, "elapsed_time_per_iteration": 4.94380426, "memory(GiB)": 28.98, "elapsed_time": "14h 34m 55s", "remaining_time": "2h 41m 18s", "loss_scale": 1.0, "consumed_samples": 2745088, "global_step/max_steps": "10723/12700"}
{"lm loss": 2.0654006, "grad_norm": 0.32622898, "learning_rate": 9.28e-06, "elapsed_time_per_iteration": 4.89595437, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 0s", "remaining_time": "2h 41m 13s", "loss_scale": 1.0, "consumed_samples": 2745344, "global_step/max_steps": "10724/12700"}
{"lm loss": 2.0562396, "grad_norm": 0.32563218, "learning_rate": 9.27e-06, "elapsed_time_per_iteration": 4.87554598, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 5s", "remaining_time": "2h 41m 8s", "loss_scale": 1.0, "consumed_samples": 2745600, "global_step/max_steps": "10725/12700"}
{"lm loss": 2.03633738, "grad_norm": 0.32553184, "learning_rate": 9.27e-06, "elapsed_time_per_iteration": 4.93649626, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 10s", "remaining_time": "2h 41m 4s", "loss_scale": 1.0, "consumed_samples": 2745856, "global_step/max_steps": "10726/12700"}
{"lm loss": 2.03607893, "grad_norm": 0.31009871, "learning_rate": 9.26e-06, "elapsed_time_per_iteration": 4.94581294, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 15s", "remaining_time": "2h 40m 59s", "loss_scale": 1.0, "consumed_samples": 2746112, "global_step/max_steps": "10727/12700"}
{"lm loss": 2.02355886, "grad_norm": 0.33294532, "learning_rate": 9.25e-06, "elapsed_time_per_iteration": 4.93577147, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 20s", "remaining_time": "2h 40m 54s", "loss_scale": 1.0, "consumed_samples": 2746368, "global_step/max_steps": "10728/12700"}
{"lm loss": 2.04224443, "grad_norm": 0.31932729, "learning_rate": 9.25e-06, "elapsed_time_per_iteration": 5.00670791, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 25s", "remaining_time": "2h 40m 49s", "loss_scale": 1.0, "consumed_samples": 2746624, "global_step/max_steps": "10729/12700"}
{"lm loss": 2.04762483, "grad_norm": 0.30854452, "learning_rate": 9.24e-06, "elapsed_time_per_iteration": 4.80899763, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 30s", "remaining_time": "2h 40m 44s", "loss_scale": 1.0, "consumed_samples": 2746880, "global_step/max_steps": "10730/12700"}
{"lm loss": 2.04198217, "grad_norm": 0.32376054, "learning_rate": 9.24e-06, "elapsed_time_per_iteration": 4.86997628, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 35s", "remaining_time": "2h 40m 39s", "loss_scale": 1.0, "consumed_samples": 2747136, "global_step/max_steps": "10731/12700"}
{"lm loss": 2.04738188, "grad_norm": 0.32580596, "learning_rate": 9.23e-06, "elapsed_time_per_iteration": 4.92702413, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 40s", "remaining_time": "2h 40m 34s", "loss_scale": 1.0, "consumed_samples": 2747392, "global_step/max_steps": "10732/12700"}
{"lm loss": 2.05204582, "grad_norm": 0.32208699, "learning_rate": 9.22e-06, "elapsed_time_per_iteration": 4.87969589, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 45s", "remaining_time": "2h 40m 29s", "loss_scale": 1.0, "consumed_samples": 2747648, "global_step/max_steps": "10733/12700"}
{"lm loss": 2.03856659, "grad_norm": 0.32036528, "learning_rate": 9.22e-06, "elapsed_time_per_iteration": 4.84513068, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 49s", "remaining_time": "2h 40m 24s", "loss_scale": 1.0, "consumed_samples": 2747904, "global_step/max_steps": "10734/12700"}
{"lm loss": 2.05557513, "grad_norm": 0.32667097, "learning_rate": 9.21e-06, "elapsed_time_per_iteration": 4.93517613, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 54s", "remaining_time": "2h 40m 19s", "loss_scale": 1.0, "consumed_samples": 2748160, "global_step/max_steps": "10735/12700"}
{"lm loss": 2.06037521, "grad_norm": 0.33941117, "learning_rate": 9.21e-06, "elapsed_time_per_iteration": 4.92537522, "memory(GiB)": 28.98, "elapsed_time": "14h 35m 59s", "remaining_time": "2h 40m 15s", "loss_scale": 1.0, "consumed_samples": 2748416, "global_step/max_steps": "10736/12700"}
{"lm loss": 2.06041884, "grad_norm": 0.3336525, "learning_rate": 9.2e-06, "elapsed_time_per_iteration": 4.8727808, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 4s", "remaining_time": "2h 40m 10s", "loss_scale": 1.0, "consumed_samples": 2748672, "global_step/max_steps": "10737/12700"}
{"lm loss": 2.0474453, "grad_norm": 0.33736712, "learning_rate": 9.19e-06, "elapsed_time_per_iteration": 5.02665377, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 9s", "remaining_time": "2h 40m 5s", "loss_scale": 1.0, "consumed_samples": 2748928, "global_step/max_steps": "10738/12700"}
{"lm loss": 2.06190753, "grad_norm": 0.33846754, "learning_rate": 9.19e-06, "elapsed_time_per_iteration": 4.87754011, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 14s", "remaining_time": "2h 40m 0s", "loss_scale": 1.0, "consumed_samples": 2749184, "global_step/max_steps": "10739/12700"}
{"lm loss": 1.9930371, "grad_norm": 0.34297499, "learning_rate": 9.18e-06, "elapsed_time_per_iteration": 4.88454247, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 19s", "remaining_time": "2h 39m 55s", "loss_scale": 1.0, "consumed_samples": 2749440, "global_step/max_steps": "10740/12700"}
{"lm loss": 2.0711658, "grad_norm": 0.30665284, "learning_rate": 9.17e-06, "elapsed_time_per_iteration": 4.97173762, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 24s", "remaining_time": "2h 39m 50s", "loss_scale": 1.0, "consumed_samples": 2749696, "global_step/max_steps": "10741/12700"}
{"lm loss": 2.01811171, "grad_norm": 0.32148057, "learning_rate": 9.17e-06, "elapsed_time_per_iteration": 4.90059519, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 29s", "remaining_time": "2h 39m 45s", "loss_scale": 1.0, "consumed_samples": 2749952, "global_step/max_steps": "10742/12700"}
{"lm loss": 2.01694822, "grad_norm": 0.31890374, "learning_rate": 9.16e-06, "elapsed_time_per_iteration": 4.89446878, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 34s", "remaining_time": "2h 39m 40s", "loss_scale": 1.0, "consumed_samples": 2750208, "global_step/max_steps": "10743/12700"}
{"lm loss": 2.09478498, "grad_norm": 0.32366213, "learning_rate": 9.16e-06, "elapsed_time_per_iteration": 4.87964916, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 39s", "remaining_time": "2h 39m 35s", "loss_scale": 1.0, "consumed_samples": 2750464, "global_step/max_steps": "10744/12700"}
{"lm loss": 2.03773284, "grad_norm": 0.3133004, "learning_rate": 9.15e-06, "elapsed_time_per_iteration": 5.00282836, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 44s", "remaining_time": "2h 39m 31s", "loss_scale": 1.0, "consumed_samples": 2750720, "global_step/max_steps": "10745/12700"}
{"lm loss": 2.02781224, "grad_norm": 0.32139179, "learning_rate": 9.14e-06, "elapsed_time_per_iteration": 4.82201934, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 48s", "remaining_time": "2h 39m 26s", "loss_scale": 1.0, "consumed_samples": 2750976, "global_step/max_steps": "10746/12700"}
{"lm loss": 2.04699278, "grad_norm": 0.31699365, "learning_rate": 9.14e-06, "elapsed_time_per_iteration": 4.85939622, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 53s", "remaining_time": "2h 39m 21s", "loss_scale": 1.0, "consumed_samples": 2751232, "global_step/max_steps": "10747/12700"}
{"lm loss": 2.05131269, "grad_norm": 0.31742191, "learning_rate": 9.13e-06, "elapsed_time_per_iteration": 4.90225363, "memory(GiB)": 28.98, "elapsed_time": "14h 36m 58s", "remaining_time": "2h 39m 16s", "loss_scale": 1.0, "consumed_samples": 2751488, "global_step/max_steps": "10748/12700"}
{"lm loss": 2.03984189, "grad_norm": 0.32789618, "learning_rate": 9.13e-06, "elapsed_time_per_iteration": 4.93923187, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 3s", "remaining_time": "2h 39m 11s", "loss_scale": 1.0, "consumed_samples": 2751744, "global_step/max_steps": "10749/12700"}
{"lm loss": 2.03588557, "grad_norm": 0.32453695, "learning_rate": 9.12e-06, "elapsed_time_per_iteration": 4.74912095, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 8s", "remaining_time": "2h 39m 6s", "loss_scale": 1.0, "consumed_samples": 2752000, "global_step/max_steps": "10750/12700"}
{"lm loss": 2.0671823, "grad_norm": 0.31317979, "learning_rate": 9.11e-06, "elapsed_time_per_iteration": 4.92993569, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 13s", "remaining_time": "2h 39m 1s", "loss_scale": 1.0, "consumed_samples": 2752256, "global_step/max_steps": "10751/12700"}
{"lm loss": 2.0668993, "grad_norm": 0.32218969, "learning_rate": 9.11e-06, "elapsed_time_per_iteration": 4.90872312, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 18s", "remaining_time": "2h 38m 56s", "loss_scale": 1.0, "consumed_samples": 2752512, "global_step/max_steps": "10752/12700"}
{"lm loss": 2.03358316, "grad_norm": 0.34768897, "learning_rate": 9.1e-06, "elapsed_time_per_iteration": 4.90502906, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 23s", "remaining_time": "2h 38m 51s", "loss_scale": 1.0, "consumed_samples": 2752768, "global_step/max_steps": "10753/12700"}
{"lm loss": 2.04359937, "grad_norm": 0.32249048, "learning_rate": 9.09e-06, "elapsed_time_per_iteration": 4.97867107, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 28s", "remaining_time": "2h 38m 46s", "loss_scale": 1.0, "consumed_samples": 2753024, "global_step/max_steps": "10754/12700"}
{"lm loss": 2.02434254, "grad_norm": 0.33330765, "learning_rate": 9.09e-06, "elapsed_time_per_iteration": 5.04447651, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 33s", "remaining_time": "2h 38m 42s", "loss_scale": 1.0, "consumed_samples": 2753280, "global_step/max_steps": "10755/12700"}
{"lm loss": 2.0484736, "grad_norm": 0.31541449, "learning_rate": 9.08e-06, "elapsed_time_per_iteration": 4.99967217, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 38s", "remaining_time": "2h 38m 37s", "loss_scale": 1.0, "consumed_samples": 2753536, "global_step/max_steps": "10756/12700"}
{"lm loss": 2.04111528, "grad_norm": 0.31803289, "learning_rate": 9.08e-06, "elapsed_time_per_iteration": 4.81536222, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 42s", "remaining_time": "2h 38m 32s", "loss_scale": 1.0, "consumed_samples": 2753792, "global_step/max_steps": "10757/12700"}
{"lm loss": 2.06189823, "grad_norm": 0.335547, "learning_rate": 9.07e-06, "elapsed_time_per_iteration": 4.90606403, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 47s", "remaining_time": "2h 38m 27s", "loss_scale": 1.0, "consumed_samples": 2754048, "global_step/max_steps": "10758/12700"}
{"lm loss": 2.0543623, "grad_norm": 0.34927887, "learning_rate": 9.06e-06, "elapsed_time_per_iteration": 4.8113842, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 52s", "remaining_time": "2h 38m 22s", "loss_scale": 1.0, "consumed_samples": 2754304, "global_step/max_steps": "10759/12700"}
{"lm loss": 2.04795694, "grad_norm": 0.3155165, "learning_rate": 9.06e-06, "elapsed_time_per_iteration": 4.83883047, "memory(GiB)": 28.98, "elapsed_time": "14h 37m 57s", "remaining_time": "2h 38m 17s", "loss_scale": 1.0, "consumed_samples": 2754560, "global_step/max_steps": "10760/12700"}
{"lm loss": 2.05722308, "grad_norm": 0.30876064, "learning_rate": 9.05e-06, "elapsed_time_per_iteration": 4.87095118, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 2s", "remaining_time": "2h 38m 12s", "loss_scale": 1.0, "consumed_samples": 2754816, "global_step/max_steps": "10761/12700"}
{"lm loss": 2.08087969, "grad_norm": 0.32320303, "learning_rate": 9.05e-06, "elapsed_time_per_iteration": 4.83654094, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 7s", "remaining_time": "2h 38m 7s", "loss_scale": 1.0, "consumed_samples": 2755072, "global_step/max_steps": "10762/12700"}
{"lm loss": 2.0558784, "grad_norm": 0.31752735, "learning_rate": 9.04e-06, "elapsed_time_per_iteration": 5.01434112, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 12s", "remaining_time": "2h 38m 2s", "loss_scale": 1.0, "consumed_samples": 2755328, "global_step/max_steps": "10763/12700"}
{"lm loss": 2.02669954, "grad_norm": 0.33427942, "learning_rate": 9.03e-06, "elapsed_time_per_iteration": 4.87129688, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 17s", "remaining_time": "2h 37m 58s", "loss_scale": 1.0, "consumed_samples": 2755584, "global_step/max_steps": "10764/12700"}
{"lm loss": 2.0642736, "grad_norm": 0.33434248, "learning_rate": 9.03e-06, "elapsed_time_per_iteration": 4.89713025, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 21s", "remaining_time": "2h 37m 53s", "loss_scale": 1.0, "consumed_samples": 2755840, "global_step/max_steps": "10765/12700"}
{"lm loss": 2.07634377, "grad_norm": 0.33184567, "learning_rate": 9.02e-06, "elapsed_time_per_iteration": 4.89070249, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 26s", "remaining_time": "2h 37m 48s", "loss_scale": 1.0, "consumed_samples": 2756096, "global_step/max_steps": "10766/12700"}
{"lm loss": 2.06428599, "grad_norm": 0.31558043, "learning_rate": 9.01e-06, "elapsed_time_per_iteration": 4.84299779, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 31s", "remaining_time": "2h 37m 43s", "loss_scale": 1.0, "consumed_samples": 2756352, "global_step/max_steps": "10767/12700"}
{"lm loss": 2.0238018, "grad_norm": 0.30715176, "learning_rate": 9.01e-06, "elapsed_time_per_iteration": 4.89919066, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 36s", "remaining_time": "2h 37m 38s", "loss_scale": 1.0, "consumed_samples": 2756608, "global_step/max_steps": "10768/12700"}
{"lm loss": 2.0712018, "grad_norm": 0.32757279, "learning_rate": 9e-06, "elapsed_time_per_iteration": 4.8495698, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 41s", "remaining_time": "2h 37m 33s", "loss_scale": 1.0, "consumed_samples": 2756864, "global_step/max_steps": "10769/12700"}
{"lm loss": 2.04523778, "grad_norm": 0.32125044, "learning_rate": 9e-06, "elapsed_time_per_iteration": 4.94865513, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 46s", "remaining_time": "2h 37m 28s", "loss_scale": 1.0, "consumed_samples": 2757120, "global_step/max_steps": "10770/12700"}
{"lm loss": 2.07447147, "grad_norm": 0.3182753, "learning_rate": 8.99e-06, "elapsed_time_per_iteration": 4.82888174, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 51s", "remaining_time": "2h 37m 23s", "loss_scale": 1.0, "consumed_samples": 2757376, "global_step/max_steps": "10771/12700"}
{"lm loss": 2.03016376, "grad_norm": 0.30951637, "learning_rate": 8.98e-06, "elapsed_time_per_iteration": 4.84740233, "memory(GiB)": 28.98, "elapsed_time": "14h 38m 56s", "remaining_time": "2h 37m 18s", "loss_scale": 1.0, "consumed_samples": 2757632, "global_step/max_steps": "10772/12700"}
{"lm loss": 2.08953118, "grad_norm": 0.3296428, "learning_rate": 8.98e-06, "elapsed_time_per_iteration": 4.84779596, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 0s", "remaining_time": "2h 37m 13s", "loss_scale": 1.0, "consumed_samples": 2757888, "global_step/max_steps": "10773/12700"}
{"lm loss": 2.02936196, "grad_norm": 0.32602954, "learning_rate": 8.97e-06, "elapsed_time_per_iteration": 4.93515944, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 5s", "remaining_time": "2h 37m 9s", "loss_scale": 1.0, "consumed_samples": 2758144, "global_step/max_steps": "10774/12700"}
{"lm loss": 2.04259419, "grad_norm": 0.32761246, "learning_rate": 8.97e-06, "elapsed_time_per_iteration": 4.93296432, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 10s", "remaining_time": "2h 37m 4s", "loss_scale": 1.0, "consumed_samples": 2758400, "global_step/max_steps": "10775/12700"}
{"lm loss": 2.07572532, "grad_norm": 0.3170689, "learning_rate": 8.96e-06, "elapsed_time_per_iteration": 4.83812404, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 15s", "remaining_time": "2h 36m 59s", "loss_scale": 1.0, "consumed_samples": 2758656, "global_step/max_steps": "10776/12700"}
{"lm loss": 2.05541277, "grad_norm": 0.31959227, "learning_rate": 8.95e-06, "elapsed_time_per_iteration": 4.85809064, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 20s", "remaining_time": "2h 36m 54s", "loss_scale": 1.0, "consumed_samples": 2758912, "global_step/max_steps": "10777/12700"}
{"lm loss": 2.03212118, "grad_norm": 0.3222602, "learning_rate": 8.95e-06, "elapsed_time_per_iteration": 4.82057858, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 25s", "remaining_time": "2h 36m 49s", "loss_scale": 1.0, "consumed_samples": 2759168, "global_step/max_steps": "10778/12700"}
{"lm loss": 2.03021383, "grad_norm": 0.31384414, "learning_rate": 8.94e-06, "elapsed_time_per_iteration": 4.88216352, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 30s", "remaining_time": "2h 36m 44s", "loss_scale": 1.0, "consumed_samples": 2759424, "global_step/max_steps": "10779/12700"}
{"lm loss": 2.00893617, "grad_norm": 0.33541048, "learning_rate": 8.94e-06, "elapsed_time_per_iteration": 4.94457388, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 35s", "remaining_time": "2h 36m 39s", "loss_scale": 1.0, "consumed_samples": 2759680, "global_step/max_steps": "10780/12700"}
{"lm loss": 2.03836632, "grad_norm": 0.31845441, "learning_rate": 8.93e-06, "elapsed_time_per_iteration": 5.00228977, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 40s", "remaining_time": "2h 36m 34s", "loss_scale": 1.0, "consumed_samples": 2759936, "global_step/max_steps": "10781/12700"}
{"lm loss": 2.01973009, "grad_norm": 0.31384984, "learning_rate": 8.92e-06, "elapsed_time_per_iteration": 4.82874966, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 44s", "remaining_time": "2h 36m 29s", "loss_scale": 1.0, "consumed_samples": 2760192, "global_step/max_steps": "10782/12700"}
{"lm loss": 2.0673275, "grad_norm": 0.315568, "learning_rate": 8.92e-06, "elapsed_time_per_iteration": 4.79367757, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 49s", "remaining_time": "2h 36m 24s", "loss_scale": 1.0, "consumed_samples": 2760448, "global_step/max_steps": "10783/12700"}
{"lm loss": 2.08001733, "grad_norm": 0.30979502, "learning_rate": 8.91e-06, "elapsed_time_per_iteration": 4.85155153, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 54s", "remaining_time": "2h 36m 20s", "loss_scale": 1.0, "consumed_samples": 2760704, "global_step/max_steps": "10784/12700"}
{"lm loss": 2.09664893, "grad_norm": 0.33425638, "learning_rate": 8.91e-06, "elapsed_time_per_iteration": 4.88943815, "memory(GiB)": 28.98, "elapsed_time": "14h 39m 59s", "remaining_time": "2h 36m 15s", "loss_scale": 1.0, "consumed_samples": 2760960, "global_step/max_steps": "10785/12700"}
{"lm loss": 2.02328873, "grad_norm": 0.31497964, "learning_rate": 8.9e-06, "elapsed_time_per_iteration": 4.92838907, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 4s", "remaining_time": "2h 36m 10s", "loss_scale": 1.0, "consumed_samples": 2761216, "global_step/max_steps": "10786/12700"}
{"lm loss": 2.04259968, "grad_norm": 0.3357769, "learning_rate": 8.89e-06, "elapsed_time_per_iteration": 4.9698875, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 9s", "remaining_time": "2h 36m 5s", "loss_scale": 1.0, "consumed_samples": 2761472, "global_step/max_steps": "10787/12700"}
{"lm loss": 2.00426602, "grad_norm": 0.32815894, "learning_rate": 8.89e-06, "elapsed_time_per_iteration": 4.85175037, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 14s", "remaining_time": "2h 36m 0s", "loss_scale": 1.0, "consumed_samples": 2761728, "global_step/max_steps": "10788/12700"}
{"lm loss": 2.06018615, "grad_norm": 0.33447298, "learning_rate": 8.88e-06, "elapsed_time_per_iteration": 4.89221478, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 19s", "remaining_time": "2h 35m 55s", "loss_scale": 1.0, "consumed_samples": 2761984, "global_step/max_steps": "10789/12700"}
{"lm loss": 2.11032414, "grad_norm": 0.34031355, "learning_rate": 8.88e-06, "elapsed_time_per_iteration": 4.84255123, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 24s", "remaining_time": "2h 35m 50s", "loss_scale": 1.0, "consumed_samples": 2762240, "global_step/max_steps": "10790/12700"}
{"lm loss": 2.06152248, "grad_norm": 0.32665393, "learning_rate": 8.87e-06, "elapsed_time_per_iteration": 4.85896492, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 28s", "remaining_time": "2h 35m 45s", "loss_scale": 1.0, "consumed_samples": 2762496, "global_step/max_steps": "10791/12700"}
{"lm loss": 2.03403592, "grad_norm": 0.34938529, "learning_rate": 8.86e-06, "elapsed_time_per_iteration": 4.88455009, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 33s", "remaining_time": "2h 35m 40s", "loss_scale": 1.0, "consumed_samples": 2762752, "global_step/max_steps": "10792/12700"}
{"lm loss": 2.02231383, "grad_norm": 0.31951502, "learning_rate": 8.86e-06, "elapsed_time_per_iteration": 4.87693381, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 38s", "remaining_time": "2h 35m 35s", "loss_scale": 1.0, "consumed_samples": 2763008, "global_step/max_steps": "10793/12700"}
{"lm loss": 2.06668758, "grad_norm": 0.32374164, "learning_rate": 8.85e-06, "elapsed_time_per_iteration": 5.00187159, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 43s", "remaining_time": "2h 35m 31s", "loss_scale": 1.0, "consumed_samples": 2763264, "global_step/max_steps": "10794/12700"}
{"lm loss": 2.01970482, "grad_norm": 0.31917483, "learning_rate": 8.85e-06, "elapsed_time_per_iteration": 5.01516485, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 48s", "remaining_time": "2h 35m 26s", "loss_scale": 1.0, "consumed_samples": 2763520, "global_step/max_steps": "10795/12700"}
{"lm loss": 2.05008316, "grad_norm": 0.3142269, "learning_rate": 8.84e-06, "elapsed_time_per_iteration": 4.88266301, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 53s", "remaining_time": "2h 35m 21s", "loss_scale": 1.0, "consumed_samples": 2763776, "global_step/max_steps": "10796/12700"}
{"lm loss": 2.01691866, "grad_norm": 0.32665539, "learning_rate": 8.83e-06, "elapsed_time_per_iteration": 4.93549991, "memory(GiB)": 28.98, "elapsed_time": "14h 40m 58s", "remaining_time": "2h 35m 16s", "loss_scale": 1.0, "consumed_samples": 2764032, "global_step/max_steps": "10797/12700"}
{"lm loss": 2.06366611, "grad_norm": 0.3067182, "learning_rate": 8.83e-06, "elapsed_time_per_iteration": 4.82926798, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 3s", "remaining_time": "2h 35m 11s", "loss_scale": 1.0, "consumed_samples": 2764288, "global_step/max_steps": "10798/12700"}
{"lm loss": 2.05516911, "grad_norm": 0.32829854, "learning_rate": 8.82e-06, "elapsed_time_per_iteration": 4.90102839, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 8s", "remaining_time": "2h 35m 6s", "loss_scale": 1.0, "consumed_samples": 2764544, "global_step/max_steps": "10799/12700"}
{"lm loss": 2.05326271, "grad_norm": 0.33081526, "learning_rate": 8.82e-06, "elapsed_time_per_iteration": 4.8271451, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 13s", "remaining_time": "2h 35m 1s", "loss_scale": 1.0, "consumed_samples": 2764800, "global_step/max_steps": "10800/12700"}
{"lm loss": 2.05540848, "grad_norm": 0.34142843, "learning_rate": 8.81e-06, "elapsed_time_per_iteration": 4.90165377, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 17s", "remaining_time": "2h 34m 56s", "loss_scale": 1.0, "consumed_samples": 2765056, "global_step/max_steps": "10801/12700"}
{"lm loss": 2.0654242, "grad_norm": 0.32630521, "learning_rate": 8.8e-06, "elapsed_time_per_iteration": 4.92190409, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 22s", "remaining_time": "2h 34m 51s", "loss_scale": 1.0, "consumed_samples": 2765312, "global_step/max_steps": "10802/12700"}
{"lm loss": 2.05629373, "grad_norm": 0.3082464, "learning_rate": 8.8e-06, "elapsed_time_per_iteration": 4.87575912, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 27s", "remaining_time": "2h 34m 47s", "loss_scale": 1.0, "consumed_samples": 2765568, "global_step/max_steps": "10803/12700"}
{"lm loss": 2.06165171, "grad_norm": 0.32194349, "learning_rate": 8.79e-06, "elapsed_time_per_iteration": 4.82028031, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 32s", "remaining_time": "2h 34m 42s", "loss_scale": 1.0, "consumed_samples": 2765824, "global_step/max_steps": "10804/12700"}
{"lm loss": 2.06163001, "grad_norm": 0.34110892, "learning_rate": 8.79e-06, "elapsed_time_per_iteration": 4.84056664, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 37s", "remaining_time": "2h 34m 37s", "loss_scale": 1.0, "consumed_samples": 2766080, "global_step/max_steps": "10805/12700"}
{"lm loss": 2.03036523, "grad_norm": 0.32460934, "learning_rate": 8.78e-06, "elapsed_time_per_iteration": 4.86697125, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 42s", "remaining_time": "2h 34m 32s", "loss_scale": 1.0, "consumed_samples": 2766336, "global_step/max_steps": "10806/12700"}
{"lm loss": 2.04064417, "grad_norm": 0.31235963, "learning_rate": 8.77e-06, "elapsed_time_per_iteration": 4.85560513, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 47s", "remaining_time": "2h 34m 27s", "loss_scale": 1.0, "consumed_samples": 2766592, "global_step/max_steps": "10807/12700"}
{"lm loss": 2.02324438, "grad_norm": 0.32161206, "learning_rate": 8.77e-06, "elapsed_time_per_iteration": 4.77418232, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 51s", "remaining_time": "2h 34m 22s", "loss_scale": 1.0, "consumed_samples": 2766848, "global_step/max_steps": "10808/12700"}
{"lm loss": 2.0311296, "grad_norm": 0.35109544, "learning_rate": 8.76e-06, "elapsed_time_per_iteration": 4.81606054, "memory(GiB)": 28.98, "elapsed_time": "14h 41m 56s", "remaining_time": "2h 34m 17s", "loss_scale": 1.0, "consumed_samples": 2767104, "global_step/max_steps": "10809/12700"}
{"lm loss": 2.03888869, "grad_norm": 0.33243901, "learning_rate": 8.76e-06, "elapsed_time_per_iteration": 4.85130978, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 1s", "remaining_time": "2h 34m 12s", "loss_scale": 1.0, "consumed_samples": 2767360, "global_step/max_steps": "10810/12700"}
{"lm loss": 2.06875682, "grad_norm": 0.31569567, "learning_rate": 8.75e-06, "elapsed_time_per_iteration": 4.91514087, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 6s", "remaining_time": "2h 34m 7s", "loss_scale": 1.0, "consumed_samples": 2767616, "global_step/max_steps": "10811/12700"}
{"lm loss": 2.03135681, "grad_norm": 0.315833, "learning_rate": 8.74e-06, "elapsed_time_per_iteration": 4.86442828, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 11s", "remaining_time": "2h 34m 2s", "loss_scale": 1.0, "consumed_samples": 2767872, "global_step/max_steps": "10812/12700"}
{"lm loss": 2.08554292, "grad_norm": 0.32814193, "learning_rate": 8.74e-06, "elapsed_time_per_iteration": 4.98382139, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 16s", "remaining_time": "2h 33m 58s", "loss_scale": 1.0, "consumed_samples": 2768128, "global_step/max_steps": "10813/12700"}
{"lm loss": 2.01660538, "grad_norm": 0.33704233, "learning_rate": 8.73e-06, "elapsed_time_per_iteration": 4.83862734, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 21s", "remaining_time": "2h 33m 53s", "loss_scale": 1.0, "consumed_samples": 2768384, "global_step/max_steps": "10814/12700"}
{"lm loss": 2.06706285, "grad_norm": 0.32456231, "learning_rate": 8.73e-06, "elapsed_time_per_iteration": 4.8456738, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 25s", "remaining_time": "2h 33m 48s", "loss_scale": 1.0, "consumed_samples": 2768640, "global_step/max_steps": "10815/12700"}
{"lm loss": 2.01785445, "grad_norm": 0.33742353, "learning_rate": 8.72e-06, "elapsed_time_per_iteration": 4.86019087, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 30s", "remaining_time": "2h 33m 43s", "loss_scale": 1.0, "consumed_samples": 2768896, "global_step/max_steps": "10816/12700"}
{"lm loss": 2.04128957, "grad_norm": 0.31338826, "learning_rate": 8.71e-06, "elapsed_time_per_iteration": 4.90511703, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 35s", "remaining_time": "2h 33m 38s", "loss_scale": 1.0, "consumed_samples": 2769152, "global_step/max_steps": "10817/12700"}
{"lm loss": 2.05536795, "grad_norm": 0.32621741, "learning_rate": 8.71e-06, "elapsed_time_per_iteration": 4.78984356, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 40s", "remaining_time": "2h 33m 33s", "loss_scale": 1.0, "consumed_samples": 2769408, "global_step/max_steps": "10818/12700"}
{"lm loss": 2.00183964, "grad_norm": 0.32456577, "learning_rate": 8.7e-06, "elapsed_time_per_iteration": 5.03162718, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 45s", "remaining_time": "2h 33m 28s", "loss_scale": 1.0, "consumed_samples": 2769664, "global_step/max_steps": "10819/12700"}
{"lm loss": 2.03241968, "grad_norm": 0.3288458, "learning_rate": 8.7e-06, "elapsed_time_per_iteration": 4.87965584, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 50s", "remaining_time": "2h 33m 23s", "loss_scale": 1.0, "consumed_samples": 2769920, "global_step/max_steps": "10820/12700"}
{"lm loss": 2.08456302, "grad_norm": 0.32504675, "learning_rate": 8.69e-06, "elapsed_time_per_iteration": 4.87425947, "memory(GiB)": 28.98, "elapsed_time": "14h 42m 55s", "remaining_time": "2h 33m 18s", "loss_scale": 1.0, "consumed_samples": 2770176, "global_step/max_steps": "10821/12700"}
{"lm loss": 2.03589392, "grad_norm": 0.31204802, "learning_rate": 8.68e-06, "elapsed_time_per_iteration": 4.82262373, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 0s", "remaining_time": "2h 33m 13s", "loss_scale": 1.0, "consumed_samples": 2770432, "global_step/max_steps": "10822/12700"}
{"lm loss": 2.04529858, "grad_norm": 0.31661403, "learning_rate": 8.68e-06, "elapsed_time_per_iteration": 4.85369968, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 5s", "remaining_time": "2h 33m 9s", "loss_scale": 1.0, "consumed_samples": 2770688, "global_step/max_steps": "10823/12700"}
{"lm loss": 2.01795387, "grad_norm": 0.32433665, "learning_rate": 8.67e-06, "elapsed_time_per_iteration": 4.94066048, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 9s", "remaining_time": "2h 33m 4s", "loss_scale": 1.0, "consumed_samples": 2770944, "global_step/max_steps": "10824/12700"}
{"lm loss": 2.05797219, "grad_norm": 0.30980724, "learning_rate": 8.67e-06, "elapsed_time_per_iteration": 4.94655395, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 14s", "remaining_time": "2h 32m 59s", "loss_scale": 1.0, "consumed_samples": 2771200, "global_step/max_steps": "10825/12700"}
{"lm loss": 2.06277466, "grad_norm": 0.32095763, "learning_rate": 8.66e-06, "elapsed_time_per_iteration": 4.91376686, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 19s", "remaining_time": "2h 32m 54s", "loss_scale": 1.0, "consumed_samples": 2771456, "global_step/max_steps": "10826/12700"}
{"lm loss": 2.07193279, "grad_norm": 0.31071913, "learning_rate": 8.65e-06, "elapsed_time_per_iteration": 4.84989381, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 24s", "remaining_time": "2h 32m 49s", "loss_scale": 1.0, "consumed_samples": 2771712, "global_step/max_steps": "10827/12700"}
{"lm loss": 2.03879905, "grad_norm": 0.32481739, "learning_rate": 8.65e-06, "elapsed_time_per_iteration": 4.85042405, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 29s", "remaining_time": "2h 32m 44s", "loss_scale": 1.0, "consumed_samples": 2771968, "global_step/max_steps": "10828/12700"}
{"lm loss": 2.06808352, "grad_norm": 0.3251476, "learning_rate": 8.64e-06, "elapsed_time_per_iteration": 4.85165572, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 34s", "remaining_time": "2h 32m 39s", "loss_scale": 1.0, "consumed_samples": 2772224, "global_step/max_steps": "10829/12700"}
{"lm loss": 2.09502769, "grad_norm": 0.32275268, "learning_rate": 8.64e-06, "elapsed_time_per_iteration": 4.82344413, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 39s", "remaining_time": "2h 32m 34s", "loss_scale": 1.0, "consumed_samples": 2772480, "global_step/max_steps": "10830/12700"}
{"lm loss": 2.07070684, "grad_norm": 0.3302716, "learning_rate": 8.63e-06, "elapsed_time_per_iteration": 4.86178803, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 44s", "remaining_time": "2h 32m 29s", "loss_scale": 1.0, "consumed_samples": 2772736, "global_step/max_steps": "10831/12700"}
{"lm loss": 2.0453403, "grad_norm": 0.30292296, "learning_rate": 8.63e-06, "elapsed_time_per_iteration": 4.82909966, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 48s", "remaining_time": "2h 32m 24s", "loss_scale": 1.0, "consumed_samples": 2772992, "global_step/max_steps": "10832/12700"}
{"lm loss": 2.05825472, "grad_norm": 0.32784617, "learning_rate": 8.62e-06, "elapsed_time_per_iteration": 4.82025814, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 53s", "remaining_time": "2h 32m 20s", "loss_scale": 1.0, "consumed_samples": 2773248, "global_step/max_steps": "10833/12700"}
{"lm loss": 2.03768444, "grad_norm": 0.32240611, "learning_rate": 8.61e-06, "elapsed_time_per_iteration": 4.83819866, "memory(GiB)": 28.98, "elapsed_time": "14h 43m 58s", "remaining_time": "2h 32m 15s", "loss_scale": 1.0, "consumed_samples": 2773504, "global_step/max_steps": "10834/12700"}
{"lm loss": 2.03774357, "grad_norm": 0.32219553, "learning_rate": 8.61e-06, "elapsed_time_per_iteration": 4.98494649, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 3s", "remaining_time": "2h 32m 10s", "loss_scale": 1.0, "consumed_samples": 2773760, "global_step/max_steps": "10835/12700"}
{"lm loss": 2.06582856, "grad_norm": 0.32524583, "learning_rate": 8.6e-06, "elapsed_time_per_iteration": 4.81621552, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 8s", "remaining_time": "2h 32m 5s", "loss_scale": 1.0, "consumed_samples": 2774016, "global_step/max_steps": "10836/12700"}
{"lm loss": 2.03809571, "grad_norm": 0.32010591, "learning_rate": 8.6e-06, "elapsed_time_per_iteration": 6.09723806, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 14s", "remaining_time": "2h 32m 0s", "loss_scale": 1.0, "consumed_samples": 2774272, "global_step/max_steps": "10837/12700"}
{"lm loss": 2.05882955, "grad_norm": 0.31754145, "learning_rate": 8.59e-06, "elapsed_time_per_iteration": 4.91198826, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 19s", "remaining_time": "2h 31m 55s", "loss_scale": 1.0, "consumed_samples": 2774528, "global_step/max_steps": "10838/12700"}
{"lm loss": 2.03006649, "grad_norm": 0.31865719, "learning_rate": 8.58e-06, "elapsed_time_per_iteration": 4.83437824, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 24s", "remaining_time": "2h 31m 50s", "loss_scale": 1.0, "consumed_samples": 2774784, "global_step/max_steps": "10839/12700"}
{"lm loss": 2.03347445, "grad_norm": 0.33182216, "learning_rate": 8.58e-06, "elapsed_time_per_iteration": 4.9010675, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 29s", "remaining_time": "2h 31m 45s", "loss_scale": 1.0, "consumed_samples": 2775040, "global_step/max_steps": "10840/12700"}
{"lm loss": 2.07325196, "grad_norm": 0.31079927, "learning_rate": 8.57e-06, "elapsed_time_per_iteration": 4.81594777, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 33s", "remaining_time": "2h 31m 41s", "loss_scale": 1.0, "consumed_samples": 2775296, "global_step/max_steps": "10841/12700"}
{"lm loss": 2.03969336, "grad_norm": 0.33795238, "learning_rate": 8.57e-06, "elapsed_time_per_iteration": 4.86573553, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 38s", "remaining_time": "2h 31m 36s", "loss_scale": 1.0, "consumed_samples": 2775552, "global_step/max_steps": "10842/12700"}
{"lm loss": 2.05801272, "grad_norm": 0.31431723, "learning_rate": 8.56e-06, "elapsed_time_per_iteration": 4.91614819, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 43s", "remaining_time": "2h 31m 31s", "loss_scale": 1.0, "consumed_samples": 2775808, "global_step/max_steps": "10843/12700"}
{"lm loss": 2.05960274, "grad_norm": 0.32641578, "learning_rate": 8.55e-06, "elapsed_time_per_iteration": 4.85200548, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 48s", "remaining_time": "2h 31m 26s", "loss_scale": 1.0, "consumed_samples": 2776064, "global_step/max_steps": "10844/12700"}
{"lm loss": 2.07256341, "grad_norm": 0.33521977, "learning_rate": 8.55e-06, "elapsed_time_per_iteration": 4.99961829, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 53s", "remaining_time": "2h 31m 21s", "loss_scale": 1.0, "consumed_samples": 2776320, "global_step/max_steps": "10845/12700"}
{"lm loss": 2.0416398, "grad_norm": 0.32437897, "learning_rate": 8.54e-06, "elapsed_time_per_iteration": 4.85160685, "memory(GiB)": 28.98, "elapsed_time": "14h 44m 58s", "remaining_time": "2h 31m 16s", "loss_scale": 1.0, "consumed_samples": 2776576, "global_step/max_steps": "10846/12700"}
{"lm loss": 2.05019546, "grad_norm": 0.32079321, "learning_rate": 8.54e-06, "elapsed_time_per_iteration": 4.96728683, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 3s", "remaining_time": "2h 31m 11s", "loss_scale": 1.0, "consumed_samples": 2776832, "global_step/max_steps": "10847/12700"}
{"lm loss": 2.02438855, "grad_norm": 0.31036103, "learning_rate": 8.53e-06, "elapsed_time_per_iteration": 4.83193278, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 8s", "remaining_time": "2h 31m 6s", "loss_scale": 1.0, "consumed_samples": 2777088, "global_step/max_steps": "10848/12700"}
{"lm loss": 2.07537484, "grad_norm": 0.3311933, "learning_rate": 8.53e-06, "elapsed_time_per_iteration": 4.86078596, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 13s", "remaining_time": "2h 31m 1s", "loss_scale": 1.0, "consumed_samples": 2777344, "global_step/max_steps": "10849/12700"}
{"lm loss": 2.04887772, "grad_norm": 0.31958649, "learning_rate": 8.52e-06, "elapsed_time_per_iteration": 4.88569117, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 17s", "remaining_time": "2h 30m 56s", "loss_scale": 1.0, "consumed_samples": 2777600, "global_step/max_steps": "10850/12700"}
{"lm loss": 2.06123805, "grad_norm": 0.32724896, "learning_rate": 8.51e-06, "elapsed_time_per_iteration": 4.97701621, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 22s", "remaining_time": "2h 30m 52s", "loss_scale": 1.0, "consumed_samples": 2777856, "global_step/max_steps": "10851/12700"}
{"lm loss": 2.04043436, "grad_norm": 0.32981297, "learning_rate": 8.51e-06, "elapsed_time_per_iteration": 4.96424484, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 27s", "remaining_time": "2h 30m 47s", "loss_scale": 1.0, "consumed_samples": 2778112, "global_step/max_steps": "10852/12700"}
{"lm loss": 2.03405261, "grad_norm": 0.31546012, "learning_rate": 8.5e-06, "elapsed_time_per_iteration": 4.8939023, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 32s", "remaining_time": "2h 30m 42s", "loss_scale": 1.0, "consumed_samples": 2778368, "global_step/max_steps": "10853/12700"}
{"lm loss": 2.06620169, "grad_norm": 0.3286739, "learning_rate": 8.5e-06, "elapsed_time_per_iteration": 4.80249977, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 37s", "remaining_time": "2h 30m 37s", "loss_scale": 1.0, "consumed_samples": 2778624, "global_step/max_steps": "10854/12700"}
{"lm loss": 2.02003098, "grad_norm": 0.33748475, "learning_rate": 8.49e-06, "elapsed_time_per_iteration": 4.9519918, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 42s", "remaining_time": "2h 30m 32s", "loss_scale": 1.0, "consumed_samples": 2778880, "global_step/max_steps": "10855/12700"}
{"lm loss": 2.04621792, "grad_norm": 0.33359092, "learning_rate": 8.48e-06, "elapsed_time_per_iteration": 4.8870337, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 47s", "remaining_time": "2h 30m 27s", "loss_scale": 1.0, "consumed_samples": 2779136, "global_step/max_steps": "10856/12700"}
{"lm loss": 2.07600069, "grad_norm": 0.30841762, "learning_rate": 8.48e-06, "elapsed_time_per_iteration": 4.90569282, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 52s", "remaining_time": "2h 30m 22s", "loss_scale": 1.0, "consumed_samples": 2779392, "global_step/max_steps": "10857/12700"}
{"lm loss": 2.05928302, "grad_norm": 0.32904828, "learning_rate": 8.47e-06, "elapsed_time_per_iteration": 4.91790318, "memory(GiB)": 28.98, "elapsed_time": "14h 45m 57s", "remaining_time": "2h 30m 17s", "loss_scale": 1.0, "consumed_samples": 2779648, "global_step/max_steps": "10858/12700"}
{"lm loss": 2.05417275, "grad_norm": 0.32829696, "learning_rate": 8.47e-06, "elapsed_time_per_iteration": 4.83966327, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 2s", "remaining_time": "2h 30m 12s", "loss_scale": 1.0, "consumed_samples": 2779904, "global_step/max_steps": "10859/12700"}
{"lm loss": 2.04288578, "grad_norm": 0.31091407, "learning_rate": 8.46e-06, "elapsed_time_per_iteration": 4.87039113, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 6s", "remaining_time": "2h 30m 8s", "loss_scale": 1.0, "consumed_samples": 2780160, "global_step/max_steps": "10860/12700"}
{"lm loss": 2.05025983, "grad_norm": 0.3285346, "learning_rate": 8.46e-06, "elapsed_time_per_iteration": 4.94982123, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 11s", "remaining_time": "2h 30m 3s", "loss_scale": 1.0, "consumed_samples": 2780416, "global_step/max_steps": "10861/12700"}
{"lm loss": 2.04591036, "grad_norm": 0.34489635, "learning_rate": 8.45e-06, "elapsed_time_per_iteration": 4.76734853, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 16s", "remaining_time": "2h 29m 58s", "loss_scale": 1.0, "consumed_samples": 2780672, "global_step/max_steps": "10862/12700"}
{"lm loss": 2.04973793, "grad_norm": 0.3181392, "learning_rate": 8.44e-06, "elapsed_time_per_iteration": 4.8148365, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 21s", "remaining_time": "2h 29m 53s", "loss_scale": 1.0, "consumed_samples": 2780928, "global_step/max_steps": "10863/12700"}
{"lm loss": 2.04619837, "grad_norm": 0.31658989, "learning_rate": 8.44e-06, "elapsed_time_per_iteration": 4.89474845, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 26s", "remaining_time": "2h 29m 48s", "loss_scale": 1.0, "consumed_samples": 2781184, "global_step/max_steps": "10864/12700"}
{"lm loss": 2.05915451, "grad_norm": 0.33049476, "learning_rate": 8.43e-06, "elapsed_time_per_iteration": 5.01034594, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 31s", "remaining_time": "2h 29m 43s", "loss_scale": 1.0, "consumed_samples": 2781440, "global_step/max_steps": "10865/12700"}
{"lm loss": 2.05940795, "grad_norm": 0.31233126, "learning_rate": 8.43e-06, "elapsed_time_per_iteration": 4.91110563, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 36s", "remaining_time": "2h 29m 38s", "loss_scale": 1.0, "consumed_samples": 2781696, "global_step/max_steps": "10866/12700"}
{"lm loss": 2.05953479, "grad_norm": 0.32745335, "learning_rate": 8.42e-06, "elapsed_time_per_iteration": 5.03749847, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 41s", "remaining_time": "2h 29m 33s", "loss_scale": 1.0, "consumed_samples": 2781952, "global_step/max_steps": "10867/12700"}
{"lm loss": 2.0297842, "grad_norm": 0.30570287, "learning_rate": 8.41e-06, "elapsed_time_per_iteration": 4.92810392, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 46s", "remaining_time": "2h 29m 28s", "loss_scale": 1.0, "consumed_samples": 2782208, "global_step/max_steps": "10868/12700"}
{"lm loss": 2.05003643, "grad_norm": 0.29523164, "learning_rate": 8.41e-06, "elapsed_time_per_iteration": 4.91741705, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 51s", "remaining_time": "2h 29m 23s", "loss_scale": 1.0, "consumed_samples": 2782464, "global_step/max_steps": "10869/12700"}
{"lm loss": 2.04081035, "grad_norm": 0.32748833, "learning_rate": 8.4e-06, "elapsed_time_per_iteration": 4.84763384, "memory(GiB)": 28.98, "elapsed_time": "14h 46m 56s", "remaining_time": "2h 29m 19s", "loss_scale": 1.0, "consumed_samples": 2782720, "global_step/max_steps": "10870/12700"}
{"lm loss": 2.03365541, "grad_norm": 0.33263877, "learning_rate": 8.4e-06, "elapsed_time_per_iteration": 4.95341086, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 0s", "remaining_time": "2h 29m 14s", "loss_scale": 1.0, "consumed_samples": 2782976, "global_step/max_steps": "10871/12700"}
{"lm loss": 2.02955008, "grad_norm": 0.32036397, "learning_rate": 8.39e-06, "elapsed_time_per_iteration": 4.85231018, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 5s", "remaining_time": "2h 29m 9s", "loss_scale": 1.0, "consumed_samples": 2783232, "global_step/max_steps": "10872/12700"}
{"lm loss": 2.07818246, "grad_norm": 0.32490161, "learning_rate": 8.39e-06, "elapsed_time_per_iteration": 4.92550564, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 10s", "remaining_time": "2h 29m 4s", "loss_scale": 1.0, "consumed_samples": 2783488, "global_step/max_steps": "10873/12700"}
{"lm loss": 2.05109119, "grad_norm": 0.31988561, "learning_rate": 8.38e-06, "elapsed_time_per_iteration": 4.85221386, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 15s", "remaining_time": "2h 28m 59s", "loss_scale": 1.0, "consumed_samples": 2783744, "global_step/max_steps": "10874/12700"}
{"lm loss": 2.03497005, "grad_norm": 0.30607343, "learning_rate": 8.37e-06, "elapsed_time_per_iteration": 4.83546615, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 20s", "remaining_time": "2h 28m 54s", "loss_scale": 1.0, "consumed_samples": 2784000, "global_step/max_steps": "10875/12700"}
{"lm loss": 2.0363946, "grad_norm": 0.31110737, "learning_rate": 8.37e-06, "elapsed_time_per_iteration": 5.13518739, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 25s", "remaining_time": "2h 28m 49s", "loss_scale": 1.0, "consumed_samples": 2784256, "global_step/max_steps": "10876/12700"}
{"lm loss": 2.06960583, "grad_norm": 0.31376117, "learning_rate": 8.36e-06, "elapsed_time_per_iteration": 4.86935639, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 30s", "remaining_time": "2h 28m 44s", "loss_scale": 1.0, "consumed_samples": 2784512, "global_step/max_steps": "10877/12700"}
{"lm loss": 2.04942894, "grad_norm": 0.31556851, "learning_rate": 8.36e-06, "elapsed_time_per_iteration": 4.82894921, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 35s", "remaining_time": "2h 28m 39s", "loss_scale": 1.0, "consumed_samples": 2784768, "global_step/max_steps": "10878/12700"}
{"lm loss": 2.03485179, "grad_norm": 0.34045923, "learning_rate": 8.35e-06, "elapsed_time_per_iteration": 4.77461123, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 40s", "remaining_time": "2h 28m 35s", "loss_scale": 1.0, "consumed_samples": 2785024, "global_step/max_steps": "10879/12700"}
{"lm loss": 2.08527279, "grad_norm": 0.31169951, "learning_rate": 8.35e-06, "elapsed_time_per_iteration": 4.87861848, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 44s", "remaining_time": "2h 28m 30s", "loss_scale": 1.0, "consumed_samples": 2785280, "global_step/max_steps": "10880/12700"}
{"lm loss": 2.08979058, "grad_norm": 0.31285176, "learning_rate": 8.34e-06, "elapsed_time_per_iteration": 4.85841608, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 49s", "remaining_time": "2h 28m 25s", "loss_scale": 1.0, "consumed_samples": 2785536, "global_step/max_steps": "10881/12700"}
{"lm loss": 2.05975032, "grad_norm": 0.34072891, "learning_rate": 8.33e-06, "elapsed_time_per_iteration": 4.81168652, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 54s", "remaining_time": "2h 28m 20s", "loss_scale": 1.0, "consumed_samples": 2785792, "global_step/max_steps": "10882/12700"}
{"lm loss": 2.04470921, "grad_norm": 0.33981037, "learning_rate": 8.33e-06, "elapsed_time_per_iteration": 4.847965, "memory(GiB)": 28.98, "elapsed_time": "14h 47m 59s", "remaining_time": "2h 28m 15s", "loss_scale": 1.0, "consumed_samples": 2786048, "global_step/max_steps": "10883/12700"}
{"lm loss": 2.08294439, "grad_norm": 0.33867651, "learning_rate": 8.32e-06, "elapsed_time_per_iteration": 4.9607513, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 4s", "remaining_time": "2h 28m 10s", "loss_scale": 1.0, "consumed_samples": 2786304, "global_step/max_steps": "10884/12700"}
{"lm loss": 2.04188108, "grad_norm": 0.31675622, "learning_rate": 8.32e-06, "elapsed_time_per_iteration": 5.0919733, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 9s", "remaining_time": "2h 28m 5s", "loss_scale": 1.0, "consumed_samples": 2786560, "global_step/max_steps": "10885/12700"}
{"lm loss": 2.06989431, "grad_norm": 0.32316294, "learning_rate": 8.31e-06, "elapsed_time_per_iteration": 4.95045662, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 14s", "remaining_time": "2h 28m 0s", "loss_scale": 1.0, "consumed_samples": 2786816, "global_step/max_steps": "10886/12700"}
{"lm loss": 2.03227019, "grad_norm": 0.36388707, "learning_rate": 8.3e-06, "elapsed_time_per_iteration": 4.84734511, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 19s", "remaining_time": "2h 27m 55s", "loss_scale": 1.0, "consumed_samples": 2787072, "global_step/max_steps": "10887/12700"}
{"lm loss": 2.05934906, "grad_norm": 0.32293895, "learning_rate": 8.3e-06, "elapsed_time_per_iteration": 4.90592599, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 24s", "remaining_time": "2h 27m 50s", "loss_scale": 1.0, "consumed_samples": 2787328, "global_step/max_steps": "10888/12700"}
{"lm loss": 2.05672479, "grad_norm": 0.33749381, "learning_rate": 8.29e-06, "elapsed_time_per_iteration": 4.88227749, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 29s", "remaining_time": "2h 27m 46s", "loss_scale": 1.0, "consumed_samples": 2787584, "global_step/max_steps": "10889/12700"}
{"lm loss": 2.05214429, "grad_norm": 0.34621227, "learning_rate": 8.29e-06, "elapsed_time_per_iteration": 4.846421, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 33s", "remaining_time": "2h 27m 41s", "loss_scale": 1.0, "consumed_samples": 2787840, "global_step/max_steps": "10890/12700"}
{"lm loss": 2.00380659, "grad_norm": 0.3394497, "learning_rate": 8.28e-06, "elapsed_time_per_iteration": 4.83140802, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 38s", "remaining_time": "2h 27m 36s", "loss_scale": 1.0, "consumed_samples": 2788096, "global_step/max_steps": "10891/12700"}
{"lm loss": 2.05703521, "grad_norm": 0.31725428, "learning_rate": 8.28e-06, "elapsed_time_per_iteration": 4.84715486, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 43s", "remaining_time": "2h 27m 31s", "loss_scale": 1.0, "consumed_samples": 2788352, "global_step/max_steps": "10892/12700"}
{"lm loss": 2.06027532, "grad_norm": 0.32556459, "learning_rate": 8.27e-06, "elapsed_time_per_iteration": 4.85528278, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 48s", "remaining_time": "2h 27m 26s", "loss_scale": 1.0, "consumed_samples": 2788608, "global_step/max_steps": "10893/12700"}
{"lm loss": 2.01969266, "grad_norm": 0.32938364, "learning_rate": 8.26e-06, "elapsed_time_per_iteration": 4.96759057, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 53s", "remaining_time": "2h 27m 21s", "loss_scale": 1.0, "consumed_samples": 2788864, "global_step/max_steps": "10894/12700"}
{"lm loss": 2.02039695, "grad_norm": 0.32439807, "learning_rate": 8.26e-06, "elapsed_time_per_iteration": 4.89649248, "memory(GiB)": 28.98, "elapsed_time": "14h 48m 58s", "remaining_time": "2h 27m 16s", "loss_scale": 1.0, "consumed_samples": 2789120, "global_step/max_steps": "10895/12700"}
{"lm loss": 2.06303287, "grad_norm": 0.33015472, "learning_rate": 8.25e-06, "elapsed_time_per_iteration": 4.94017982, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 3s", "remaining_time": "2h 27m 11s", "loss_scale": 1.0, "consumed_samples": 2789376, "global_step/max_steps": "10896/12700"}
{"lm loss": 2.03118515, "grad_norm": 0.33143276, "learning_rate": 8.25e-06, "elapsed_time_per_iteration": 4.83567524, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 8s", "remaining_time": "2h 27m 6s", "loss_scale": 1.0, "consumed_samples": 2789632, "global_step/max_steps": "10897/12700"}
{"lm loss": 2.0583384, "grad_norm": 0.33326766, "learning_rate": 8.24e-06, "elapsed_time_per_iteration": 4.90756226, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 13s", "remaining_time": "2h 27m 1s", "loss_scale": 1.0, "consumed_samples": 2789888, "global_step/max_steps": "10898/12700"}
{"lm loss": 2.00225234, "grad_norm": 0.3054671, "learning_rate": 8.24e-06, "elapsed_time_per_iteration": 4.89781547, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 17s", "remaining_time": "2h 26m 57s", "loss_scale": 1.0, "consumed_samples": 2790144, "global_step/max_steps": "10899/12700"}
{"lm loss": 2.04262567, "grad_norm": 0.32002622, "learning_rate": 8.23e-06, "elapsed_time_per_iteration": 4.89795327, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 22s", "remaining_time": "2h 26m 52s", "loss_scale": 1.0, "consumed_samples": 2790400, "global_step/max_steps": "10900/12700"}
{"lm loss": 2.05479932, "grad_norm": 0.31417277, "learning_rate": 8.22e-06, "elapsed_time_per_iteration": 4.84312105, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 27s", "remaining_time": "2h 26m 47s", "loss_scale": 1.0, "consumed_samples": 2790656, "global_step/max_steps": "10901/12700"}
{"lm loss": 2.06888986, "grad_norm": 0.30374935, "learning_rate": 8.22e-06, "elapsed_time_per_iteration": 4.75493455, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 32s", "remaining_time": "2h 26m 42s", "loss_scale": 1.0, "consumed_samples": 2790912, "global_step/max_steps": "10902/12700"}
{"lm loss": 2.0528326, "grad_norm": 0.31276628, "learning_rate": 8.21e-06, "elapsed_time_per_iteration": 4.88519716, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 37s", "remaining_time": "2h 26m 37s", "loss_scale": 1.0, "consumed_samples": 2791168, "global_step/max_steps": "10903/12700"}
{"lm loss": 2.05938601, "grad_norm": 0.30556384, "learning_rate": 8.21e-06, "elapsed_time_per_iteration": 4.98667145, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 42s", "remaining_time": "2h 26m 32s", "loss_scale": 1.0, "consumed_samples": 2791424, "global_step/max_steps": "10904/12700"}
{"lm loss": 2.05041575, "grad_norm": 0.33496156, "learning_rate": 8.2e-06, "elapsed_time_per_iteration": 6.34390402, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 48s", "remaining_time": "2h 26m 27s", "loss_scale": 1.0, "consumed_samples": 2791680, "global_step/max_steps": "10905/12700"}
{"lm loss": 2.044209, "grad_norm": 0.33234116, "learning_rate": 8.2e-06, "elapsed_time_per_iteration": 4.81966615, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 53s", "remaining_time": "2h 26m 23s", "loss_scale": 1.0, "consumed_samples": 2791936, "global_step/max_steps": "10906/12700"}
{"lm loss": 2.07195258, "grad_norm": 0.32528475, "learning_rate": 8.19e-06, "elapsed_time_per_iteration": 4.95159221, "memory(GiB)": 28.98, "elapsed_time": "14h 49m 58s", "remaining_time": "2h 26m 18s", "loss_scale": 1.0, "consumed_samples": 2792192, "global_step/max_steps": "10907/12700"}
{"lm loss": 2.05845737, "grad_norm": 0.30846962, "learning_rate": 8.18e-06, "elapsed_time_per_iteration": 4.907552, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 3s", "remaining_time": "2h 26m 13s", "loss_scale": 1.0, "consumed_samples": 2792448, "global_step/max_steps": "10908/12700"}
{"lm loss": 2.02285695, "grad_norm": 0.30347839, "learning_rate": 8.18e-06, "elapsed_time_per_iteration": 4.80250907, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 8s", "remaining_time": "2h 26m 8s", "loss_scale": 1.0, "consumed_samples": 2792704, "global_step/max_steps": "10909/12700"}
{"lm loss": 2.01497626, "grad_norm": 0.31305361, "learning_rate": 8.17e-06, "elapsed_time_per_iteration": 4.82291651, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 12s", "remaining_time": "2h 26m 3s", "loss_scale": 1.0, "consumed_samples": 2792960, "global_step/max_steps": "10910/12700"}
{"lm loss": 2.01391482, "grad_norm": 0.31750637, "learning_rate": 8.17e-06, "elapsed_time_per_iteration": 4.90264368, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 17s", "remaining_time": "2h 25m 58s", "loss_scale": 1.0, "consumed_samples": 2793216, "global_step/max_steps": "10911/12700"}
{"lm loss": 2.03944683, "grad_norm": 0.30017692, "learning_rate": 8.16e-06, "elapsed_time_per_iteration": 4.84937954, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 22s", "remaining_time": "2h 25m 53s", "loss_scale": 1.0, "consumed_samples": 2793472, "global_step/max_steps": "10912/12700"}
{"lm loss": 2.04089141, "grad_norm": 0.31494552, "learning_rate": 8.16e-06, "elapsed_time_per_iteration": 4.91017985, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 27s", "remaining_time": "2h 25m 48s", "loss_scale": 1.0, "consumed_samples": 2793728, "global_step/max_steps": "10913/12700"}
{"lm loss": 2.0650537, "grad_norm": 0.32946551, "learning_rate": 8.15e-06, "elapsed_time_per_iteration": 4.896451, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 32s", "remaining_time": "2h 25m 43s", "loss_scale": 1.0, "consumed_samples": 2793984, "global_step/max_steps": "10914/12700"}
{"lm loss": 2.07908607, "grad_norm": 0.31982261, "learning_rate": 8.15e-06, "elapsed_time_per_iteration": 4.98770714, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 37s", "remaining_time": "2h 25m 38s", "loss_scale": 1.0, "consumed_samples": 2794240, "global_step/max_steps": "10915/12700"}
{"lm loss": 2.07681155, "grad_norm": 0.31393433, "learning_rate": 8.14e-06, "elapsed_time_per_iteration": 4.83359694, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 42s", "remaining_time": "2h 25m 34s", "loss_scale": 1.0, "consumed_samples": 2794496, "global_step/max_steps": "10916/12700"}
{"lm loss": 1.99435627, "grad_norm": 0.32135928, "learning_rate": 8.13e-06, "elapsed_time_per_iteration": 5.07818174, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 47s", "remaining_time": "2h 25m 29s", "loss_scale": 1.0, "consumed_samples": 2794752, "global_step/max_steps": "10917/12700"}
{"lm loss": 2.03143048, "grad_norm": 0.32309228, "learning_rate": 8.13e-06, "elapsed_time_per_iteration": 4.85669851, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 52s", "remaining_time": "2h 25m 24s", "loss_scale": 1.0, "consumed_samples": 2795008, "global_step/max_steps": "10918/12700"}
{"lm loss": 2.02343011, "grad_norm": 0.31227395, "learning_rate": 8.12e-06, "elapsed_time_per_iteration": 5.04284406, "memory(GiB)": 28.98, "elapsed_time": "14h 50m 57s", "remaining_time": "2h 25m 19s", "loss_scale": 1.0, "consumed_samples": 2795264, "global_step/max_steps": "10919/12700"}
{"lm loss": 2.03260589, "grad_norm": 0.30900726, "learning_rate": 8.12e-06, "elapsed_time_per_iteration": 4.9001286, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 2s", "remaining_time": "2h 25m 14s", "loss_scale": 1.0, "consumed_samples": 2795520, "global_step/max_steps": "10920/12700"}
{"lm loss": 2.07239413, "grad_norm": 0.30772352, "learning_rate": 8.11e-06, "elapsed_time_per_iteration": 4.85369396, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 7s", "remaining_time": "2h 25m 9s", "loss_scale": 1.0, "consumed_samples": 2795776, "global_step/max_steps": "10921/12700"}
{"lm loss": 1.99169743, "grad_norm": 0.32726026, "learning_rate": 8.11e-06, "elapsed_time_per_iteration": 4.9388504, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 11s", "remaining_time": "2h 25m 4s", "loss_scale": 1.0, "consumed_samples": 2796032, "global_step/max_steps": "10922/12700"}
{"lm loss": 2.05979061, "grad_norm": 0.32996339, "learning_rate": 8.1e-06, "elapsed_time_per_iteration": 4.98906446, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 16s", "remaining_time": "2h 24m 59s", "loss_scale": 1.0, "consumed_samples": 2796288, "global_step/max_steps": "10923/12700"}
{"lm loss": 2.04777336, "grad_norm": 0.32940957, "learning_rate": 8.09e-06, "elapsed_time_per_iteration": 4.92654157, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 21s", "remaining_time": "2h 24m 54s", "loss_scale": 1.0, "consumed_samples": 2796544, "global_step/max_steps": "10924/12700"}
{"lm loss": 2.02539921, "grad_norm": 0.31840041, "learning_rate": 8.09e-06, "elapsed_time_per_iteration": 4.95475578, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 26s", "remaining_time": "2h 24m 50s", "loss_scale": 1.0, "consumed_samples": 2796800, "global_step/max_steps": "10925/12700"}
{"lm loss": 2.06521058, "grad_norm": 0.33714825, "learning_rate": 8.08e-06, "elapsed_time_per_iteration": 4.89165163, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 31s", "remaining_time": "2h 24m 45s", "loss_scale": 1.0, "consumed_samples": 2797056, "global_step/max_steps": "10926/12700"}
{"lm loss": 2.06912494, "grad_norm": 0.31541613, "learning_rate": 8.08e-06, "elapsed_time_per_iteration": 4.92867017, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 36s", "remaining_time": "2h 24m 40s", "loss_scale": 1.0, "consumed_samples": 2797312, "global_step/max_steps": "10927/12700"}
{"lm loss": 2.05591512, "grad_norm": 0.33475396, "learning_rate": 8.07e-06, "elapsed_time_per_iteration": 4.93034649, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 41s", "remaining_time": "2h 24m 35s", "loss_scale": 1.0, "consumed_samples": 2797568, "global_step/max_steps": "10928/12700"}
{"lm loss": 2.06393647, "grad_norm": 0.31443575, "learning_rate": 8.07e-06, "elapsed_time_per_iteration": 4.90559864, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 46s", "remaining_time": "2h 24m 30s", "loss_scale": 1.0, "consumed_samples": 2797824, "global_step/max_steps": "10929/12700"}
{"lm loss": 2.05284524, "grad_norm": 0.32946324, "learning_rate": 8.06e-06, "elapsed_time_per_iteration": 4.82548356, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 51s", "remaining_time": "2h 24m 25s", "loss_scale": 1.0, "consumed_samples": 2798080, "global_step/max_steps": "10930/12700"}
{"lm loss": 2.06588364, "grad_norm": 0.32249337, "learning_rate": 8.05e-06, "elapsed_time_per_iteration": 4.87323833, "memory(GiB)": 28.98, "elapsed_time": "14h 51m 56s", "remaining_time": "2h 24m 20s", "loss_scale": 1.0, "consumed_samples": 2798336, "global_step/max_steps": "10931/12700"}
{"lm loss": 2.05308557, "grad_norm": 0.32718769, "learning_rate": 8.05e-06, "elapsed_time_per_iteration": 4.85727286, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 1s", "remaining_time": "2h 24m 15s", "loss_scale": 1.0, "consumed_samples": 2798592, "global_step/max_steps": "10932/12700"}
{"lm loss": 2.02696729, "grad_norm": 0.30421481, "learning_rate": 8.04e-06, "elapsed_time_per_iteration": 4.84531188, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 5s", "remaining_time": "2h 24m 10s", "loss_scale": 1.0, "consumed_samples": 2798848, "global_step/max_steps": "10933/12700"}
{"lm loss": 2.02203393, "grad_norm": 0.32930312, "learning_rate": 8.04e-06, "elapsed_time_per_iteration": 4.96713209, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 10s", "remaining_time": "2h 24m 6s", "loss_scale": 1.0, "consumed_samples": 2799104, "global_step/max_steps": "10934/12700"}
{"lm loss": 2.04082322, "grad_norm": 0.33097243, "learning_rate": 8.03e-06, "elapsed_time_per_iteration": 4.93206882, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 15s", "remaining_time": "2h 24m 1s", "loss_scale": 1.0, "consumed_samples": 2799360, "global_step/max_steps": "10935/12700"}
{"lm loss": 2.07841063, "grad_norm": 0.32381082, "learning_rate": 8.03e-06, "elapsed_time_per_iteration": 4.92968535, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 20s", "remaining_time": "2h 23m 56s", "loss_scale": 1.0, "consumed_samples": 2799616, "global_step/max_steps": "10936/12700"}
{"lm loss": 2.0494709, "grad_norm": 0.31926963, "learning_rate": 8.02e-06, "elapsed_time_per_iteration": 4.91609406, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 25s", "remaining_time": "2h 23m 51s", "loss_scale": 1.0, "consumed_samples": 2799872, "global_step/max_steps": "10937/12700"}
{"lm loss": 2.03315735, "grad_norm": 0.3100583, "learning_rate": 8.02e-06, "elapsed_time_per_iteration": 5.03038764, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 30s", "remaining_time": "2h 23m 46s", "loss_scale": 1.0, "consumed_samples": 2800128, "global_step/max_steps": "10938/12700"}
{"lm loss": 2.01247597, "grad_norm": 0.31874728, "learning_rate": 8.01e-06, "elapsed_time_per_iteration": 4.7754724, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 35s", "remaining_time": "2h 23m 41s", "loss_scale": 1.0, "consumed_samples": 2800384, "global_step/max_steps": "10939/12700"}
{"lm loss": 2.04772043, "grad_norm": 0.32146537, "learning_rate": 8e-06, "elapsed_time_per_iteration": 4.86851883, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 40s", "remaining_time": "2h 23m 36s", "loss_scale": 1.0, "consumed_samples": 2800640, "global_step/max_steps": "10940/12700"}
{"lm loss": 2.05241799, "grad_norm": 0.31169862, "learning_rate": 8e-06, "elapsed_time_per_iteration": 4.84661341, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 45s", "remaining_time": "2h 23m 31s", "loss_scale": 1.0, "consumed_samples": 2800896, "global_step/max_steps": "10941/12700"}
{"lm loss": 2.0648129, "grad_norm": 0.29554877, "learning_rate": 7.99e-06, "elapsed_time_per_iteration": 4.90554047, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 50s", "remaining_time": "2h 23m 26s", "loss_scale": 1.0, "consumed_samples": 2801152, "global_step/max_steps": "10942/12700"}
{"lm loss": 2.00777364, "grad_norm": 0.31466353, "learning_rate": 7.99e-06, "elapsed_time_per_iteration": 4.86744475, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 54s", "remaining_time": "2h 23m 21s", "loss_scale": 1.0, "consumed_samples": 2801408, "global_step/max_steps": "10943/12700"}
{"lm loss": 2.04909921, "grad_norm": 0.31898823, "learning_rate": 7.98e-06, "elapsed_time_per_iteration": 4.90945816, "memory(GiB)": 28.98, "elapsed_time": "14h 52m 59s", "remaining_time": "2h 23m 17s", "loss_scale": 1.0, "consumed_samples": 2801664, "global_step/max_steps": "10944/12700"}
{"lm loss": 2.07489967, "grad_norm": 0.30511007, "learning_rate": 7.98e-06, "elapsed_time_per_iteration": 4.85846448, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 4s", "remaining_time": "2h 23m 12s", "loss_scale": 1.0, "consumed_samples": 2801920, "global_step/max_steps": "10945/12700"}
{"lm loss": 2.05687881, "grad_norm": 0.31965089, "learning_rate": 7.97e-06, "elapsed_time_per_iteration": 4.98222089, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 9s", "remaining_time": "2h 23m 7s", "loss_scale": 1.0, "consumed_samples": 2802176, "global_step/max_steps": "10946/12700"}
{"lm loss": 2.05266809, "grad_norm": 0.31614286, "learning_rate": 7.97e-06, "elapsed_time_per_iteration": 4.89676905, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 14s", "remaining_time": "2h 23m 2s", "loss_scale": 1.0, "consumed_samples": 2802432, "global_step/max_steps": "10947/12700"}
{"lm loss": 2.04344487, "grad_norm": 0.32540286, "learning_rate": 7.96e-06, "elapsed_time_per_iteration": 4.79264641, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 19s", "remaining_time": "2h 22m 57s", "loss_scale": 1.0, "consumed_samples": 2802688, "global_step/max_steps": "10948/12700"}
{"lm loss": 2.05181408, "grad_norm": 0.31147337, "learning_rate": 7.95e-06, "elapsed_time_per_iteration": 4.84880948, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 24s", "remaining_time": "2h 22m 52s", "loss_scale": 1.0, "consumed_samples": 2802944, "global_step/max_steps": "10949/12700"}
{"lm loss": 2.07998395, "grad_norm": 0.32811818, "learning_rate": 7.95e-06, "elapsed_time_per_iteration": 4.86060381, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 29s", "remaining_time": "2h 22m 47s", "loss_scale": 1.0, "consumed_samples": 2803200, "global_step/max_steps": "10950/12700"}
{"lm loss": 2.04863119, "grad_norm": 0.33788311, "learning_rate": 7.94e-06, "elapsed_time_per_iteration": 4.78047681, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 33s", "remaining_time": "2h 22m 42s", "loss_scale": 1.0, "consumed_samples": 2803456, "global_step/max_steps": "10951/12700"}
{"lm loss": 2.05901361, "grad_norm": 0.33527035, "learning_rate": 7.94e-06, "elapsed_time_per_iteration": 4.99188852, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 38s", "remaining_time": "2h 22m 37s", "loss_scale": 1.0, "consumed_samples": 2803712, "global_step/max_steps": "10952/12700"}
{"lm loss": 2.0802598, "grad_norm": 0.31381798, "learning_rate": 7.93e-06, "elapsed_time_per_iteration": 4.89032698, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 43s", "remaining_time": "2h 22m 32s", "loss_scale": 1.0, "consumed_samples": 2803968, "global_step/max_steps": "10953/12700"}
{"lm loss": 2.04539919, "grad_norm": 0.31646493, "learning_rate": 7.93e-06, "elapsed_time_per_iteration": 4.98778224, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 48s", "remaining_time": "2h 22m 28s", "loss_scale": 1.0, "consumed_samples": 2804224, "global_step/max_steps": "10954/12700"}
{"lm loss": 2.05077863, "grad_norm": 0.31280145, "learning_rate": 7.92e-06, "elapsed_time_per_iteration": 4.87515593, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 53s", "remaining_time": "2h 22m 23s", "loss_scale": 1.0, "consumed_samples": 2804480, "global_step/max_steps": "10955/12700"}
{"lm loss": 2.07460809, "grad_norm": 0.34210241, "learning_rate": 7.92e-06, "elapsed_time_per_iteration": 4.90757203, "memory(GiB)": 28.98, "elapsed_time": "14h 53m 58s", "remaining_time": "2h 22m 18s", "loss_scale": 1.0, "consumed_samples": 2804736, "global_step/max_steps": "10956/12700"}
{"lm loss": 1.99636209, "grad_norm": 0.32234222, "learning_rate": 7.91e-06, "elapsed_time_per_iteration": 4.86705756, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 3s", "remaining_time": "2h 22m 13s", "loss_scale": 1.0, "consumed_samples": 2804992, "global_step/max_steps": "10957/12700"}
{"lm loss": 2.08451271, "grad_norm": 0.35091203, "learning_rate": 7.9e-06, "elapsed_time_per_iteration": 4.81210089, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 8s", "remaining_time": "2h 22m 8s", "loss_scale": 1.0, "consumed_samples": 2805248, "global_step/max_steps": "10958/12700"}
{"lm loss": 2.06506324, "grad_norm": 0.34301382, "learning_rate": 7.9e-06, "elapsed_time_per_iteration": 4.8894248, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 13s", "remaining_time": "2h 22m 3s", "loss_scale": 1.0, "consumed_samples": 2805504, "global_step/max_steps": "10959/12700"}
{"lm loss": 2.05629611, "grad_norm": 0.3250013, "learning_rate": 7.89e-06, "elapsed_time_per_iteration": 4.8790884, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 17s", "remaining_time": "2h 21m 58s", "loss_scale": 1.0, "consumed_samples": 2805760, "global_step/max_steps": "10960/12700"}
{"lm loss": 2.09979939, "grad_norm": 0.31146735, "learning_rate": 7.89e-06, "elapsed_time_per_iteration": 4.9164958, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 22s", "remaining_time": "2h 21m 53s", "loss_scale": 1.0, "consumed_samples": 2806016, "global_step/max_steps": "10961/12700"}
{"lm loss": 2.04447103, "grad_norm": 0.32468674, "learning_rate": 7.88e-06, "elapsed_time_per_iteration": 4.9359808, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 27s", "remaining_time": "2h 21m 48s", "loss_scale": 1.0, "consumed_samples": 2806272, "global_step/max_steps": "10962/12700"}
{"lm loss": 2.0209198, "grad_norm": 0.3290166, "learning_rate": 7.88e-06, "elapsed_time_per_iteration": 4.98791742, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 32s", "remaining_time": "2h 21m 44s", "loss_scale": 1.0, "consumed_samples": 2806528, "global_step/max_steps": "10963/12700"}
{"lm loss": 2.02867389, "grad_norm": 0.33612388, "learning_rate": 7.87e-06, "elapsed_time_per_iteration": 4.92504597, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 37s", "remaining_time": "2h 21m 39s", "loss_scale": 1.0, "consumed_samples": 2806784, "global_step/max_steps": "10964/12700"}
{"lm loss": 2.07795429, "grad_norm": 0.31569904, "learning_rate": 7.87e-06, "elapsed_time_per_iteration": 4.8376472, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 42s", "remaining_time": "2h 21m 34s", "loss_scale": 1.0, "consumed_samples": 2807040, "global_step/max_steps": "10965/12700"}
{"lm loss": 2.03388453, "grad_norm": 0.30884147, "learning_rate": 7.86e-06, "elapsed_time_per_iteration": 4.91572881, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 47s", "remaining_time": "2h 21m 29s", "loss_scale": 1.0, "consumed_samples": 2807296, "global_step/max_steps": "10966/12700"}
{"lm loss": 2.02345657, "grad_norm": 0.3344374, "learning_rate": 7.85e-06, "elapsed_time_per_iteration": 4.87732625, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 52s", "remaining_time": "2h 21m 24s", "loss_scale": 1.0, "consumed_samples": 2807552, "global_step/max_steps": "10967/12700"}
{"lm loss": 2.06933999, "grad_norm": 0.32829541, "learning_rate": 7.85e-06, "elapsed_time_per_iteration": 4.85501552, "memory(GiB)": 28.98, "elapsed_time": "14h 54m 57s", "remaining_time": "2h 21m 19s", "loss_scale": 1.0, "consumed_samples": 2807808, "global_step/max_steps": "10968/12700"}
{"lm loss": 2.02344441, "grad_norm": 0.33162212, "learning_rate": 7.84e-06, "elapsed_time_per_iteration": 4.88873625, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 2s", "remaining_time": "2h 21m 14s", "loss_scale": 1.0, "consumed_samples": 2808064, "global_step/max_steps": "10969/12700"}
{"lm loss": 2.07202435, "grad_norm": 0.32756281, "learning_rate": 7.84e-06, "elapsed_time_per_iteration": 4.86496329, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 6s", "remaining_time": "2h 21m 9s", "loss_scale": 1.0, "consumed_samples": 2808320, "global_step/max_steps": "10970/12700"}
{"lm loss": 2.04206586, "grad_norm": 0.31964958, "learning_rate": 7.83e-06, "elapsed_time_per_iteration": 4.90100598, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 11s", "remaining_time": "2h 21m 4s", "loss_scale": 1.0, "consumed_samples": 2808576, "global_step/max_steps": "10971/12700"}
{"lm loss": 2.01995564, "grad_norm": 0.32804757, "learning_rate": 7.83e-06, "elapsed_time_per_iteration": 4.85455489, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 16s", "remaining_time": "2h 20m 59s", "loss_scale": 1.0, "consumed_samples": 2808832, "global_step/max_steps": "10972/12700"}
{"lm loss": 2.04048061, "grad_norm": 0.31273231, "learning_rate": 7.82e-06, "elapsed_time_per_iteration": 4.92421246, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 21s", "remaining_time": "2h 20m 55s", "loss_scale": 1.0, "consumed_samples": 2809088, "global_step/max_steps": "10973/12700"}
{"lm loss": 2.04112053, "grad_norm": 0.32470822, "learning_rate": 7.82e-06, "elapsed_time_per_iteration": 4.89880848, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 26s", "remaining_time": "2h 20m 50s", "loss_scale": 1.0, "consumed_samples": 2809344, "global_step/max_steps": "10974/12700"}
{"lm loss": 2.07012486, "grad_norm": 0.32412243, "learning_rate": 7.81e-06, "elapsed_time_per_iteration": 4.85057211, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 31s", "remaining_time": "2h 20m 45s", "loss_scale": 1.0, "consumed_samples": 2809600, "global_step/max_steps": "10975/12700"}
{"lm loss": 2.05029941, "grad_norm": 0.34743661, "learning_rate": 7.81e-06, "elapsed_time_per_iteration": 4.80762649, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 36s", "remaining_time": "2h 20m 40s", "loss_scale": 1.0, "consumed_samples": 2809856, "global_step/max_steps": "10976/12700"}
{"lm loss": 2.03385353, "grad_norm": 0.33347139, "learning_rate": 7.8e-06, "elapsed_time_per_iteration": 4.84689522, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 41s", "remaining_time": "2h 20m 35s", "loss_scale": 1.0, "consumed_samples": 2810112, "global_step/max_steps": "10977/12700"}
{"lm loss": 2.04663968, "grad_norm": 0.33001664, "learning_rate": 7.79e-06, "elapsed_time_per_iteration": 4.87653828, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 45s", "remaining_time": "2h 20m 30s", "loss_scale": 1.0, "consumed_samples": 2810368, "global_step/max_steps": "10978/12700"}
{"lm loss": 2.05354118, "grad_norm": 0.32794872, "learning_rate": 7.79e-06, "elapsed_time_per_iteration": 4.81830502, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 50s", "remaining_time": "2h 20m 25s", "loss_scale": 1.0, "consumed_samples": 2810624, "global_step/max_steps": "10979/12700"}
{"lm loss": 2.08021879, "grad_norm": 0.32414302, "learning_rate": 7.78e-06, "elapsed_time_per_iteration": 4.78032684, "memory(GiB)": 28.98, "elapsed_time": "14h 55m 55s", "remaining_time": "2h 20m 20s", "loss_scale": 1.0, "consumed_samples": 2810880, "global_step/max_steps": "10980/12700"}
{"lm loss": 2.03949594, "grad_norm": 0.33859918, "learning_rate": 7.78e-06, "elapsed_time_per_iteration": 4.84327006, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 0s", "remaining_time": "2h 20m 15s", "loss_scale": 1.0, "consumed_samples": 2811136, "global_step/max_steps": "10981/12700"}
{"lm loss": 2.04291058, "grad_norm": 0.31806028, "learning_rate": 7.77e-06, "elapsed_time_per_iteration": 4.8334527, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 5s", "remaining_time": "2h 20m 10s", "loss_scale": 1.0, "consumed_samples": 2811392, "global_step/max_steps": "10982/12700"}
{"lm loss": 2.03773522, "grad_norm": 0.33062947, "learning_rate": 7.77e-06, "elapsed_time_per_iteration": 4.8120749, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 10s", "remaining_time": "2h 20m 6s", "loss_scale": 1.0, "consumed_samples": 2811648, "global_step/max_steps": "10983/12700"}
{"lm loss": 2.06634068, "grad_norm": 0.31272972, "learning_rate": 7.76e-06, "elapsed_time_per_iteration": 4.96732283, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 14s", "remaining_time": "2h 20m 1s", "loss_scale": 1.0, "consumed_samples": 2811904, "global_step/max_steps": "10984/12700"}
{"lm loss": 2.07553172, "grad_norm": 0.31371239, "learning_rate": 7.76e-06, "elapsed_time_per_iteration": 4.86775041, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 19s", "remaining_time": "2h 19m 56s", "loss_scale": 1.0, "consumed_samples": 2812160, "global_step/max_steps": "10985/12700"}
{"lm loss": 2.07363486, "grad_norm": 0.31905189, "learning_rate": 7.75e-06, "elapsed_time_per_iteration": 4.80995917, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 24s", "remaining_time": "2h 19m 51s", "loss_scale": 1.0, "consumed_samples": 2812416, "global_step/max_steps": "10986/12700"}
{"lm loss": 2.01084566, "grad_norm": 0.32020912, "learning_rate": 7.75e-06, "elapsed_time_per_iteration": 4.87114692, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 29s", "remaining_time": "2h 19m 46s", "loss_scale": 1.0, "consumed_samples": 2812672, "global_step/max_steps": "10987/12700"}
{"lm loss": 2.0601778, "grad_norm": 0.32081926, "learning_rate": 7.74e-06, "elapsed_time_per_iteration": 4.78467011, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 34s", "remaining_time": "2h 19m 41s", "loss_scale": 1.0, "consumed_samples": 2812928, "global_step/max_steps": "10988/12700"}
{"lm loss": 2.05263782, "grad_norm": 0.30606171, "learning_rate": 7.73e-06, "elapsed_time_per_iteration": 5.00516176, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 39s", "remaining_time": "2h 19m 36s", "loss_scale": 1.0, "consumed_samples": 2813184, "global_step/max_steps": "10989/12700"}
{"lm loss": 2.07487488, "grad_norm": 0.31384948, "learning_rate": 7.73e-06, "elapsed_time_per_iteration": 4.86753535, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 44s", "remaining_time": "2h 19m 31s", "loss_scale": 1.0, "consumed_samples": 2813440, "global_step/max_steps": "10990/12700"}
{"lm loss": 2.09168315, "grad_norm": 0.31909704, "learning_rate": 7.72e-06, "elapsed_time_per_iteration": 4.83460879, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 49s", "remaining_time": "2h 19m 26s", "loss_scale": 1.0, "consumed_samples": 2813696, "global_step/max_steps": "10991/12700"}
{"lm loss": 2.05805349, "grad_norm": 0.303258, "learning_rate": 7.72e-06, "elapsed_time_per_iteration": 4.88982677, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 53s", "remaining_time": "2h 19m 21s", "loss_scale": 1.0, "consumed_samples": 2813952, "global_step/max_steps": "10992/12700"}
{"lm loss": 2.03037834, "grad_norm": 0.33484855, "learning_rate": 7.71e-06, "elapsed_time_per_iteration": 4.90789604, "memory(GiB)": 28.98, "elapsed_time": "14h 56m 58s", "remaining_time": "2h 19m 17s", "loss_scale": 1.0, "consumed_samples": 2814208, "global_step/max_steps": "10993/12700"}
{"lm loss": 2.07549906, "grad_norm": 0.3252742, "learning_rate": 7.71e-06, "elapsed_time_per_iteration": 4.88052654, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 3s", "remaining_time": "2h 19m 12s", "loss_scale": 1.0, "consumed_samples": 2814464, "global_step/max_steps": "10994/12700"}
{"lm loss": 2.03759265, "grad_norm": 0.32339397, "learning_rate": 7.7e-06, "elapsed_time_per_iteration": 4.87871051, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 8s", "remaining_time": "2h 19m 7s", "loss_scale": 1.0, "consumed_samples": 2814720, "global_step/max_steps": "10995/12700"}
{"lm loss": 2.07778382, "grad_norm": 0.31850949, "learning_rate": 7.7e-06, "elapsed_time_per_iteration": 4.79197907, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 13s", "remaining_time": "2h 19m 2s", "loss_scale": 1.0, "consumed_samples": 2814976, "global_step/max_steps": "10996/12700"}
{"lm loss": 2.08686566, "grad_norm": 0.32068688, "learning_rate": 7.69e-06, "elapsed_time_per_iteration": 4.9406333, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 18s", "remaining_time": "2h 18m 57s", "loss_scale": 1.0, "consumed_samples": 2815232, "global_step/max_steps": "10997/12700"}
{"lm loss": 2.04534936, "grad_norm": 0.3033717, "learning_rate": 7.69e-06, "elapsed_time_per_iteration": 4.77557468, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 23s", "remaining_time": "2h 18m 52s", "loss_scale": 1.0, "consumed_samples": 2815488, "global_step/max_steps": "10998/12700"}
{"lm loss": 2.0527308, "grad_norm": 0.32245421, "learning_rate": 7.68e-06, "elapsed_time_per_iteration": 4.88239694, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 27s", "remaining_time": "2h 18m 47s", "loss_scale": 1.0, "consumed_samples": 2815744, "global_step/max_steps": "10999/12700"}
{"lm loss": 2.07410812, "grad_norm": 0.33887896, "learning_rate": 7.67e-06, "elapsed_time_per_iteration": 4.86144185, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 32s", "remaining_time": "2h 18m 42s", "loss_scale": 1.0, "consumed_samples": 2816000, "global_step/max_steps": "11000/12700"}
{"lm loss": 2.0638957, "grad_norm": 0.32716173, "learning_rate": 7.67e-06, "elapsed_time_per_iteration": 4.87098074, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 37s", "remaining_time": "2h 18m 37s", "loss_scale": 1.0, "consumed_samples": 2816256, "global_step/max_steps": "11001/12700"}
{"lm loss": 2.06271911, "grad_norm": 0.30571562, "learning_rate": 7.66e-06, "elapsed_time_per_iteration": 4.87943459, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 42s", "remaining_time": "2h 18m 32s", "loss_scale": 1.0, "consumed_samples": 2816512, "global_step/max_steps": "11002/12700"}
{"lm loss": 2.06698537, "grad_norm": 0.31362522, "learning_rate": 7.66e-06, "elapsed_time_per_iteration": 4.93657231, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 47s", "remaining_time": "2h 18m 28s", "loss_scale": 1.0, "consumed_samples": 2816768, "global_step/max_steps": "11003/12700"}
{"lm loss": 2.0659914, "grad_norm": 0.31573337, "learning_rate": 7.65e-06, "elapsed_time_per_iteration": 4.98964024, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 52s", "remaining_time": "2h 18m 23s", "loss_scale": 1.0, "consumed_samples": 2817024, "global_step/max_steps": "11004/12700"}
{"lm loss": 2.06542563, "grad_norm": 0.32253224, "learning_rate": 7.65e-06, "elapsed_time_per_iteration": 4.86534095, "memory(GiB)": 28.98, "elapsed_time": "14h 57m 57s", "remaining_time": "2h 18m 18s", "loss_scale": 1.0, "consumed_samples": 2817280, "global_step/max_steps": "11005/12700"}
{"lm loss": 2.05896807, "grad_norm": 0.30627364, "learning_rate": 7.64e-06, "elapsed_time_per_iteration": 4.84962296, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 2s", "remaining_time": "2h 18m 13s", "loss_scale": 1.0, "consumed_samples": 2817536, "global_step/max_steps": "11006/12700"}
{"lm loss": 2.06523061, "grad_norm": 0.32103956, "learning_rate": 7.64e-06, "elapsed_time_per_iteration": 4.87128186, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 7s", "remaining_time": "2h 18m 8s", "loss_scale": 1.0, "consumed_samples": 2817792, "global_step/max_steps": "11007/12700"}
{"lm loss": 2.03586292, "grad_norm": 0.32576737, "learning_rate": 7.63e-06, "elapsed_time_per_iteration": 4.96682906, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 12s", "remaining_time": "2h 18m 3s", "loss_scale": 1.0, "consumed_samples": 2818048, "global_step/max_steps": "11008/12700"}
{"lm loss": 2.05890155, "grad_norm": 0.32769573, "learning_rate": 7.63e-06, "elapsed_time_per_iteration": 4.78298211, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 16s", "remaining_time": "2h 17m 58s", "loss_scale": 1.0, "consumed_samples": 2818304, "global_step/max_steps": "11009/12700"}
{"lm loss": 2.03487206, "grad_norm": 0.32700092, "learning_rate": 7.62e-06, "elapsed_time_per_iteration": 5.69788241, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 22s", "remaining_time": "2h 17m 53s", "loss_scale": 1.0, "consumed_samples": 2818560, "global_step/max_steps": "11010/12700"}
{"lm loss": 2.0129838, "grad_norm": 0.29810974, "learning_rate": 7.62e-06, "elapsed_time_per_iteration": 4.85588026, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 27s", "remaining_time": "2h 17m 48s", "loss_scale": 1.0, "consumed_samples": 2818816, "global_step/max_steps": "11011/12700"}
{"lm loss": 2.04908395, "grad_norm": 0.31951326, "learning_rate": 7.61e-06, "elapsed_time_per_iteration": 4.86522865, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 32s", "remaining_time": "2h 17m 44s", "loss_scale": 1.0, "consumed_samples": 2819072, "global_step/max_steps": "11012/12700"}
{"lm loss": 2.04751515, "grad_norm": 0.3075611, "learning_rate": 7.6e-06, "elapsed_time_per_iteration": 4.95854807, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 37s", "remaining_time": "2h 17m 39s", "loss_scale": 1.0, "consumed_samples": 2819328, "global_step/max_steps": "11013/12700"}
{"lm loss": 2.09119272, "grad_norm": 0.3033978, "learning_rate": 7.6e-06, "elapsed_time_per_iteration": 4.81546688, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 42s", "remaining_time": "2h 17m 34s", "loss_scale": 1.0, "consumed_samples": 2819584, "global_step/max_steps": "11014/12700"}
{"lm loss": 2.05998707, "grad_norm": 0.33929354, "learning_rate": 7.59e-06, "elapsed_time_per_iteration": 4.96785569, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 47s", "remaining_time": "2h 17m 29s", "loss_scale": 1.0, "consumed_samples": 2819840, "global_step/max_steps": "11015/12700"}
{"lm loss": 2.02581406, "grad_norm": 0.33389682, "learning_rate": 7.59e-06, "elapsed_time_per_iteration": 4.83093357, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 51s", "remaining_time": "2h 17m 24s", "loss_scale": 1.0, "consumed_samples": 2820096, "global_step/max_steps": "11016/12700"}
{"lm loss": 2.08378363, "grad_norm": 0.30919409, "learning_rate": 7.58e-06, "elapsed_time_per_iteration": 4.80691433, "memory(GiB)": 28.98, "elapsed_time": "14h 58m 56s", "remaining_time": "2h 17m 19s", "loss_scale": 1.0, "consumed_samples": 2820352, "global_step/max_steps": "11017/12700"}
{"lm loss": 2.04286361, "grad_norm": 0.31072646, "learning_rate": 7.58e-06, "elapsed_time_per_iteration": 4.94587874, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 1s", "remaining_time": "2h 17m 14s", "loss_scale": 1.0, "consumed_samples": 2820608, "global_step/max_steps": "11018/12700"}
{"lm loss": 2.07282066, "grad_norm": 0.3312293, "learning_rate": 7.57e-06, "elapsed_time_per_iteration": 4.93030858, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 6s", "remaining_time": "2h 17m 9s", "loss_scale": 1.0, "consumed_samples": 2820864, "global_step/max_steps": "11019/12700"}
{"lm loss": 2.0610497, "grad_norm": 0.33383849, "learning_rate": 7.57e-06, "elapsed_time_per_iteration": 4.92259383, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 11s", "remaining_time": "2h 17m 4s", "loss_scale": 1.0, "consumed_samples": 2821120, "global_step/max_steps": "11020/12700"}
{"lm loss": 2.04457474, "grad_norm": 0.30975971, "learning_rate": 7.56e-06, "elapsed_time_per_iteration": 5.09738564, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 16s", "remaining_time": "2h 17m 0s", "loss_scale": 1.0, "consumed_samples": 2821376, "global_step/max_steps": "11021/12700"}
{"lm loss": 2.02499413, "grad_norm": 0.34211588, "learning_rate": 7.56e-06, "elapsed_time_per_iteration": 5.08234692, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 21s", "remaining_time": "2h 16m 55s", "loss_scale": 1.0, "consumed_samples": 2821632, "global_step/max_steps": "11022/12700"}
{"lm loss": 2.00597811, "grad_norm": 0.30841786, "learning_rate": 7.55e-06, "elapsed_time_per_iteration": 5.00577235, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 26s", "remaining_time": "2h 16m 50s", "loss_scale": 1.0, "consumed_samples": 2821888, "global_step/max_steps": "11023/12700"}
{"lm loss": 2.02372909, "grad_norm": 0.32018745, "learning_rate": 7.55e-06, "elapsed_time_per_iteration": 4.93543768, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 31s", "remaining_time": "2h 16m 45s", "loss_scale": 1.0, "consumed_samples": 2822144, "global_step/max_steps": "11024/12700"}
{"lm loss": 2.05346131, "grad_norm": 0.31221929, "learning_rate": 7.54e-06, "elapsed_time_per_iteration": 4.89028144, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 36s", "remaining_time": "2h 16m 40s", "loss_scale": 1.0, "consumed_samples": 2822400, "global_step/max_steps": "11025/12700"}
{"lm loss": 2.03069186, "grad_norm": 0.34005046, "learning_rate": 7.54e-06, "elapsed_time_per_iteration": 5.02559805, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 41s", "remaining_time": "2h 16m 35s", "loss_scale": 1.0, "consumed_samples": 2822656, "global_step/max_steps": "11026/12700"}
{"lm loss": 2.04516459, "grad_norm": 0.30557412, "learning_rate": 7.53e-06, "elapsed_time_per_iteration": 4.83313823, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 46s", "remaining_time": "2h 16m 30s", "loss_scale": 1.0, "consumed_samples": 2822912, "global_step/max_steps": "11027/12700"}
{"lm loss": 2.04899573, "grad_norm": 0.31003666, "learning_rate": 7.52e-06, "elapsed_time_per_iteration": 4.86126399, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 51s", "remaining_time": "2h 16m 25s", "loss_scale": 1.0, "consumed_samples": 2823168, "global_step/max_steps": "11028/12700"}
{"lm loss": 2.06980515, "grad_norm": 0.31078929, "learning_rate": 7.52e-06, "elapsed_time_per_iteration": 4.86152172, "memory(GiB)": 28.98, "elapsed_time": "14h 59m 56s", "remaining_time": "2h 16m 20s", "loss_scale": 1.0, "consumed_samples": 2823424, "global_step/max_steps": "11029/12700"}
{"lm loss": 2.05478764, "grad_norm": 0.3253192, "learning_rate": 7.51e-06, "elapsed_time_per_iteration": 4.78432846, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 0s", "remaining_time": "2h 16m 16s", "loss_scale": 1.0, "consumed_samples": 2823680, "global_step/max_steps": "11030/12700"}
{"lm loss": 2.04487562, "grad_norm": 0.32252824, "learning_rate": 7.51e-06, "elapsed_time_per_iteration": 4.97075248, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 5s", "remaining_time": "2h 16m 11s", "loss_scale": 1.0, "consumed_samples": 2823936, "global_step/max_steps": "11031/12700"}
{"lm loss": 2.01306319, "grad_norm": 0.31050661, "learning_rate": 7.5e-06, "elapsed_time_per_iteration": 4.84354568, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 10s", "remaining_time": "2h 16m 6s", "loss_scale": 1.0, "consumed_samples": 2824192, "global_step/max_steps": "11032/12700"}
{"lm loss": 2.06443429, "grad_norm": 0.31229565, "learning_rate": 7.5e-06, "elapsed_time_per_iteration": 4.86853671, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 15s", "remaining_time": "2h 16m 1s", "loss_scale": 1.0, "consumed_samples": 2824448, "global_step/max_steps": "11033/12700"}
{"lm loss": 2.03790569, "grad_norm": 0.31452313, "learning_rate": 7.49e-06, "elapsed_time_per_iteration": 4.84010601, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 20s", "remaining_time": "2h 15m 56s", "loss_scale": 1.0, "consumed_samples": 2824704, "global_step/max_steps": "11034/12700"}
{"lm loss": 2.0571897, "grad_norm": 0.3129783, "learning_rate": 7.49e-06, "elapsed_time_per_iteration": 4.83931112, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 25s", "remaining_time": "2h 15m 51s", "loss_scale": 1.0, "consumed_samples": 2824960, "global_step/max_steps": "11035/12700"}
{"lm loss": 2.02454495, "grad_norm": 0.33523235, "learning_rate": 7.48e-06, "elapsed_time_per_iteration": 4.82672739, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 30s", "remaining_time": "2h 15m 46s", "loss_scale": 1.0, "consumed_samples": 2825216, "global_step/max_steps": "11036/12700"}
{"lm loss": 2.03971839, "grad_norm": 0.3346737, "learning_rate": 7.48e-06, "elapsed_time_per_iteration": 4.98022461, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 34s", "remaining_time": "2h 15m 41s", "loss_scale": 1.0, "consumed_samples": 2825472, "global_step/max_steps": "11037/12700"}
{"lm loss": 2.04834151, "grad_norm": 0.35181868, "learning_rate": 7.47e-06, "elapsed_time_per_iteration": 4.90034795, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 39s", "remaining_time": "2h 15m 36s", "loss_scale": 1.0, "consumed_samples": 2825728, "global_step/max_steps": "11038/12700"}
{"lm loss": 2.04990816, "grad_norm": 0.32117948, "learning_rate": 7.47e-06, "elapsed_time_per_iteration": 4.81830549, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 44s", "remaining_time": "2h 15m 31s", "loss_scale": 1.0, "consumed_samples": 2825984, "global_step/max_steps": "11039/12700"}
{"lm loss": 2.05995417, "grad_norm": 0.30440745, "learning_rate": 7.46e-06, "elapsed_time_per_iteration": 4.844414, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 49s", "remaining_time": "2h 15m 27s", "loss_scale": 1.0, "consumed_samples": 2826240, "global_step/max_steps": "11040/12700"}
{"lm loss": 2.06520891, "grad_norm": 0.32812491, "learning_rate": 7.46e-06, "elapsed_time_per_iteration": 4.87522554, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 54s", "remaining_time": "2h 15m 22s", "loss_scale": 1.0, "consumed_samples": 2826496, "global_step/max_steps": "11041/12700"}
{"lm loss": 2.04798532, "grad_norm": 0.31444341, "learning_rate": 7.45e-06, "elapsed_time_per_iteration": 4.94001603, "memory(GiB)": 28.98, "elapsed_time": "15h 0m 59s", "remaining_time": "2h 15m 17s", "loss_scale": 1.0, "consumed_samples": 2826752, "global_step/max_steps": "11042/12700"}
{"lm loss": 2.05573988, "grad_norm": 0.30758202, "learning_rate": 7.44e-06, "elapsed_time_per_iteration": 4.89600205, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 4s", "remaining_time": "2h 15m 12s", "loss_scale": 1.0, "consumed_samples": 2827008, "global_step/max_steps": "11043/12700"}
{"lm loss": 2.05461884, "grad_norm": 0.33313382, "learning_rate": 7.44e-06, "elapsed_time_per_iteration": 4.90405774, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 9s", "remaining_time": "2h 15m 7s", "loss_scale": 1.0, "consumed_samples": 2827264, "global_step/max_steps": "11044/12700"}
{"lm loss": 2.06364536, "grad_norm": 0.34342393, "learning_rate": 7.43e-06, "elapsed_time_per_iteration": 4.8914113, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 14s", "remaining_time": "2h 15m 2s", "loss_scale": 1.0, "consumed_samples": 2827520, "global_step/max_steps": "11045/12700"}
{"lm loss": 2.06286073, "grad_norm": 0.32161945, "learning_rate": 7.43e-06, "elapsed_time_per_iteration": 4.84185004, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 18s", "remaining_time": "2h 14m 57s", "loss_scale": 1.0, "consumed_samples": 2827776, "global_step/max_steps": "11046/12700"}
{"lm loss": 2.05105042, "grad_norm": 0.30331808, "learning_rate": 7.42e-06, "elapsed_time_per_iteration": 4.85986137, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 23s", "remaining_time": "2h 14m 52s", "loss_scale": 1.0, "consumed_samples": 2828032, "global_step/max_steps": "11047/12700"}
{"lm loss": 2.03386593, "grad_norm": 0.31966427, "learning_rate": 7.42e-06, "elapsed_time_per_iteration": 4.86650968, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 28s", "remaining_time": "2h 14m 47s", "loss_scale": 1.0, "consumed_samples": 2828288, "global_step/max_steps": "11048/12700"}
{"lm loss": 2.06544733, "grad_norm": 0.31627509, "learning_rate": 7.41e-06, "elapsed_time_per_iteration": 4.97706938, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 33s", "remaining_time": "2h 14m 42s", "loss_scale": 1.0, "consumed_samples": 2828544, "global_step/max_steps": "11049/12700"}
{"lm loss": 2.04740262, "grad_norm": 0.31680873, "learning_rate": 7.41e-06, "elapsed_time_per_iteration": 4.90438557, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 38s", "remaining_time": "2h 14m 38s", "loss_scale": 1.0, "consumed_samples": 2828800, "global_step/max_steps": "11050/12700"}
{"lm loss": 2.02215219, "grad_norm": 0.32064673, "learning_rate": 7.4e-06, "elapsed_time_per_iteration": 4.94274163, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 43s", "remaining_time": "2h 14m 33s", "loss_scale": 1.0, "consumed_samples": 2829056, "global_step/max_steps": "11051/12700"}
{"lm loss": 2.03046465, "grad_norm": 0.31721285, "learning_rate": 7.4e-06, "elapsed_time_per_iteration": 4.8979156, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 48s", "remaining_time": "2h 14m 28s", "loss_scale": 1.0, "consumed_samples": 2829312, "global_step/max_steps": "11052/12700"}
{"lm loss": 2.03615999, "grad_norm": 0.31452614, "learning_rate": 7.39e-06, "elapsed_time_per_iteration": 4.91335797, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 53s", "remaining_time": "2h 14m 23s", "loss_scale": 1.0, "consumed_samples": 2829568, "global_step/max_steps": "11053/12700"}
{"lm loss": 2.06465364, "grad_norm": 0.31568748, "learning_rate": 7.39e-06, "elapsed_time_per_iteration": 4.93549252, "memory(GiB)": 28.98, "elapsed_time": "15h 1m 58s", "remaining_time": "2h 14m 18s", "loss_scale": 1.0, "consumed_samples": 2829824, "global_step/max_steps": "11054/12700"}
{"lm loss": 2.03424573, "grad_norm": 0.31018743, "learning_rate": 7.38e-06, "elapsed_time_per_iteration": 4.93910074, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 3s", "remaining_time": "2h 14m 13s", "loss_scale": 1.0, "consumed_samples": 2830080, "global_step/max_steps": "11055/12700"}
{"lm loss": 2.08115363, "grad_norm": 0.32069978, "learning_rate": 7.38e-06, "elapsed_time_per_iteration": 4.93627906, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 8s", "remaining_time": "2h 14m 8s", "loss_scale": 1.0, "consumed_samples": 2830336, "global_step/max_steps": "11056/12700"}
{"lm loss": 2.02982712, "grad_norm": 0.32656184, "learning_rate": 7.37e-06, "elapsed_time_per_iteration": 4.93144226, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 13s", "remaining_time": "2h 14m 3s", "loss_scale": 1.0, "consumed_samples": 2830592, "global_step/max_steps": "11057/12700"}
{"lm loss": 2.03955388, "grad_norm": 0.32758802, "learning_rate": 7.37e-06, "elapsed_time_per_iteration": 4.83979368, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 17s", "remaining_time": "2h 13m 58s", "loss_scale": 1.0, "consumed_samples": 2830848, "global_step/max_steps": "11058/12700"}
{"lm loss": 2.05226684, "grad_norm": 0.32345474, "learning_rate": 7.36e-06, "elapsed_time_per_iteration": 4.87362599, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 22s", "remaining_time": "2h 13m 54s", "loss_scale": 1.0, "consumed_samples": 2831104, "global_step/max_steps": "11059/12700"}
{"lm loss": 2.05504966, "grad_norm": 0.30892327, "learning_rate": 7.36e-06, "elapsed_time_per_iteration": 4.85381508, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 27s", "remaining_time": "2h 13m 49s", "loss_scale": 1.0, "consumed_samples": 2831360, "global_step/max_steps": "11060/12700"}
{"lm loss": 2.02400804, "grad_norm": 0.30895776, "learning_rate": 7.35e-06, "elapsed_time_per_iteration": 4.90074205, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 32s", "remaining_time": "2h 13m 44s", "loss_scale": 1.0, "consumed_samples": 2831616, "global_step/max_steps": "11061/12700"}
{"lm loss": 2.07859254, "grad_norm": 0.3196215, "learning_rate": 7.35e-06, "elapsed_time_per_iteration": 4.95175576, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 37s", "remaining_time": "2h 13m 39s", "loss_scale": 1.0, "consumed_samples": 2831872, "global_step/max_steps": "11062/12700"}
{"lm loss": 2.037714, "grad_norm": 0.32469946, "learning_rate": 7.34e-06, "elapsed_time_per_iteration": 4.85268378, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 42s", "remaining_time": "2h 13m 34s", "loss_scale": 1.0, "consumed_samples": 2832128, "global_step/max_steps": "11063/12700"}
{"lm loss": 2.07258201, "grad_norm": 0.34178969, "learning_rate": 7.33e-06, "elapsed_time_per_iteration": 4.84160924, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 47s", "remaining_time": "2h 13m 29s", "loss_scale": 1.0, "consumed_samples": 2832384, "global_step/max_steps": "11064/12700"}
{"lm loss": 2.05518842, "grad_norm": 0.32166106, "learning_rate": 7.33e-06, "elapsed_time_per_iteration": 4.73225594, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 51s", "remaining_time": "2h 13m 24s", "loss_scale": 1.0, "consumed_samples": 2832640, "global_step/max_steps": "11065/12700"}
{"lm loss": 2.0344789, "grad_norm": 0.30953214, "learning_rate": 7.32e-06, "elapsed_time_per_iteration": 4.86770105, "memory(GiB)": 28.98, "elapsed_time": "15h 2m 56s", "remaining_time": "2h 13m 19s", "loss_scale": 1.0, "consumed_samples": 2832896, "global_step/max_steps": "11066/12700"}
{"lm loss": 2.04506612, "grad_norm": 0.34826544, "learning_rate": 7.32e-06, "elapsed_time_per_iteration": 4.88541079, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 1s", "remaining_time": "2h 13m 14s", "loss_scale": 1.0, "consumed_samples": 2833152, "global_step/max_steps": "11067/12700"}
{"lm loss": 2.04654098, "grad_norm": 0.30926746, "learning_rate": 7.31e-06, "elapsed_time_per_iteration": 4.84618998, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 6s", "remaining_time": "2h 13m 9s", "loss_scale": 1.0, "consumed_samples": 2833408, "global_step/max_steps": "11068/12700"}
{"lm loss": 2.06883574, "grad_norm": 0.324388, "learning_rate": 7.31e-06, "elapsed_time_per_iteration": 4.85023856, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 11s", "remaining_time": "2h 13m 5s", "loss_scale": 1.0, "consumed_samples": 2833664, "global_step/max_steps": "11069/12700"}
{"lm loss": 2.01051474, "grad_norm": 0.3320787, "learning_rate": 7.3e-06, "elapsed_time_per_iteration": 4.98313546, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 16s", "remaining_time": "2h 13m 0s", "loss_scale": 1.0, "consumed_samples": 2833920, "global_step/max_steps": "11070/12700"}
{"lm loss": 2.03664422, "grad_norm": 0.32496566, "learning_rate": 7.3e-06, "elapsed_time_per_iteration": 4.93002582, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 21s", "remaining_time": "2h 12m 55s", "loss_scale": 1.0, "consumed_samples": 2834176, "global_step/max_steps": "11071/12700"}
{"lm loss": 2.05440474, "grad_norm": 0.33414322, "learning_rate": 7.29e-06, "elapsed_time_per_iteration": 4.94366407, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 26s", "remaining_time": "2h 12m 50s", "loss_scale": 1.0, "consumed_samples": 2834432, "global_step/max_steps": "11072/12700"}
{"lm loss": 2.04281044, "grad_norm": 0.31220475, "learning_rate": 7.29e-06, "elapsed_time_per_iteration": 4.91473413, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 31s", "remaining_time": "2h 12m 45s", "loss_scale": 1.0, "consumed_samples": 2834688, "global_step/max_steps": "11073/12700"}
{"lm loss": 2.06941533, "grad_norm": 0.31324726, "learning_rate": 7.28e-06, "elapsed_time_per_iteration": 4.7992599, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 35s", "remaining_time": "2h 12m 40s", "loss_scale": 1.0, "consumed_samples": 2834944, "global_step/max_steps": "11074/12700"}
{"lm loss": 2.03668666, "grad_norm": 0.31067511, "learning_rate": 7.28e-06, "elapsed_time_per_iteration": 4.87787795, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 40s", "remaining_time": "2h 12m 35s", "loss_scale": 1.0, "consumed_samples": 2835200, "global_step/max_steps": "11075/12700"}
{"lm loss": 2.06350088, "grad_norm": 0.31748196, "learning_rate": 7.27e-06, "elapsed_time_per_iteration": 4.8350873, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 45s", "remaining_time": "2h 12m 30s", "loss_scale": 1.0, "consumed_samples": 2835456, "global_step/max_steps": "11076/12700"}
{"lm loss": 2.04096508, "grad_norm": 0.35207671, "learning_rate": 7.27e-06, "elapsed_time_per_iteration": 4.85994387, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 50s", "remaining_time": "2h 12m 25s", "loss_scale": 1.0, "consumed_samples": 2835712, "global_step/max_steps": "11077/12700"}
{"lm loss": 2.04881358, "grad_norm": 0.3199361, "learning_rate": 7.26e-06, "elapsed_time_per_iteration": 4.89387441, "memory(GiB)": 28.98, "elapsed_time": "15h 3m 55s", "remaining_time": "2h 12m 20s", "loss_scale": 1.0, "consumed_samples": 2835968, "global_step/max_steps": "11078/12700"}
{"lm loss": 2.03802323, "grad_norm": 0.30227348, "learning_rate": 7.26e-06, "elapsed_time_per_iteration": 4.81236887, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 0s", "remaining_time": "2h 12m 16s", "loss_scale": 1.0, "consumed_samples": 2836224, "global_step/max_steps": "11079/12700"}
{"lm loss": 2.0735085, "grad_norm": 0.32884499, "learning_rate": 7.25e-06, "elapsed_time_per_iteration": 4.94612741, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 5s", "remaining_time": "2h 12m 11s", "loss_scale": 1.0, "consumed_samples": 2836480, "global_step/max_steps": "11080/12700"}
{"lm loss": 2.05969334, "grad_norm": 0.33919159, "learning_rate": 7.25e-06, "elapsed_time_per_iteration": 4.97341251, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 10s", "remaining_time": "2h 12m 6s", "loss_scale": 1.0, "consumed_samples": 2836736, "global_step/max_steps": "11081/12700"}
{"lm loss": 2.00431967, "grad_norm": 0.31114835, "learning_rate": 7.24e-06, "elapsed_time_per_iteration": 4.8610394, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 14s", "remaining_time": "2h 12m 1s", "loss_scale": 1.0, "consumed_samples": 2836992, "global_step/max_steps": "11082/12700"}
{"lm loss": 2.04022956, "grad_norm": 0.30488464, "learning_rate": 7.24e-06, "elapsed_time_per_iteration": 4.92984247, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 19s", "remaining_time": "2h 11m 56s", "loss_scale": 1.0, "consumed_samples": 2837248, "global_step/max_steps": "11083/12700"}
{"lm loss": 2.06076717, "grad_norm": 0.32129407, "learning_rate": 7.23e-06, "elapsed_time_per_iteration": 4.89025092, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 24s", "remaining_time": "2h 11m 51s", "loss_scale": 1.0, "consumed_samples": 2837504, "global_step/max_steps": "11084/12700"}
{"lm loss": 2.03524756, "grad_norm": 0.311748, "learning_rate": 7.23e-06, "elapsed_time_per_iteration": 4.88999343, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 29s", "remaining_time": "2h 11m 46s", "loss_scale": 1.0, "consumed_samples": 2837760, "global_step/max_steps": "11085/12700"}
{"lm loss": 2.06784916, "grad_norm": 0.30459067, "learning_rate": 7.22e-06, "elapsed_time_per_iteration": 4.96237254, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 34s", "remaining_time": "2h 11m 41s", "loss_scale": 1.0, "consumed_samples": 2838016, "global_step/max_steps": "11086/12700"}
{"lm loss": 2.0350461, "grad_norm": 0.32111529, "learning_rate": 7.22e-06, "elapsed_time_per_iteration": 4.85798144, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 39s", "remaining_time": "2h 11m 36s", "loss_scale": 1.0, "consumed_samples": 2838272, "global_step/max_steps": "11087/12700"}
{"lm loss": 2.02929258, "grad_norm": 0.31107238, "learning_rate": 7.21e-06, "elapsed_time_per_iteration": 4.90825343, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 44s", "remaining_time": "2h 11m 31s", "loss_scale": 1.0, "consumed_samples": 2838528, "global_step/max_steps": "11088/12700"}
{"lm loss": 2.06980658, "grad_norm": 0.32485804, "learning_rate": 7.21e-06, "elapsed_time_per_iteration": 4.90957975, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 49s", "remaining_time": "2h 11m 27s", "loss_scale": 1.0, "consumed_samples": 2838784, "global_step/max_steps": "11089/12700"}
{"lm loss": 2.03583717, "grad_norm": 0.31041083, "learning_rate": 7.2e-06, "elapsed_time_per_iteration": 5.00279236, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 54s", "remaining_time": "2h 11m 22s", "loss_scale": 1.0, "consumed_samples": 2839040, "global_step/max_steps": "11090/12700"}
{"lm loss": 2.03569198, "grad_norm": 0.35485312, "learning_rate": 7.19e-06, "elapsed_time_per_iteration": 5.05807543, "memory(GiB)": 28.98, "elapsed_time": "15h 4m 59s", "remaining_time": "2h 11m 17s", "loss_scale": 1.0, "consumed_samples": 2839296, "global_step/max_steps": "11091/12700"}
{"lm loss": 2.06240296, "grad_norm": 0.33596477, "learning_rate": 7.19e-06, "elapsed_time_per_iteration": 4.85728645, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 4s", "remaining_time": "2h 11m 12s", "loss_scale": 1.0, "consumed_samples": 2839552, "global_step/max_steps": "11092/12700"}
{"lm loss": 2.07360387, "grad_norm": 0.33075702, "learning_rate": 7.18e-06, "elapsed_time_per_iteration": 4.77821565, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 8s", "remaining_time": "2h 11m 7s", "loss_scale": 1.0, "consumed_samples": 2839808, "global_step/max_steps": "11093/12700"}
{"lm loss": 2.06642056, "grad_norm": 0.33627981, "learning_rate": 7.18e-06, "elapsed_time_per_iteration": 4.84802413, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 13s", "remaining_time": "2h 11m 2s", "loss_scale": 1.0, "consumed_samples": 2840064, "global_step/max_steps": "11094/12700"}
{"lm loss": 2.03425455, "grad_norm": 0.30429548, "learning_rate": 7.17e-06, "elapsed_time_per_iteration": 4.86328959, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 18s", "remaining_time": "2h 10m 57s", "loss_scale": 1.0, "consumed_samples": 2840320, "global_step/max_steps": "11095/12700"}
{"lm loss": 2.0332427, "grad_norm": 0.32942268, "learning_rate": 7.17e-06, "elapsed_time_per_iteration": 4.90761089, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 23s", "remaining_time": "2h 10m 52s", "loss_scale": 1.0, "consumed_samples": 2840576, "global_step/max_steps": "11096/12700"}
{"lm loss": 2.04446673, "grad_norm": 0.31523815, "learning_rate": 7.16e-06, "elapsed_time_per_iteration": 4.90333414, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 28s", "remaining_time": "2h 10m 47s", "loss_scale": 1.0, "consumed_samples": 2840832, "global_step/max_steps": "11097/12700"}
{"lm loss": 2.06197309, "grad_norm": 0.34728029, "learning_rate": 7.16e-06, "elapsed_time_per_iteration": 4.87247705, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 33s", "remaining_time": "2h 10m 43s", "loss_scale": 1.0, "consumed_samples": 2841088, "global_step/max_steps": "11098/12700"}
{"lm loss": 2.036268, "grad_norm": 0.30772474, "learning_rate": 7.15e-06, "elapsed_time_per_iteration": 5.01204729, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 38s", "remaining_time": "2h 10m 38s", "loss_scale": 1.0, "consumed_samples": 2841344, "global_step/max_steps": "11099/12700"}
{"lm loss": 2.01487589, "grad_norm": 0.32590809, "learning_rate": 7.15e-06, "elapsed_time_per_iteration": 4.97580862, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 43s", "remaining_time": "2h 10m 33s", "loss_scale": 1.0, "consumed_samples": 2841600, "global_step/max_steps": "11100/12700"}
{"lm loss": 2.04598284, "grad_norm": 0.31452012, "learning_rate": 7.14e-06, "elapsed_time_per_iteration": 4.91593957, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 48s", "remaining_time": "2h 10m 28s", "loss_scale": 1.0, "consumed_samples": 2841856, "global_step/max_steps": "11101/12700"}
{"lm loss": 2.0626204, "grad_norm": 0.31681716, "learning_rate": 7.14e-06, "elapsed_time_per_iteration": 4.87475944, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 53s", "remaining_time": "2h 10m 23s", "loss_scale": 1.0, "consumed_samples": 2842112, "global_step/max_steps": "11102/12700"}
{"lm loss": 2.03169632, "grad_norm": 0.30732203, "learning_rate": 7.13e-06, "elapsed_time_per_iteration": 4.84774852, "memory(GiB)": 28.98, "elapsed_time": "15h 5m 57s", "remaining_time": "2h 10m 18s", "loss_scale": 1.0, "consumed_samples": 2842368, "global_step/max_steps": "11103/12700"}
{"lm loss": 2.07826471, "grad_norm": 0.31293136, "learning_rate": 7.13e-06, "elapsed_time_per_iteration": 4.95177484, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 2s", "remaining_time": "2h 10m 13s", "loss_scale": 1.0, "consumed_samples": 2842624, "global_step/max_steps": "11104/12700"}
{"lm loss": 2.04182291, "grad_norm": 0.32979849, "learning_rate": 7.12e-06, "elapsed_time_per_iteration": 4.94673514, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 7s", "remaining_time": "2h 10m 8s", "loss_scale": 1.0, "consumed_samples": 2842880, "global_step/max_steps": "11105/12700"}
{"lm loss": 2.04271269, "grad_norm": 0.3253428, "learning_rate": 7.12e-06, "elapsed_time_per_iteration": 4.94092846, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 12s", "remaining_time": "2h 10m 3s", "loss_scale": 1.0, "consumed_samples": 2843136, "global_step/max_steps": "11106/12700"}
{"lm loss": 2.04878783, "grad_norm": 0.32907072, "learning_rate": 7.11e-06, "elapsed_time_per_iteration": 4.85922861, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 17s", "remaining_time": "2h 9m 59s", "loss_scale": 1.0, "consumed_samples": 2843392, "global_step/max_steps": "11107/12700"}
{"lm loss": 2.06723976, "grad_norm": 0.31820235, "learning_rate": 7.11e-06, "elapsed_time_per_iteration": 4.82997179, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 22s", "remaining_time": "2h 9m 54s", "loss_scale": 1.0, "consumed_samples": 2843648, "global_step/max_steps": "11108/12700"}
{"lm loss": 2.08097076, "grad_norm": 0.33507299, "learning_rate": 7.1e-06, "elapsed_time_per_iteration": 4.88879561, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 27s", "remaining_time": "2h 9m 49s", "loss_scale": 1.0, "consumed_samples": 2843904, "global_step/max_steps": "11109/12700"}
{"lm loss": 2.06413388, "grad_norm": 0.30846027, "learning_rate": 7.1e-06, "elapsed_time_per_iteration": 5.05796385, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 32s", "remaining_time": "2h 9m 44s", "loss_scale": 1.0, "consumed_samples": 2844160, "global_step/max_steps": "11110/12700"}
{"lm loss": 2.08616352, "grad_norm": 0.31775406, "learning_rate": 7.09e-06, "elapsed_time_per_iteration": 4.7813189, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 37s", "remaining_time": "2h 9m 39s", "loss_scale": 1.0, "consumed_samples": 2844416, "global_step/max_steps": "11111/12700"}
{"lm loss": 2.03871965, "grad_norm": 0.31573576, "learning_rate": 7.09e-06, "elapsed_time_per_iteration": 4.82783771, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 42s", "remaining_time": "2h 9m 34s", "loss_scale": 1.0, "consumed_samples": 2844672, "global_step/max_steps": "11112/12700"}
{"lm loss": 2.06787086, "grad_norm": 0.30739385, "learning_rate": 7.08e-06, "elapsed_time_per_iteration": 4.89367962, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 46s", "remaining_time": "2h 9m 29s", "loss_scale": 1.0, "consumed_samples": 2844928, "global_step/max_steps": "11113/12700"}
{"lm loss": 2.03708506, "grad_norm": 0.30852813, "learning_rate": 7.08e-06, "elapsed_time_per_iteration": 4.89029193, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 51s", "remaining_time": "2h 9m 24s", "loss_scale": 1.0, "consumed_samples": 2845184, "global_step/max_steps": "11114/12700"}
{"lm loss": 2.01840782, "grad_norm": 0.31083119, "learning_rate": 7.07e-06, "elapsed_time_per_iteration": 4.93241215, "memory(GiB)": 28.98, "elapsed_time": "15h 6m 56s", "remaining_time": "2h 9m 19s", "loss_scale": 1.0, "consumed_samples": 2845440, "global_step/max_steps": "11115/12700"}
{"lm loss": 2.07586312, "grad_norm": 0.30553299, "learning_rate": 7.07e-06, "elapsed_time_per_iteration": 4.94325566, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 1s", "remaining_time": "2h 9m 14s", "loss_scale": 1.0, "consumed_samples": 2845696, "global_step/max_steps": "11116/12700"}
{"lm loss": 2.04908609, "grad_norm": 0.31165263, "learning_rate": 7.06e-06, "elapsed_time_per_iteration": 4.85435224, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 6s", "remaining_time": "2h 9m 10s", "loss_scale": 1.0, "consumed_samples": 2845952, "global_step/max_steps": "11117/12700"}
{"lm loss": 2.07326221, "grad_norm": 0.311497, "learning_rate": 7.06e-06, "elapsed_time_per_iteration": 4.9033401, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 11s", "remaining_time": "2h 9m 5s", "loss_scale": 1.0, "consumed_samples": 2846208, "global_step/max_steps": "11118/12700"}
{"lm loss": 2.07063627, "grad_norm": 0.29775727, "learning_rate": 7.05e-06, "elapsed_time_per_iteration": 4.92414641, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 16s", "remaining_time": "2h 9m 0s", "loss_scale": 1.0, "consumed_samples": 2846464, "global_step/max_steps": "11119/12700"}
{"lm loss": 2.04032207, "grad_norm": 0.30958563, "learning_rate": 7.05e-06, "elapsed_time_per_iteration": 4.97647762, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 21s", "remaining_time": "2h 8m 55s", "loss_scale": 1.0, "consumed_samples": 2846720, "global_step/max_steps": "11120/12700"}
{"lm loss": 2.10235238, "grad_norm": 0.34479731, "learning_rate": 7.04e-06, "elapsed_time_per_iteration": 4.95796442, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 26s", "remaining_time": "2h 8m 50s", "loss_scale": 1.0, "consumed_samples": 2846976, "global_step/max_steps": "11121/12700"}
{"lm loss": 2.04047656, "grad_norm": 0.31367177, "learning_rate": 7.04e-06, "elapsed_time_per_iteration": 4.96302152, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 31s", "remaining_time": "2h 8m 45s", "loss_scale": 1.0, "consumed_samples": 2847232, "global_step/max_steps": "11122/12700"}
{"lm loss": 2.0443213, "grad_norm": 0.31754994, "learning_rate": 7.03e-06, "elapsed_time_per_iteration": 4.90820169, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 36s", "remaining_time": "2h 8m 40s", "loss_scale": 1.0, "consumed_samples": 2847488, "global_step/max_steps": "11123/12700"}
{"lm loss": 2.06514168, "grad_norm": 0.30337322, "learning_rate": 7.03e-06, "elapsed_time_per_iteration": 4.83930302, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 41s", "remaining_time": "2h 8m 35s", "loss_scale": 1.0, "consumed_samples": 2847744, "global_step/max_steps": "11124/12700"}
{"lm loss": 2.03159595, "grad_norm": 0.30424812, "learning_rate": 7.02e-06, "elapsed_time_per_iteration": 4.86382747, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 45s", "remaining_time": "2h 8m 30s", "loss_scale": 1.0, "consumed_samples": 2848000, "global_step/max_steps": "11125/12700"}
{"lm loss": 2.07034206, "grad_norm": 0.30707985, "learning_rate": 7.02e-06, "elapsed_time_per_iteration": 4.79591656, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 50s", "remaining_time": "2h 8m 25s", "loss_scale": 1.0, "consumed_samples": 2848256, "global_step/max_steps": "11126/12700"}
{"lm loss": 2.01941681, "grad_norm": 0.30634171, "learning_rate": 7.01e-06, "elapsed_time_per_iteration": 4.87513876, "memory(GiB)": 28.98, "elapsed_time": "15h 7m 55s", "remaining_time": "2h 8m 21s", "loss_scale": 1.0, "consumed_samples": 2848512, "global_step/max_steps": "11127/12700"}
{"lm loss": 2.04266644, "grad_norm": 0.33678657, "learning_rate": 7.01e-06, "elapsed_time_per_iteration": 4.92769814, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 0s", "remaining_time": "2h 8m 16s", "loss_scale": 1.0, "consumed_samples": 2848768, "global_step/max_steps": "11128/12700"}
{"lm loss": 2.05536175, "grad_norm": 0.31858039, "learning_rate": 7e-06, "elapsed_time_per_iteration": 5.06892824, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 5s", "remaining_time": "2h 8m 11s", "loss_scale": 1.0, "consumed_samples": 2849024, "global_step/max_steps": "11129/12700"}
{"lm loss": 2.05290699, "grad_norm": 0.30241296, "learning_rate": 7e-06, "elapsed_time_per_iteration": 4.87763047, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 10s", "remaining_time": "2h 8m 6s", "loss_scale": 1.0, "consumed_samples": 2849280, "global_step/max_steps": "11130/12700"}
{"lm loss": 2.01950073, "grad_norm": 0.32089248, "learning_rate": 6.99e-06, "elapsed_time_per_iteration": 4.79102397, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 15s", "remaining_time": "2h 8m 1s", "loss_scale": 1.0, "consumed_samples": 2849536, "global_step/max_steps": "11131/12700"}
{"lm loss": 2.0623467, "grad_norm": 0.31953606, "learning_rate": 6.99e-06, "elapsed_time_per_iteration": 4.87963629, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 20s", "remaining_time": "2h 7m 56s", "loss_scale": 1.0, "consumed_samples": 2849792, "global_step/max_steps": "11132/12700"}
{"lm loss": 2.0575974, "grad_norm": 0.30724239, "learning_rate": 6.98e-06, "elapsed_time_per_iteration": 4.88232589, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 25s", "remaining_time": "2h 7m 51s", "loss_scale": 1.0, "consumed_samples": 2850048, "global_step/max_steps": "11133/12700"}
{"lm loss": 2.07824135, "grad_norm": 0.34448338, "learning_rate": 6.98e-06, "elapsed_time_per_iteration": 4.9032743, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 29s", "remaining_time": "2h 7m 46s", "loss_scale": 1.0, "consumed_samples": 2850304, "global_step/max_steps": "11134/12700"}
{"lm loss": 2.07083917, "grad_norm": 0.31946462, "learning_rate": 6.97e-06, "elapsed_time_per_iteration": 4.92703462, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 34s", "remaining_time": "2h 7m 41s", "loss_scale": 1.0, "consumed_samples": 2850560, "global_step/max_steps": "11135/12700"}
{"lm loss": 2.02131152, "grad_norm": 0.29848641, "learning_rate": 6.97e-06, "elapsed_time_per_iteration": 4.9050591, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 39s", "remaining_time": "2h 7m 37s", "loss_scale": 1.0, "consumed_samples": 2850816, "global_step/max_steps": "11136/12700"}
{"lm loss": 2.07802081, "grad_norm": 0.30616316, "learning_rate": 6.96e-06, "elapsed_time_per_iteration": 4.84633255, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 44s", "remaining_time": "2h 7m 32s", "loss_scale": 1.0, "consumed_samples": 2851072, "global_step/max_steps": "11137/12700"}
{"lm loss": 2.05459023, "grad_norm": 0.31599456, "learning_rate": 6.96e-06, "elapsed_time_per_iteration": 4.90868878, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 49s", "remaining_time": "2h 7m 27s", "loss_scale": 1.0, "consumed_samples": 2851328, "global_step/max_steps": "11138/12700"}
{"lm loss": 2.06126666, "grad_norm": 0.3334313, "learning_rate": 6.95e-06, "elapsed_time_per_iteration": 4.91636133, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 54s", "remaining_time": "2h 7m 22s", "loss_scale": 1.0, "consumed_samples": 2851584, "global_step/max_steps": "11139/12700"}
{"lm loss": 2.02887464, "grad_norm": 0.31988123, "learning_rate": 6.95e-06, "elapsed_time_per_iteration": 4.95758104, "memory(GiB)": 28.98, "elapsed_time": "15h 8m 59s", "remaining_time": "2h 7m 17s", "loss_scale": 1.0, "consumed_samples": 2851840, "global_step/max_steps": "11140/12700"}
{"lm loss": 2.03312063, "grad_norm": 0.31077322, "learning_rate": 6.94e-06, "elapsed_time_per_iteration": 4.89211702, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 4s", "remaining_time": "2h 7m 12s", "loss_scale": 1.0, "consumed_samples": 2852096, "global_step/max_steps": "11141/12700"}
{"lm loss": 2.05487537, "grad_norm": 0.30943763, "learning_rate": 6.94e-06, "elapsed_time_per_iteration": 4.82396603, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 9s", "remaining_time": "2h 7m 7s", "loss_scale": 1.0, "consumed_samples": 2852352, "global_step/max_steps": "11142/12700"}
{"lm loss": 2.05744791, "grad_norm": 0.31388021, "learning_rate": 6.93e-06, "elapsed_time_per_iteration": 4.89555836, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 14s", "remaining_time": "2h 7m 2s", "loss_scale": 1.0, "consumed_samples": 2852608, "global_step/max_steps": "11143/12700"}
{"lm loss": 2.02159905, "grad_norm": 0.32857201, "learning_rate": 6.93e-06, "elapsed_time_per_iteration": 4.82087207, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 18s", "remaining_time": "2h 6m 57s", "loss_scale": 1.0, "consumed_samples": 2852864, "global_step/max_steps": "11144/12700"}
{"lm loss": 2.04842043, "grad_norm": 0.32819584, "learning_rate": 6.92e-06, "elapsed_time_per_iteration": 4.93448305, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 23s", "remaining_time": "2h 6m 52s", "loss_scale": 1.0, "consumed_samples": 2853120, "global_step/max_steps": "11145/12700"}
{"lm loss": 2.05537581, "grad_norm": 0.32355857, "learning_rate": 6.92e-06, "elapsed_time_per_iteration": 5.02958822, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 28s", "remaining_time": "2h 6m 48s", "loss_scale": 1.0, "consumed_samples": 2853376, "global_step/max_steps": "11146/12700"}
{"lm loss": 2.06502652, "grad_norm": 0.3283287, "learning_rate": 6.91e-06, "elapsed_time_per_iteration": 4.88691354, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 33s", "remaining_time": "2h 6m 43s", "loss_scale": 1.0, "consumed_samples": 2853632, "global_step/max_steps": "11147/12700"}
{"lm loss": 2.06015062, "grad_norm": 0.30922791, "learning_rate": 6.91e-06, "elapsed_time_per_iteration": 4.88925743, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 38s", "remaining_time": "2h 6m 38s", "loss_scale": 1.0, "consumed_samples": 2853888, "global_step/max_steps": "11148/12700"}
{"lm loss": 2.06450224, "grad_norm": 0.31681362, "learning_rate": 6.9e-06, "elapsed_time_per_iteration": 4.92968678, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 43s", "remaining_time": "2h 6m 33s", "loss_scale": 1.0, "consumed_samples": 2854144, "global_step/max_steps": "11149/12700"}
{"lm loss": 2.00998449, "grad_norm": 0.31751657, "learning_rate": 6.9e-06, "elapsed_time_per_iteration": 5.01873159, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 48s", "remaining_time": "2h 6m 28s", "loss_scale": 1.0, "consumed_samples": 2854400, "global_step/max_steps": "11150/12700"}
{"lm loss": 2.06872106, "grad_norm": 0.34708631, "learning_rate": 6.89e-06, "elapsed_time_per_iteration": 4.79724097, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 53s", "remaining_time": "2h 6m 23s", "loss_scale": 1.0, "consumed_samples": 2854656, "global_step/max_steps": "11151/12700"}
{"lm loss": 2.06482816, "grad_norm": 0.32560259, "learning_rate": 6.89e-06, "elapsed_time_per_iteration": 4.78100252, "memory(GiB)": 28.98, "elapsed_time": "15h 9m 58s", "remaining_time": "2h 6m 18s", "loss_scale": 1.0, "consumed_samples": 2854912, "global_step/max_steps": "11152/12700"}
{"lm loss": 2.0889523, "grad_norm": 0.32612243, "learning_rate": 6.88e-06, "elapsed_time_per_iteration": 4.88235855, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 2s", "remaining_time": "2h 6m 13s", "loss_scale": 1.0, "consumed_samples": 2855168, "global_step/max_steps": "11153/12700"}
{"lm loss": 2.04842377, "grad_norm": 0.33330628, "learning_rate": 6.88e-06, "elapsed_time_per_iteration": 4.88669086, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 7s", "remaining_time": "2h 6m 8s", "loss_scale": 1.0, "consumed_samples": 2855424, "global_step/max_steps": "11154/12700"}
{"lm loss": 2.05426931, "grad_norm": 0.32554707, "learning_rate": 6.87e-06, "elapsed_time_per_iteration": 4.87662172, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 12s", "remaining_time": "2h 6m 4s", "loss_scale": 1.0, "consumed_samples": 2855680, "global_step/max_steps": "11155/12700"}
{"lm loss": 2.03771877, "grad_norm": 0.33595264, "learning_rate": 6.87e-06, "elapsed_time_per_iteration": 4.79070854, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 17s", "remaining_time": "2h 5m 59s", "loss_scale": 1.0, "consumed_samples": 2855936, "global_step/max_steps": "11156/12700"}
{"lm loss": 2.01692247, "grad_norm": 0.30902869, "learning_rate": 6.86e-06, "elapsed_time_per_iteration": 4.99261975, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 22s", "remaining_time": "2h 5m 54s", "loss_scale": 1.0, "consumed_samples": 2856192, "global_step/max_steps": "11157/12700"}
{"lm loss": 2.08994794, "grad_norm": 0.31711444, "learning_rate": 6.86e-06, "elapsed_time_per_iteration": 4.94711852, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 27s", "remaining_time": "2h 5m 49s", "loss_scale": 1.0, "consumed_samples": 2856448, "global_step/max_steps": "11158/12700"}
{"lm loss": 2.05162692, "grad_norm": 0.31775188, "learning_rate": 6.85e-06, "elapsed_time_per_iteration": 4.8749125, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 32s", "remaining_time": "2h 5m 44s", "loss_scale": 1.0, "consumed_samples": 2856704, "global_step/max_steps": "11159/12700"}
{"lm loss": 2.00992441, "grad_norm": 0.3055115, "learning_rate": 6.85e-06, "elapsed_time_per_iteration": 4.8692162, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 37s", "remaining_time": "2h 5m 39s", "loss_scale": 1.0, "consumed_samples": 2856960, "global_step/max_steps": "11160/12700"}
{"lm loss": 2.05730033, "grad_norm": 0.33266982, "learning_rate": 6.84e-06, "elapsed_time_per_iteration": 4.89558768, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 42s", "remaining_time": "2h 5m 34s", "loss_scale": 1.0, "consumed_samples": 2857216, "global_step/max_steps": "11161/12700"}
{"lm loss": 2.03959703, "grad_norm": 0.32115558, "learning_rate": 6.84e-06, "elapsed_time_per_iteration": 4.94751191, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 47s", "remaining_time": "2h 5m 29s", "loss_scale": 1.0, "consumed_samples": 2857472, "global_step/max_steps": "11162/12700"}
{"lm loss": 2.07702279, "grad_norm": 0.3087388, "learning_rate": 6.83e-06, "elapsed_time_per_iteration": 4.90279889, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 51s", "remaining_time": "2h 5m 24s", "loss_scale": 1.0, "consumed_samples": 2857728, "global_step/max_steps": "11163/12700"}
{"lm loss": 2.03910828, "grad_norm": 0.31867996, "learning_rate": 6.83e-06, "elapsed_time_per_iteration": 4.87087178, "memory(GiB)": 28.98, "elapsed_time": "15h 10m 56s", "remaining_time": "2h 5m 19s", "loss_scale": 1.0, "consumed_samples": 2857984, "global_step/max_steps": "11164/12700"}
{"lm loss": 2.05353761, "grad_norm": 0.32367441, "learning_rate": 6.82e-06, "elapsed_time_per_iteration": 4.90547752, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 1s", "remaining_time": "2h 5m 15s", "loss_scale": 1.0, "consumed_samples": 2858240, "global_step/max_steps": "11165/12700"}
{"lm loss": 2.04068422, "grad_norm": 0.34321773, "learning_rate": 6.82e-06, "elapsed_time_per_iteration": 4.83889627, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 6s", "remaining_time": "2h 5m 10s", "loss_scale": 1.0, "consumed_samples": 2858496, "global_step/max_steps": "11166/12700"}
{"lm loss": 2.04686928, "grad_norm": 0.32251701, "learning_rate": 6.81e-06, "elapsed_time_per_iteration": 4.86091995, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 11s", "remaining_time": "2h 5m 5s", "loss_scale": 1.0, "consumed_samples": 2858752, "global_step/max_steps": "11167/12700"}
{"lm loss": 2.02356839, "grad_norm": 0.32304218, "learning_rate": 6.81e-06, "elapsed_time_per_iteration": 5.05289984, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 16s", "remaining_time": "2h 5m 0s", "loss_scale": 1.0, "consumed_samples": 2859008, "global_step/max_steps": "11168/12700"}
{"lm loss": 2.02560735, "grad_norm": 0.30082422, "learning_rate": 6.8e-06, "elapsed_time_per_iteration": 4.90159345, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 21s", "remaining_time": "2h 4m 55s", "loss_scale": 1.0, "consumed_samples": 2859264, "global_step/max_steps": "11169/12700"}
{"lm loss": 2.04845428, "grad_norm": 0.31103861, "learning_rate": 6.8e-06, "elapsed_time_per_iteration": 4.89334178, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 26s", "remaining_time": "2h 4m 50s", "loss_scale": 1.0, "consumed_samples": 2859520, "global_step/max_steps": "11170/12700"}
{"lm loss": 2.07186604, "grad_norm": 0.31571791, "learning_rate": 6.79e-06, "elapsed_time_per_iteration": 4.83529353, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 31s", "remaining_time": "2h 4m 45s", "loss_scale": 1.0, "consumed_samples": 2859776, "global_step/max_steps": "11171/12700"}
{"lm loss": 2.06671381, "grad_norm": 0.31512579, "learning_rate": 6.79e-06, "elapsed_time_per_iteration": 4.79652333, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 35s", "remaining_time": "2h 4m 40s", "loss_scale": 1.0, "consumed_samples": 2860032, "global_step/max_steps": "11172/12700"}
{"lm loss": 2.03040171, "grad_norm": 0.32310483, "learning_rate": 6.78e-06, "elapsed_time_per_iteration": 4.82918119, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 40s", "remaining_time": "2h 4m 35s", "loss_scale": 1.0, "consumed_samples": 2860288, "global_step/max_steps": "11173/12700"}
{"lm loss": 2.02084827, "grad_norm": 0.31705126, "learning_rate": 6.78e-06, "elapsed_time_per_iteration": 4.90574026, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 45s", "remaining_time": "2h 4m 30s", "loss_scale": 1.0, "consumed_samples": 2860544, "global_step/max_steps": "11174/12700"}
{"lm loss": 2.05073428, "grad_norm": 0.32453611, "learning_rate": 6.77e-06, "elapsed_time_per_iteration": 4.91028595, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 50s", "remaining_time": "2h 4m 26s", "loss_scale": 1.0, "consumed_samples": 2860800, "global_step/max_steps": "11175/12700"}
{"lm loss": 2.11199737, "grad_norm": 0.3152037, "learning_rate": 6.77e-06, "elapsed_time_per_iteration": 4.96544456, "memory(GiB)": 28.98, "elapsed_time": "15h 11m 55s", "remaining_time": "2h 4m 21s", "loss_scale": 1.0, "consumed_samples": 2861056, "global_step/max_steps": "11176/12700"}
{"lm loss": 2.02401638, "grad_norm": 0.31697336, "learning_rate": 6.76e-06, "elapsed_time_per_iteration": 4.92332745, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 0s", "remaining_time": "2h 4m 16s", "loss_scale": 1.0, "consumed_samples": 2861312, "global_step/max_steps": "11177/12700"}
{"lm loss": 2.06910086, "grad_norm": 0.3152194, "learning_rate": 6.76e-06, "elapsed_time_per_iteration": 4.97134113, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 5s", "remaining_time": "2h 4m 11s", "loss_scale": 1.0, "consumed_samples": 2861568, "global_step/max_steps": "11178/12700"}
{"lm loss": 2.06373596, "grad_norm": 0.33185655, "learning_rate": 6.75e-06, "elapsed_time_per_iteration": 4.99607253, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 10s", "remaining_time": "2h 4m 6s", "loss_scale": 1.0, "consumed_samples": 2861824, "global_step/max_steps": "11179/12700"}
{"lm loss": 2.05739498, "grad_norm": 0.31061378, "learning_rate": 6.75e-06, "elapsed_time_per_iteration": 4.90552711, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 15s", "remaining_time": "2h 4m 1s", "loss_scale": 1.0, "consumed_samples": 2862080, "global_step/max_steps": "11180/12700"}
{"lm loss": 2.03045583, "grad_norm": 0.31180266, "learning_rate": 6.74e-06, "elapsed_time_per_iteration": 4.93357778, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 20s", "remaining_time": "2h 3m 56s", "loss_scale": 1.0, "consumed_samples": 2862336, "global_step/max_steps": "11181/12700"}
{"lm loss": 2.06697917, "grad_norm": 0.32694435, "learning_rate": 6.74e-06, "elapsed_time_per_iteration": 4.8507688, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 25s", "remaining_time": "2h 3m 51s", "loss_scale": 1.0, "consumed_samples": 2862592, "global_step/max_steps": "11182/12700"}
{"lm loss": 2.0878005, "grad_norm": 0.31856468, "learning_rate": 6.73e-06, "elapsed_time_per_iteration": 4.80094099, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 29s", "remaining_time": "2h 3m 46s", "loss_scale": 1.0, "consumed_samples": 2862848, "global_step/max_steps": "11183/12700"}
{"lm loss": 2.03166223, "grad_norm": 0.31377044, "learning_rate": 6.73e-06, "elapsed_time_per_iteration": 4.93363404, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 34s", "remaining_time": "2h 3m 42s", "loss_scale": 1.0, "consumed_samples": 2863104, "global_step/max_steps": "11184/12700"}
{"lm loss": 2.03779149, "grad_norm": 0.31398511, "learning_rate": 6.73e-06, "elapsed_time_per_iteration": 4.83241868, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 39s", "remaining_time": "2h 3m 37s", "loss_scale": 1.0, "consumed_samples": 2863360, "global_step/max_steps": "11185/12700"}
{"lm loss": 2.05826235, "grad_norm": 0.31864417, "learning_rate": 6.72e-06, "elapsed_time_per_iteration": 4.77279806, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 44s", "remaining_time": "2h 3m 32s", "loss_scale": 1.0, "consumed_samples": 2863616, "global_step/max_steps": "11186/12700"}
{"lm loss": 2.06475163, "grad_norm": 0.31038818, "learning_rate": 6.72e-06, "elapsed_time_per_iteration": 4.85656261, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 49s", "remaining_time": "2h 3m 27s", "loss_scale": 1.0, "consumed_samples": 2863872, "global_step/max_steps": "11187/12700"}
{"lm loss": 2.06925011, "grad_norm": 0.30783072, "learning_rate": 6.71e-06, "elapsed_time_per_iteration": 4.9717288, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 54s", "remaining_time": "2h 3m 22s", "loss_scale": 1.0, "consumed_samples": 2864128, "global_step/max_steps": "11188/12700"}
{"lm loss": 2.07499695, "grad_norm": 0.31505781, "learning_rate": 6.71e-06, "elapsed_time_per_iteration": 4.80170798, "memory(GiB)": 28.98, "elapsed_time": "15h 12m 59s", "remaining_time": "2h 3m 17s", "loss_scale": 1.0, "consumed_samples": 2864384, "global_step/max_steps": "11189/12700"}
{"lm loss": 2.03263116, "grad_norm": 0.3303901, "learning_rate": 6.7e-06, "elapsed_time_per_iteration": 4.8287828, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 3s", "remaining_time": "2h 3m 12s", "loss_scale": 1.0, "consumed_samples": 2864640, "global_step/max_steps": "11190/12700"}
{"lm loss": 2.0469265, "grad_norm": 0.3113375, "learning_rate": 6.7e-06, "elapsed_time_per_iteration": 4.87869501, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 8s", "remaining_time": "2h 3m 7s", "loss_scale": 1.0, "consumed_samples": 2864896, "global_step/max_steps": "11191/12700"}
{"lm loss": 2.0497725, "grad_norm": 0.30540776, "learning_rate": 6.69e-06, "elapsed_time_per_iteration": 4.80681348, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 13s", "remaining_time": "2h 3m 2s", "loss_scale": 1.0, "consumed_samples": 2865152, "global_step/max_steps": "11192/12700"}
{"lm loss": 2.03173923, "grad_norm": 0.32524613, "learning_rate": 6.69e-06, "elapsed_time_per_iteration": 4.94279623, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 18s", "remaining_time": "2h 2m 57s", "loss_scale": 1.0, "consumed_samples": 2865408, "global_step/max_steps": "11193/12700"}
{"lm loss": 2.05781412, "grad_norm": 0.31144488, "learning_rate": 6.68e-06, "elapsed_time_per_iteration": 4.85537505, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 23s", "remaining_time": "2h 2m 53s", "loss_scale": 1.0, "consumed_samples": 2865664, "global_step/max_steps": "11194/12700"}
{"lm loss": 2.02358961, "grad_norm": 0.32148325, "learning_rate": 6.68e-06, "elapsed_time_per_iteration": 4.86899233, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 28s", "remaining_time": "2h 2m 48s", "loss_scale": 1.0, "consumed_samples": 2865920, "global_step/max_steps": "11195/12700"}
{"lm loss": 2.0429976, "grad_norm": 0.32112256, "learning_rate": 6.67e-06, "elapsed_time_per_iteration": 4.90838337, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 33s", "remaining_time": "2h 2m 43s", "loss_scale": 1.0, "consumed_samples": 2866176, "global_step/max_steps": "11196/12700"}
{"lm loss": 2.05014706, "grad_norm": 0.29982159, "learning_rate": 6.67e-06, "elapsed_time_per_iteration": 4.87985778, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 38s", "remaining_time": "2h 2m 38s", "loss_scale": 1.0, "consumed_samples": 2866432, "global_step/max_steps": "11197/12700"}
{"lm loss": 2.07301164, "grad_norm": 0.31945217, "learning_rate": 6.66e-06, "elapsed_time_per_iteration": 4.92731166, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 42s", "remaining_time": "2h 2m 33s", "loss_scale": 1.0, "consumed_samples": 2866688, "global_step/max_steps": "11198/12700"}
{"lm loss": 2.06888294, "grad_norm": 0.33741644, "learning_rate": 6.66e-06, "elapsed_time_per_iteration": 4.88249898, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 47s", "remaining_time": "2h 2m 28s", "loss_scale": 1.0, "consumed_samples": 2866944, "global_step/max_steps": "11199/12700"}
{"lm loss": 2.03363085, "grad_norm": 0.31512684, "learning_rate": 6.65e-06, "elapsed_time_per_iteration": 4.98885274, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 52s", "remaining_time": "2h 2m 23s", "loss_scale": 1.0, "consumed_samples": 2867200, "global_step/max_steps": "11200/12700"}
{"lm loss": 2.05180788, "grad_norm": 0.31285667, "learning_rate": 6.65e-06, "elapsed_time_per_iteration": 4.85039973, "memory(GiB)": 28.98, "elapsed_time": "15h 13m 57s", "remaining_time": "2h 2m 18s", "loss_scale": 1.0, "consumed_samples": 2867456, "global_step/max_steps": "11201/12700"}
{"lm loss": 2.04708242, "grad_norm": 0.31862539, "learning_rate": 6.64e-06, "elapsed_time_per_iteration": 4.85218453, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 2s", "remaining_time": "2h 2m 13s", "loss_scale": 1.0, "consumed_samples": 2867712, "global_step/max_steps": "11202/12700"}
{"lm loss": 2.05681849, "grad_norm": 0.31399208, "learning_rate": 6.64e-06, "elapsed_time_per_iteration": 4.84313726, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 7s", "remaining_time": "2h 2m 8s", "loss_scale": 1.0, "consumed_samples": 2867968, "global_step/max_steps": "11203/12700"}
{"lm loss": 2.06876063, "grad_norm": 0.32739428, "learning_rate": 6.63e-06, "elapsed_time_per_iteration": 4.84690642, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 12s", "remaining_time": "2h 2m 4s", "loss_scale": 1.0, "consumed_samples": 2868224, "global_step/max_steps": "11204/12700"}
{"lm loss": 2.04935622, "grad_norm": 0.31158689, "learning_rate": 6.63e-06, "elapsed_time_per_iteration": 5.00062895, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 17s", "remaining_time": "2h 1m 59s", "loss_scale": 1.0, "consumed_samples": 2868480, "global_step/max_steps": "11205/12700"}
{"lm loss": 2.0521915, "grad_norm": 0.30598611, "learning_rate": 6.62e-06, "elapsed_time_per_iteration": 4.9189291, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 22s", "remaining_time": "2h 1m 54s", "loss_scale": 1.0, "consumed_samples": 2868736, "global_step/max_steps": "11206/12700"}
{"lm loss": 2.0536716, "grad_norm": 0.3063651, "learning_rate": 6.62e-06, "elapsed_time_per_iteration": 5.0687294, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 27s", "remaining_time": "2h 1m 49s", "loss_scale": 1.0, "consumed_samples": 2868992, "global_step/max_steps": "11207/12700"}
{"lm loss": 2.05131936, "grad_norm": 0.32156605, "learning_rate": 6.61e-06, "elapsed_time_per_iteration": 4.93624926, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 32s", "remaining_time": "2h 1m 44s", "loss_scale": 1.0, "consumed_samples": 2869248, "global_step/max_steps": "11208/12700"}
{"lm loss": 2.03718829, "grad_norm": 0.31976712, "learning_rate": 6.61e-06, "elapsed_time_per_iteration": 4.81545568, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 36s", "remaining_time": "2h 1m 39s", "loss_scale": 1.0, "consumed_samples": 2869504, "global_step/max_steps": "11209/12700"}
{"lm loss": 2.06160998, "grad_norm": 0.31934708, "learning_rate": 6.6e-06, "elapsed_time_per_iteration": 4.88619828, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 41s", "remaining_time": "2h 1m 34s", "loss_scale": 1.0, "consumed_samples": 2869760, "global_step/max_steps": "11210/12700"}
{"lm loss": 2.03672647, "grad_norm": 0.34657523, "learning_rate": 6.6e-06, "elapsed_time_per_iteration": 4.84899116, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 46s", "remaining_time": "2h 1m 29s", "loss_scale": 1.0, "consumed_samples": 2870016, "global_step/max_steps": "11211/12700"}
{"lm loss": 2.06423974, "grad_norm": 0.31852445, "learning_rate": 6.6e-06, "elapsed_time_per_iteration": 4.78787231, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 51s", "remaining_time": "2h 1m 24s", "loss_scale": 1.0, "consumed_samples": 2870272, "global_step/max_steps": "11212/12700"}
{"lm loss": 2.05297518, "grad_norm": 0.30975401, "learning_rate": 6.59e-06, "elapsed_time_per_iteration": 4.94390488, "memory(GiB)": 28.98, "elapsed_time": "15h 14m 56s", "remaining_time": "2h 1m 20s", "loss_scale": 1.0, "consumed_samples": 2870528, "global_step/max_steps": "11213/12700"}
{"lm loss": 2.07080841, "grad_norm": 0.30401427, "learning_rate": 6.59e-06, "elapsed_time_per_iteration": 4.99470663, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 1s", "remaining_time": "2h 1m 15s", "loss_scale": 1.0, "consumed_samples": 2870784, "global_step/max_steps": "11214/12700"}
{"lm loss": 2.06940055, "grad_norm": 0.32644126, "learning_rate": 6.58e-06, "elapsed_time_per_iteration": 4.98801303, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 6s", "remaining_time": "2h 1m 10s", "loss_scale": 1.0, "consumed_samples": 2871040, "global_step/max_steps": "11215/12700"}
{"lm loss": 2.02744555, "grad_norm": 0.3120214, "learning_rate": 6.58e-06, "elapsed_time_per_iteration": 4.96497679, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 11s", "remaining_time": "2h 1m 5s", "loss_scale": 1.0, "consumed_samples": 2871296, "global_step/max_steps": "11216/12700"}
{"lm loss": 2.04624581, "grad_norm": 0.3096604, "learning_rate": 6.57e-06, "elapsed_time_per_iteration": 4.9559145, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 16s", "remaining_time": "2h 1m 0s", "loss_scale": 1.0, "consumed_samples": 2871552, "global_step/max_steps": "11217/12700"}
{"lm loss": 2.06776357, "grad_norm": 0.29936048, "learning_rate": 6.57e-06, "elapsed_time_per_iteration": 4.8799417, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 21s", "remaining_time": "2h 0m 55s", "loss_scale": 1.0, "consumed_samples": 2871808, "global_step/max_steps": "11218/12700"}
{"lm loss": 2.0565362, "grad_norm": 0.33776024, "learning_rate": 6.56e-06, "elapsed_time_per_iteration": 4.93652177, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 26s", "remaining_time": "2h 0m 50s", "loss_scale": 1.0, "consumed_samples": 2872064, "global_step/max_steps": "11219/12700"}
{"lm loss": 2.03812957, "grad_norm": 0.31463253, "learning_rate": 6.56e-06, "elapsed_time_per_iteration": 4.87727308, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 31s", "remaining_time": "2h 0m 45s", "loss_scale": 1.0, "consumed_samples": 2872320, "global_step/max_steps": "11220/12700"}
{"lm loss": 2.04672837, "grad_norm": 0.32973522, "learning_rate": 6.55e-06, "elapsed_time_per_iteration": 4.8071301, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 35s", "remaining_time": "2h 0m 40s", "loss_scale": 1.0, "consumed_samples": 2872576, "global_step/max_steps": "11221/12700"}
{"lm loss": 2.03911996, "grad_norm": 0.30472681, "learning_rate": 6.55e-06, "elapsed_time_per_iteration": 4.82981825, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 40s", "remaining_time": "2h 0m 35s", "loss_scale": 1.0, "consumed_samples": 2872832, "global_step/max_steps": "11222/12700"}
{"lm loss": 2.06670713, "grad_norm": 0.31519532, "learning_rate": 6.54e-06, "elapsed_time_per_iteration": 4.8435514, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 45s", "remaining_time": "2h 0m 31s", "loss_scale": 1.0, "consumed_samples": 2873088, "global_step/max_steps": "11223/12700"}
{"lm loss": 2.06279349, "grad_norm": 0.31212655, "learning_rate": 6.54e-06, "elapsed_time_per_iteration": 4.84519792, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 50s", "remaining_time": "2h 0m 26s", "loss_scale": 1.0, "consumed_samples": 2873344, "global_step/max_steps": "11224/12700"}
{"lm loss": 2.03377509, "grad_norm": 0.32841262, "learning_rate": 6.53e-06, "elapsed_time_per_iteration": 4.98400426, "memory(GiB)": 28.98, "elapsed_time": "15h 15m 55s", "remaining_time": "2h 0m 21s", "loss_scale": 1.0, "consumed_samples": 2873600, "global_step/max_steps": "11225/12700"}
{"lm loss": 2.05267262, "grad_norm": 0.33675918, "learning_rate": 6.53e-06, "elapsed_time_per_iteration": 4.90913129, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 0s", "remaining_time": "2h 0m 16s", "loss_scale": 1.0, "consumed_samples": 2873856, "global_step/max_steps": "11226/12700"}
{"lm loss": 2.07553864, "grad_norm": 0.31192464, "learning_rate": 6.52e-06, "elapsed_time_per_iteration": 4.85272169, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 5s", "remaining_time": "2h 0m 11s", "loss_scale": 1.0, "consumed_samples": 2874112, "global_step/max_steps": "11227/12700"}
{"lm loss": 2.06433916, "grad_norm": 0.34086931, "learning_rate": 6.52e-06, "elapsed_time_per_iteration": 4.92996526, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 10s", "remaining_time": "2h 0m 6s", "loss_scale": 1.0, "consumed_samples": 2874368, "global_step/max_steps": "11228/12700"}
{"lm loss": 2.05476761, "grad_norm": 0.3315796, "learning_rate": 6.51e-06, "elapsed_time_per_iteration": 4.91916442, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 14s", "remaining_time": "2h 0m 1s", "loss_scale": 1.0, "consumed_samples": 2874624, "global_step/max_steps": "11229/12700"}
{"lm loss": 2.08193111, "grad_norm": 0.34357786, "learning_rate": 6.51e-06, "elapsed_time_per_iteration": 4.91743875, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 19s", "remaining_time": "1h 59m 56s", "loss_scale": 1.0, "consumed_samples": 2874880, "global_step/max_steps": "11230/12700"}
{"lm loss": 2.03635359, "grad_norm": 0.32940051, "learning_rate": 6.51e-06, "elapsed_time_per_iteration": 4.83314371, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 24s", "remaining_time": "1h 59m 51s", "loss_scale": 1.0, "consumed_samples": 2875136, "global_step/max_steps": "11231/12700"}
{"lm loss": 2.0742135, "grad_norm": 0.32045537, "learning_rate": 6.5e-06, "elapsed_time_per_iteration": 4.94941497, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 29s", "remaining_time": "1h 59m 47s", "loss_scale": 1.0, "consumed_samples": 2875392, "global_step/max_steps": "11232/12700"}
{"lm loss": 2.0584538, "grad_norm": 0.30928025, "learning_rate": 6.5e-06, "elapsed_time_per_iteration": 4.97358465, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 34s", "remaining_time": "1h 59m 42s", "loss_scale": 1.0, "consumed_samples": 2875648, "global_step/max_steps": "11233/12700"}
{"lm loss": 2.03774047, "grad_norm": 0.3402639, "learning_rate": 6.49e-06, "elapsed_time_per_iteration": 4.91389179, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 39s", "remaining_time": "1h 59m 37s", "loss_scale": 1.0, "consumed_samples": 2875904, "global_step/max_steps": "11234/12700"}
{"lm loss": 2.03219581, "grad_norm": 0.32255644, "learning_rate": 6.49e-06, "elapsed_time_per_iteration": 4.90941978, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 44s", "remaining_time": "1h 59m 32s", "loss_scale": 1.0, "consumed_samples": 2876160, "global_step/max_steps": "11235/12700"}
{"lm loss": 2.05643415, "grad_norm": 0.31629983, "learning_rate": 6.48e-06, "elapsed_time_per_iteration": 4.89940095, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 49s", "remaining_time": "1h 59m 27s", "loss_scale": 1.0, "consumed_samples": 2876416, "global_step/max_steps": "11236/12700"}
{"lm loss": 2.03817177, "grad_norm": 0.33192223, "learning_rate": 6.48e-06, "elapsed_time_per_iteration": 4.85565591, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 54s", "remaining_time": "1h 59m 22s", "loss_scale": 1.0, "consumed_samples": 2876672, "global_step/max_steps": "11237/12700"}
{"lm loss": 2.06952429, "grad_norm": 0.31281635, "learning_rate": 6.47e-06, "elapsed_time_per_iteration": 5.00232124, "memory(GiB)": 28.98, "elapsed_time": "15h 16m 59s", "remaining_time": "1h 59m 17s", "loss_scale": 1.0, "consumed_samples": 2876928, "global_step/max_steps": "11238/12700"}
{"lm loss": 2.06417322, "grad_norm": 0.32018822, "learning_rate": 6.47e-06, "elapsed_time_per_iteration": 4.89997888, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 4s", "remaining_time": "1h 59m 12s", "loss_scale": 1.0, "consumed_samples": 2877184, "global_step/max_steps": "11239/12700"}
{"lm loss": 2.01716113, "grad_norm": 0.31627515, "learning_rate": 6.46e-06, "elapsed_time_per_iteration": 4.85407233, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 8s", "remaining_time": "1h 59m 7s", "loss_scale": 1.0, "consumed_samples": 2877440, "global_step/max_steps": "11240/12700"}
{"lm loss": 2.03330326, "grad_norm": 0.31005257, "learning_rate": 6.46e-06, "elapsed_time_per_iteration": 4.79514194, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 13s", "remaining_time": "1h 59m 2s", "loss_scale": 1.0, "consumed_samples": 2877696, "global_step/max_steps": "11241/12700"}
{"lm loss": 2.05585217, "grad_norm": 0.34366241, "learning_rate": 6.45e-06, "elapsed_time_per_iteration": 4.89928126, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 18s", "remaining_time": "1h 58m 58s", "loss_scale": 1.0, "consumed_samples": 2877952, "global_step/max_steps": "11242/12700"}
{"lm loss": 2.05857325, "grad_norm": 0.30890408, "learning_rate": 6.45e-06, "elapsed_time_per_iteration": 4.85504436, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 23s", "remaining_time": "1h 58m 53s", "loss_scale": 1.0, "consumed_samples": 2878208, "global_step/max_steps": "11243/12700"}
{"lm loss": 2.07707, "grad_norm": 0.33189526, "learning_rate": 6.44e-06, "elapsed_time_per_iteration": 4.92367649, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 28s", "remaining_time": "1h 58m 48s", "loss_scale": 1.0, "consumed_samples": 2878464, "global_step/max_steps": "11244/12700"}
{"lm loss": 2.00763297, "grad_norm": 0.3388755, "learning_rate": 6.44e-06, "elapsed_time_per_iteration": 4.79045892, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 33s", "remaining_time": "1h 58m 43s", "loss_scale": 1.0, "consumed_samples": 2878720, "global_step/max_steps": "11245/12700"}
{"lm loss": 2.03260255, "grad_norm": 0.31747684, "learning_rate": 6.43e-06, "elapsed_time_per_iteration": 4.88582563, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 38s", "remaining_time": "1h 58m 38s", "loss_scale": 1.0, "consumed_samples": 2878976, "global_step/max_steps": "11246/12700"}
{"lm loss": 2.03993273, "grad_norm": 0.31566074, "learning_rate": 6.43e-06, "elapsed_time_per_iteration": 4.96450758, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 43s", "remaining_time": "1h 58m 33s", "loss_scale": 1.0, "consumed_samples": 2879232, "global_step/max_steps": "11247/12700"}
{"lm loss": 2.03556442, "grad_norm": 0.3207756, "learning_rate": 6.43e-06, "elapsed_time_per_iteration": 4.94245386, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 48s", "remaining_time": "1h 58m 28s", "loss_scale": 1.0, "consumed_samples": 2879488, "global_step/max_steps": "11248/12700"}
{"lm loss": 2.05370593, "grad_norm": 0.31795079, "learning_rate": 6.42e-06, "elapsed_time_per_iteration": 4.85542941, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 52s", "remaining_time": "1h 58m 23s", "loss_scale": 1.0, "consumed_samples": 2879744, "global_step/max_steps": "11249/12700"}
{"lm loss": 2.07249498, "grad_norm": 0.32068747, "learning_rate": 6.42e-06, "elapsed_time_per_iteration": 4.82768011, "memory(GiB)": 28.98, "elapsed_time": "15h 17m 57s", "remaining_time": "1h 58m 18s", "loss_scale": 1.0, "consumed_samples": 2880000, "global_step/max_steps": "11250/12700"}
{"lm loss": 2.04972124, "grad_norm": 0.31391558, "learning_rate": 6.41e-06, "elapsed_time_per_iteration": 4.87327123, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 2s", "remaining_time": "1h 58m 14s", "loss_scale": 1.0, "consumed_samples": 2880256, "global_step/max_steps": "11251/12700"}
{"lm loss": 2.04976654, "grad_norm": 0.31765467, "learning_rate": 6.41e-06, "elapsed_time_per_iteration": 4.7597754, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 7s", "remaining_time": "1h 58m 9s", "loss_scale": 1.0, "consumed_samples": 2880512, "global_step/max_steps": "11252/12700"}
{"lm loss": 2.07121587, "grad_norm": 0.31906056, "learning_rate": 6.4e-06, "elapsed_time_per_iteration": 4.89907742, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 12s", "remaining_time": "1h 58m 4s", "loss_scale": 1.0, "consumed_samples": 2880768, "global_step/max_steps": "11253/12700"}
{"lm loss": 2.07109165, "grad_norm": 0.32028255, "learning_rate": 6.4e-06, "elapsed_time_per_iteration": 4.79650903, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 17s", "remaining_time": "1h 57m 59s", "loss_scale": 1.0, "consumed_samples": 2881024, "global_step/max_steps": "11254/12700"}
{"lm loss": 2.02029371, "grad_norm": 0.3176766, "learning_rate": 6.39e-06, "elapsed_time_per_iteration": 4.8960948, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 21s", "remaining_time": "1h 57m 54s", "loss_scale": 1.0, "consumed_samples": 2881280, "global_step/max_steps": "11255/12700"}
{"lm loss": 2.02267504, "grad_norm": 0.31935847, "learning_rate": 6.39e-06, "elapsed_time_per_iteration": 4.84550762, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 26s", "remaining_time": "1h 57m 49s", "loss_scale": 1.0, "consumed_samples": 2881536, "global_step/max_steps": "11256/12700"}
{"lm loss": 2.0375948, "grad_norm": 0.31441233, "learning_rate": 6.38e-06, "elapsed_time_per_iteration": 4.94823098, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 31s", "remaining_time": "1h 57m 44s", "loss_scale": 1.0, "consumed_samples": 2881792, "global_step/max_steps": "11257/12700"}
{"lm loss": 2.03836203, "grad_norm": 0.30243629, "learning_rate": 6.38e-06, "elapsed_time_per_iteration": 4.83820772, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 36s", "remaining_time": "1h 57m 39s", "loss_scale": 1.0, "consumed_samples": 2882048, "global_step/max_steps": "11258/12700"}
{"lm loss": 2.03294373, "grad_norm": 0.30395287, "learning_rate": 6.37e-06, "elapsed_time_per_iteration": 4.82109141, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 41s", "remaining_time": "1h 57m 34s", "loss_scale": 1.0, "consumed_samples": 2882304, "global_step/max_steps": "11259/12700"}
{"lm loss": 2.01281714, "grad_norm": 0.32324228, "learning_rate": 6.37e-06, "elapsed_time_per_iteration": 4.81182933, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 46s", "remaining_time": "1h 57m 29s", "loss_scale": 1.0, "consumed_samples": 2882560, "global_step/max_steps": "11260/12700"}
{"lm loss": 2.0622201, "grad_norm": 0.3180092, "learning_rate": 6.37e-06, "elapsed_time_per_iteration": 4.95787549, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 51s", "remaining_time": "1h 57m 24s", "loss_scale": 1.0, "consumed_samples": 2882816, "global_step/max_steps": "11261/12700"}
{"lm loss": 2.04582, "grad_norm": 0.3235423, "learning_rate": 6.36e-06, "elapsed_time_per_iteration": 4.84401417, "memory(GiB)": 28.98, "elapsed_time": "15h 18m 56s", "remaining_time": "1h 57m 20s", "loss_scale": 1.0, "consumed_samples": 2883072, "global_step/max_steps": "11262/12700"}
{"lm loss": 2.05711699, "grad_norm": 0.30850893, "learning_rate": 6.36e-06, "elapsed_time_per_iteration": 4.77954412, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 0s", "remaining_time": "1h 57m 15s", "loss_scale": 1.0, "consumed_samples": 2883328, "global_step/max_steps": "11263/12700"}
{"lm loss": 2.02809286, "grad_norm": 0.32423753, "learning_rate": 6.35e-06, "elapsed_time_per_iteration": 4.88613415, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 5s", "remaining_time": "1h 57m 10s", "loss_scale": 1.0, "consumed_samples": 2883584, "global_step/max_steps": "11264/12700"}
{"lm loss": 2.06046247, "grad_norm": 0.31929177, "learning_rate": 6.35e-06, "elapsed_time_per_iteration": 4.87349772, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 10s", "remaining_time": "1h 57m 5s", "loss_scale": 1.0, "consumed_samples": 2883840, "global_step/max_steps": "11265/12700"}
{"lm loss": 2.02513337, "grad_norm": 0.31187335, "learning_rate": 6.34e-06, "elapsed_time_per_iteration": 4.94404316, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 15s", "remaining_time": "1h 57m 0s", "loss_scale": 1.0, "consumed_samples": 2884096, "global_step/max_steps": "11266/12700"}
{"lm loss": 2.05254626, "grad_norm": 0.31835037, "learning_rate": 6.34e-06, "elapsed_time_per_iteration": 4.84524131, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 20s", "remaining_time": "1h 56m 55s", "loss_scale": 1.0, "consumed_samples": 2884352, "global_step/max_steps": "11267/12700"}
{"lm loss": 2.09902883, "grad_norm": 0.31648681, "learning_rate": 6.33e-06, "elapsed_time_per_iteration": 4.84004855, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 25s", "remaining_time": "1h 56m 50s", "loss_scale": 1.0, "consumed_samples": 2884608, "global_step/max_steps": "11268/12700"}
{"lm loss": 2.04555464, "grad_norm": 0.31409886, "learning_rate": 6.33e-06, "elapsed_time_per_iteration": 4.85082507, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 30s", "remaining_time": "1h 56m 45s", "loss_scale": 1.0, "consumed_samples": 2884864, "global_step/max_steps": "11269/12700"}
{"lm loss": 2.05186987, "grad_norm": 0.30772161, "learning_rate": 6.32e-06, "elapsed_time_per_iteration": 5.01894498, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 35s", "remaining_time": "1h 56m 40s", "loss_scale": 1.0, "consumed_samples": 2885120, "global_step/max_steps": "11270/12700"}
{"lm loss": 2.02684999, "grad_norm": 0.30688506, "learning_rate": 6.32e-06, "elapsed_time_per_iteration": 4.83380914, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 39s", "remaining_time": "1h 56m 36s", "loss_scale": 1.0, "consumed_samples": 2885376, "global_step/max_steps": "11271/12700"}
{"lm loss": 2.05402994, "grad_norm": 0.32624605, "learning_rate": 6.31e-06, "elapsed_time_per_iteration": 4.84842896, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 44s", "remaining_time": "1h 56m 31s", "loss_scale": 1.0, "consumed_samples": 2885632, "global_step/max_steps": "11272/12700"}
{"lm loss": 2.03237605, "grad_norm": 0.31081209, "learning_rate": 6.31e-06, "elapsed_time_per_iteration": 4.93798661, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 49s", "remaining_time": "1h 56m 26s", "loss_scale": 1.0, "consumed_samples": 2885888, "global_step/max_steps": "11273/12700"}
{"lm loss": 2.07859111, "grad_norm": 0.30059737, "learning_rate": 6.31e-06, "elapsed_time_per_iteration": 4.86610222, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 54s", "remaining_time": "1h 56m 21s", "loss_scale": 1.0, "consumed_samples": 2886144, "global_step/max_steps": "11274/12700"}
{"lm loss": 2.03786778, "grad_norm": 0.31006172, "learning_rate": 6.3e-06, "elapsed_time_per_iteration": 4.92184067, "memory(GiB)": 28.98, "elapsed_time": "15h 19m 59s", "remaining_time": "1h 56m 16s", "loss_scale": 1.0, "consumed_samples": 2886400, "global_step/max_steps": "11275/12700"}
{"lm loss": 2.07391572, "grad_norm": 0.31029963, "learning_rate": 6.3e-06, "elapsed_time_per_iteration": 5.0093739, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 4s", "remaining_time": "1h 56m 11s", "loss_scale": 1.0, "consumed_samples": 2886656, "global_step/max_steps": "11276/12700"}
{"lm loss": 2.05590892, "grad_norm": 0.31182191, "learning_rate": 6.29e-06, "elapsed_time_per_iteration": 4.92973638, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 9s", "remaining_time": "1h 56m 6s", "loss_scale": 1.0, "consumed_samples": 2886912, "global_step/max_steps": "11277/12700"}
{"lm loss": 2.01371884, "grad_norm": 0.31945238, "learning_rate": 6.29e-06, "elapsed_time_per_iteration": 4.95378494, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 14s", "remaining_time": "1h 56m 1s", "loss_scale": 1.0, "consumed_samples": 2887168, "global_step/max_steps": "11278/12700"}
{"lm loss": 2.05827284, "grad_norm": 0.31859094, "learning_rate": 6.28e-06, "elapsed_time_per_iteration": 4.89532089, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 19s", "remaining_time": "1h 55m 56s", "loss_scale": 1.0, "consumed_samples": 2887424, "global_step/max_steps": "11279/12700"}
{"lm loss": 2.05817199, "grad_norm": 0.33705249, "learning_rate": 6.28e-06, "elapsed_time_per_iteration": 4.84341669, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 24s", "remaining_time": "1h 55m 51s", "loss_scale": 1.0, "consumed_samples": 2887680, "global_step/max_steps": "11280/12700"}
{"lm loss": 2.06456351, "grad_norm": 0.31203991, "learning_rate": 6.27e-06, "elapsed_time_per_iteration": 4.76198363, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 28s", "remaining_time": "1h 55m 47s", "loss_scale": 1.0, "consumed_samples": 2887936, "global_step/max_steps": "11281/12700"}
{"lm loss": 2.07169557, "grad_norm": 0.31877899, "learning_rate": 6.27e-06, "elapsed_time_per_iteration": 4.86142278, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 33s", "remaining_time": "1h 55m 42s", "loss_scale": 1.0, "consumed_samples": 2888192, "global_step/max_steps": "11282/12700"}
{"lm loss": 2.05038905, "grad_norm": 0.30945009, "learning_rate": 6.26e-06, "elapsed_time_per_iteration": 4.9346056, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 38s", "remaining_time": "1h 55m 37s", "loss_scale": 1.0, "consumed_samples": 2888448, "global_step/max_steps": "11283/12700"}
{"lm loss": 2.03112531, "grad_norm": 0.31460863, "learning_rate": 6.26e-06, "elapsed_time_per_iteration": 4.85483623, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 43s", "remaining_time": "1h 55m 32s", "loss_scale": 1.0, "consumed_samples": 2888704, "global_step/max_steps": "11284/12700"}
{"lm loss": 2.03497243, "grad_norm": 0.31106785, "learning_rate": 6.25e-06, "elapsed_time_per_iteration": 4.92505598, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 48s", "remaining_time": "1h 55m 27s", "loss_scale": 1.0, "consumed_samples": 2888960, "global_step/max_steps": "11285/12700"}
{"lm loss": 2.06338215, "grad_norm": 0.3097297, "learning_rate": 6.25e-06, "elapsed_time_per_iteration": 5.011796, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 53s", "remaining_time": "1h 55m 22s", "loss_scale": 1.0, "consumed_samples": 2889216, "global_step/max_steps": "11286/12700"}
{"lm loss": 2.06326866, "grad_norm": 0.31732634, "learning_rate": 6.25e-06, "elapsed_time_per_iteration": 4.94205594, "memory(GiB)": 28.98, "elapsed_time": "15h 20m 58s", "remaining_time": "1h 55m 17s", "loss_scale": 1.0, "consumed_samples": 2889472, "global_step/max_steps": "11287/12700"}
{"lm loss": 2.07731605, "grad_norm": 0.32332525, "learning_rate": 6.24e-06, "elapsed_time_per_iteration": 4.88707376, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 3s", "remaining_time": "1h 55m 12s", "loss_scale": 1.0, "consumed_samples": 2889728, "global_step/max_steps": "11288/12700"}
{"lm loss": 2.04789138, "grad_norm": 0.31824833, "learning_rate": 6.24e-06, "elapsed_time_per_iteration": 4.9911902, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 8s", "remaining_time": "1h 55m 7s", "loss_scale": 1.0, "consumed_samples": 2889984, "global_step/max_steps": "11289/12700"}
{"lm loss": 2.03715515, "grad_norm": 0.30903658, "learning_rate": 6.23e-06, "elapsed_time_per_iteration": 4.92343616, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 13s", "remaining_time": "1h 55m 3s", "loss_scale": 1.0, "consumed_samples": 2890240, "global_step/max_steps": "11290/12700"}
{"lm loss": 2.03330255, "grad_norm": 0.2973401, "learning_rate": 6.23e-06, "elapsed_time_per_iteration": 4.85118413, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 18s", "remaining_time": "1h 54m 58s", "loss_scale": 1.0, "consumed_samples": 2890496, "global_step/max_steps": "11291/12700"}
{"lm loss": 2.06889009, "grad_norm": 0.32013461, "learning_rate": 6.22e-06, "elapsed_time_per_iteration": 4.92964315, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 22s", "remaining_time": "1h 54m 53s", "loss_scale": 1.0, "consumed_samples": 2890752, "global_step/max_steps": "11292/12700"}
{"lm loss": 2.07325029, "grad_norm": 0.32394409, "learning_rate": 6.22e-06, "elapsed_time_per_iteration": 4.86399984, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 27s", "remaining_time": "1h 54m 48s", "loss_scale": 1.0, "consumed_samples": 2891008, "global_step/max_steps": "11293/12700"}
{"lm loss": 2.05252075, "grad_norm": 0.31408992, "learning_rate": 6.21e-06, "elapsed_time_per_iteration": 5.00258541, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 32s", "remaining_time": "1h 54m 43s", "loss_scale": 1.0, "consumed_samples": 2891264, "global_step/max_steps": "11294/12700"}
{"lm loss": 2.00849795, "grad_norm": 0.33073393, "learning_rate": 6.21e-06, "elapsed_time_per_iteration": 4.89690089, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 37s", "remaining_time": "1h 54m 38s", "loss_scale": 1.0, "consumed_samples": 2891520, "global_step/max_steps": "11295/12700"}
{"lm loss": 2.04595184, "grad_norm": 0.33807388, "learning_rate": 6.21e-06, "elapsed_time_per_iteration": 4.89685249, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 42s", "remaining_time": "1h 54m 33s", "loss_scale": 1.0, "consumed_samples": 2891776, "global_step/max_steps": "11296/12700"}
{"lm loss": 2.03362632, "grad_norm": 0.30423906, "learning_rate": 6.2e-06, "elapsed_time_per_iteration": 4.94440079, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 47s", "remaining_time": "1h 54m 28s", "loss_scale": 1.0, "consumed_samples": 2892032, "global_step/max_steps": "11297/12700"}
{"lm loss": 2.05026293, "grad_norm": 0.31100237, "learning_rate": 6.2e-06, "elapsed_time_per_iteration": 4.92448163, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 52s", "remaining_time": "1h 54m 23s", "loss_scale": 1.0, "consumed_samples": 2892288, "global_step/max_steps": "11298/12700"}
{"lm loss": 2.07090425, "grad_norm": 0.31879759, "learning_rate": 6.19e-06, "elapsed_time_per_iteration": 4.83366585, "memory(GiB)": 28.98, "elapsed_time": "15h 21m 57s", "remaining_time": "1h 54m 18s", "loss_scale": 1.0, "consumed_samples": 2892544, "global_step/max_steps": "11299/12700"}
{"lm loss": 2.03522897, "grad_norm": 0.32394046, "learning_rate": 6.19e-06, "elapsed_time_per_iteration": 4.91885805, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 2s", "remaining_time": "1h 54m 14s", "loss_scale": 1.0, "consumed_samples": 2892800, "global_step/max_steps": "11300/12700"}
{"lm loss": 2.02879357, "grad_norm": 0.30392876, "learning_rate": 6.18e-06, "elapsed_time_per_iteration": 4.94618392, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 7s", "remaining_time": "1h 54m 9s", "loss_scale": 1.0, "consumed_samples": 2893056, "global_step/max_steps": "11301/12700"}
{"lm loss": 2.02652955, "grad_norm": 0.30973852, "learning_rate": 6.18e-06, "elapsed_time_per_iteration": 4.8266933, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 12s", "remaining_time": "1h 54m 4s", "loss_scale": 1.0, "consumed_samples": 2893312, "global_step/max_steps": "11302/12700"}
{"lm loss": 2.07416677, "grad_norm": 0.31846473, "learning_rate": 6.17e-06, "elapsed_time_per_iteration": 4.9236083, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 16s", "remaining_time": "1h 53m 59s", "loss_scale": 1.0, "consumed_samples": 2893568, "global_step/max_steps": "11303/12700"}
{"lm loss": 2.04769731, "grad_norm": 0.32068208, "learning_rate": 6.17e-06, "elapsed_time_per_iteration": 4.98121977, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 21s", "remaining_time": "1h 53m 54s", "loss_scale": 1.0, "consumed_samples": 2893824, "global_step/max_steps": "11304/12700"}
{"lm loss": 2.02941036, "grad_norm": 0.31434011, "learning_rate": 6.16e-06, "elapsed_time_per_iteration": 4.83106112, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 26s", "remaining_time": "1h 53m 49s", "loss_scale": 1.0, "consumed_samples": 2894080, "global_step/max_steps": "11305/12700"}
{"lm loss": 2.04771996, "grad_norm": 0.31279719, "learning_rate": 6.16e-06, "elapsed_time_per_iteration": 4.91018558, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 31s", "remaining_time": "1h 53m 44s", "loss_scale": 1.0, "consumed_samples": 2894336, "global_step/max_steps": "11306/12700"}
{"lm loss": 2.06567049, "grad_norm": 0.31884307, "learning_rate": 6.16e-06, "elapsed_time_per_iteration": 5.60763836, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 37s", "remaining_time": "1h 53m 39s", "loss_scale": 1.0, "consumed_samples": 2894592, "global_step/max_steps": "11307/12700"}
{"lm loss": 2.07873178, "grad_norm": 0.32219517, "learning_rate": 6.15e-06, "elapsed_time_per_iteration": 4.86741662, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 42s", "remaining_time": "1h 53m 35s", "loss_scale": 1.0, "consumed_samples": 2894848, "global_step/max_steps": "11308/12700"}
{"lm loss": 2.07585597, "grad_norm": 0.31778532, "learning_rate": 6.15e-06, "elapsed_time_per_iteration": 6.47479033, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 48s", "remaining_time": "1h 53m 30s", "loss_scale": 1.0, "consumed_samples": 2895104, "global_step/max_steps": "11309/12700"}
{"lm loss": 2.04262304, "grad_norm": 0.31081179, "learning_rate": 6.14e-06, "elapsed_time_per_iteration": 4.85377359, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 53s", "remaining_time": "1h 53m 25s", "loss_scale": 1.0, "consumed_samples": 2895360, "global_step/max_steps": "11310/12700"}
{"lm loss": 2.05085301, "grad_norm": 0.31130028, "learning_rate": 6.14e-06, "elapsed_time_per_iteration": 4.88221836, "memory(GiB)": 28.98, "elapsed_time": "15h 22m 58s", "remaining_time": "1h 53m 20s", "loss_scale": 1.0, "consumed_samples": 2895616, "global_step/max_steps": "11311/12700"}
{"lm loss": 2.06026649, "grad_norm": 0.31989586, "learning_rate": 6.13e-06, "elapsed_time_per_iteration": 4.99410033, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 3s", "remaining_time": "1h 53m 15s", "loss_scale": 1.0, "consumed_samples": 2895872, "global_step/max_steps": "11312/12700"}
{"lm loss": 2.05658841, "grad_norm": 0.30299437, "learning_rate": 6.13e-06, "elapsed_time_per_iteration": 4.91028357, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 8s", "remaining_time": "1h 53m 10s", "loss_scale": 1.0, "consumed_samples": 2896128, "global_step/max_steps": "11313/12700"}
{"lm loss": 2.02778125, "grad_norm": 0.30841175, "learning_rate": 6.12e-06, "elapsed_time_per_iteration": 4.97074437, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 13s", "remaining_time": "1h 53m 5s", "loss_scale": 1.0, "consumed_samples": 2896384, "global_step/max_steps": "11314/12700"}
{"lm loss": 2.04592705, "grad_norm": 0.31487632, "learning_rate": 6.12e-06, "elapsed_time_per_iteration": 5.01745987, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 18s", "remaining_time": "1h 53m 0s", "loss_scale": 1.0, "consumed_samples": 2896640, "global_step/max_steps": "11315/12700"}
{"lm loss": 2.04807377, "grad_norm": 0.32271695, "learning_rate": 6.12e-06, "elapsed_time_per_iteration": 4.86449957, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 23s", "remaining_time": "1h 52m 56s", "loss_scale": 1.0, "consumed_samples": 2896896, "global_step/max_steps": "11316/12700"}
{"lm loss": 2.04116702, "grad_norm": 0.31093961, "learning_rate": 6.11e-06, "elapsed_time_per_iteration": 4.85682678, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 27s", "remaining_time": "1h 52m 51s", "loss_scale": 1.0, "consumed_samples": 2897152, "global_step/max_steps": "11317/12700"}
{"lm loss": 2.02071667, "grad_norm": 0.30736732, "learning_rate": 6.11e-06, "elapsed_time_per_iteration": 4.90159988, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 32s", "remaining_time": "1h 52m 46s", "loss_scale": 1.0, "consumed_samples": 2897408, "global_step/max_steps": "11318/12700"}
{"lm loss": 2.08460212, "grad_norm": 0.30993772, "learning_rate": 6.1e-06, "elapsed_time_per_iteration": 4.89701343, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 37s", "remaining_time": "1h 52m 41s", "loss_scale": 1.0, "consumed_samples": 2897664, "global_step/max_steps": "11319/12700"}
{"lm loss": 2.05055618, "grad_norm": 0.30765855, "learning_rate": 6.1e-06, "elapsed_time_per_iteration": 4.89840412, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 42s", "remaining_time": "1h 52m 36s", "loss_scale": 1.0, "consumed_samples": 2897920, "global_step/max_steps": "11320/12700"}
{"lm loss": 2.07038283, "grad_norm": 0.31101099, "learning_rate": 6.09e-06, "elapsed_time_per_iteration": 4.95184374, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 47s", "remaining_time": "1h 52m 31s", "loss_scale": 1.0, "consumed_samples": 2898176, "global_step/max_steps": "11321/12700"}
{"lm loss": 2.05549479, "grad_norm": 0.32570484, "learning_rate": 6.09e-06, "elapsed_time_per_iteration": 4.85845089, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 52s", "remaining_time": "1h 52m 26s", "loss_scale": 1.0, "consumed_samples": 2898432, "global_step/max_steps": "11322/12700"}
{"lm loss": 2.06920648, "grad_norm": 0.30221701, "learning_rate": 6.08e-06, "elapsed_time_per_iteration": 4.9234426, "memory(GiB)": 28.98, "elapsed_time": "15h 23m 57s", "remaining_time": "1h 52m 21s", "loss_scale": 1.0, "consumed_samples": 2898688, "global_step/max_steps": "11323/12700"}
{"lm loss": 2.03376603, "grad_norm": 0.34668666, "learning_rate": 6.08e-06, "elapsed_time_per_iteration": 4.87705278, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 2s", "remaining_time": "1h 52m 16s", "loss_scale": 1.0, "consumed_samples": 2898944, "global_step/max_steps": "11324/12700"}
{"lm loss": 2.06536317, "grad_norm": 0.33708295, "learning_rate": 6.08e-06, "elapsed_time_per_iteration": 4.92192221, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 7s", "remaining_time": "1h 52m 11s", "loss_scale": 1.0, "consumed_samples": 2899200, "global_step/max_steps": "11325/12700"}
{"lm loss": 2.04554272, "grad_norm": 0.30729395, "learning_rate": 6.07e-06, "elapsed_time_per_iteration": 4.91840267, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 12s", "remaining_time": "1h 52m 7s", "loss_scale": 1.0, "consumed_samples": 2899456, "global_step/max_steps": "11326/12700"}
{"lm loss": 2.08025169, "grad_norm": 0.31105292, "learning_rate": 6.07e-06, "elapsed_time_per_iteration": 4.90785837, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 17s", "remaining_time": "1h 52m 2s", "loss_scale": 1.0, "consumed_samples": 2899712, "global_step/max_steps": "11327/12700"}
{"lm loss": 2.05615425, "grad_norm": 0.32628205, "learning_rate": 6.06e-06, "elapsed_time_per_iteration": 4.84899139, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 21s", "remaining_time": "1h 51m 57s", "loss_scale": 1.0, "consumed_samples": 2899968, "global_step/max_steps": "11328/12700"}
{"lm loss": 2.05986476, "grad_norm": 0.31639045, "learning_rate": 6.06e-06, "elapsed_time_per_iteration": 4.78606057, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 26s", "remaining_time": "1h 51m 52s", "loss_scale": 1.0, "consumed_samples": 2900224, "global_step/max_steps": "11329/12700"}
{"lm loss": 2.05099463, "grad_norm": 0.319392, "learning_rate": 6.05e-06, "elapsed_time_per_iteration": 4.88390827, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 31s", "remaining_time": "1h 51m 47s", "loss_scale": 1.0, "consumed_samples": 2900480, "global_step/max_steps": "11330/12700"}
{"lm loss": 2.04926419, "grad_norm": 0.32457882, "learning_rate": 6.05e-06, "elapsed_time_per_iteration": 4.84964895, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 36s", "remaining_time": "1h 51m 42s", "loss_scale": 1.0, "consumed_samples": 2900736, "global_step/max_steps": "11331/12700"}
{"lm loss": 2.05879903, "grad_norm": 0.31014681, "learning_rate": 6.04e-06, "elapsed_time_per_iteration": 4.8117795, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 41s", "remaining_time": "1h 51m 37s", "loss_scale": 1.0, "consumed_samples": 2900992, "global_step/max_steps": "11332/12700"}
{"lm loss": 2.07310247, "grad_norm": 0.34602398, "learning_rate": 6.04e-06, "elapsed_time_per_iteration": 4.91287136, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 46s", "remaining_time": "1h 51m 32s", "loss_scale": 1.0, "consumed_samples": 2901248, "global_step/max_steps": "11333/12700"}
{"lm loss": 2.01389647, "grad_norm": 0.31633687, "learning_rate": 6.04e-06, "elapsed_time_per_iteration": 4.91550112, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 51s", "remaining_time": "1h 51m 27s", "loss_scale": 1.0, "consumed_samples": 2901504, "global_step/max_steps": "11334/12700"}
{"lm loss": 2.06716156, "grad_norm": 0.32198489, "learning_rate": 6.03e-06, "elapsed_time_per_iteration": 4.8478024, "memory(GiB)": 28.98, "elapsed_time": "15h 24m 55s", "remaining_time": "1h 51m 23s", "loss_scale": 1.0, "consumed_samples": 2901760, "global_step/max_steps": "11335/12700"}
{"lm loss": 2.03389764, "grad_norm": 0.31215432, "learning_rate": 6.03e-06, "elapsed_time_per_iteration": 4.95314527, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 0s", "remaining_time": "1h 51m 18s", "loss_scale": 1.0, "consumed_samples": 2902016, "global_step/max_steps": "11336/12700"}
{"lm loss": 2.05731606, "grad_norm": 0.29790327, "learning_rate": 6.02e-06, "elapsed_time_per_iteration": 4.86615276, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 5s", "remaining_time": "1h 51m 13s", "loss_scale": 1.0, "consumed_samples": 2902272, "global_step/max_steps": "11337/12700"}
{"lm loss": 2.03270411, "grad_norm": 0.317444, "learning_rate": 6.02e-06, "elapsed_time_per_iteration": 4.8027966, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 10s", "remaining_time": "1h 51m 8s", "loss_scale": 1.0, "consumed_samples": 2902528, "global_step/max_steps": "11338/12700"}
{"lm loss": 2.10555649, "grad_norm": 0.32907167, "learning_rate": 6.01e-06, "elapsed_time_per_iteration": 4.79136491, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 15s", "remaining_time": "1h 51m 3s", "loss_scale": 1.0, "consumed_samples": 2902784, "global_step/max_steps": "11339/12700"}
{"lm loss": 2.05718589, "grad_norm": 0.32548422, "learning_rate": 6.01e-06, "elapsed_time_per_iteration": 4.77304244, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 20s", "remaining_time": "1h 50m 58s", "loss_scale": 1.0, "consumed_samples": 2903040, "global_step/max_steps": "11340/12700"}
{"lm loss": 2.02450776, "grad_norm": 0.30339223, "learning_rate": 6.01e-06, "elapsed_time_per_iteration": 5.04293847, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 25s", "remaining_time": "1h 50m 53s", "loss_scale": 1.0, "consumed_samples": 2903296, "global_step/max_steps": "11341/12700"}
{"lm loss": 2.08571267, "grad_norm": 0.30207768, "learning_rate": 6e-06, "elapsed_time_per_iteration": 4.92945528, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 30s", "remaining_time": "1h 50m 48s", "loss_scale": 1.0, "consumed_samples": 2903552, "global_step/max_steps": "11342/12700"}
{"lm loss": 2.02482724, "grad_norm": 0.33658206, "learning_rate": 6e-06, "elapsed_time_per_iteration": 4.84567618, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 34s", "remaining_time": "1h 50m 43s", "loss_scale": 1.0, "consumed_samples": 2903808, "global_step/max_steps": "11343/12700"}
{"lm loss": 2.07125258, "grad_norm": 0.32993174, "learning_rate": 5.99e-06, "elapsed_time_per_iteration": 4.85262084, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 39s", "remaining_time": "1h 50m 38s", "loss_scale": 1.0, "consumed_samples": 2904064, "global_step/max_steps": "11344/12700"}
{"lm loss": 2.03734469, "grad_norm": 0.33039337, "learning_rate": 5.99e-06, "elapsed_time_per_iteration": 4.98875237, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 44s", "remaining_time": "1h 50m 34s", "loss_scale": 1.0, "consumed_samples": 2904320, "global_step/max_steps": "11345/12700"}
{"lm loss": 2.02238154, "grad_norm": 0.3332741, "learning_rate": 5.98e-06, "elapsed_time_per_iteration": 4.77781534, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 49s", "remaining_time": "1h 50m 29s", "loss_scale": 1.0, "consumed_samples": 2904576, "global_step/max_steps": "11346/12700"}
{"lm loss": 2.03754783, "grad_norm": 0.31279635, "learning_rate": 5.98e-06, "elapsed_time_per_iteration": 4.97739816, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 54s", "remaining_time": "1h 50m 24s", "loss_scale": 1.0, "consumed_samples": 2904832, "global_step/max_steps": "11347/12700"}
{"lm loss": 2.0311799, "grad_norm": 0.30971384, "learning_rate": 5.97e-06, "elapsed_time_per_iteration": 4.82376909, "memory(GiB)": 28.98, "elapsed_time": "15h 25m 59s", "remaining_time": "1h 50m 19s", "loss_scale": 1.0, "consumed_samples": 2905088, "global_step/max_steps": "11348/12700"}
{"lm loss": 2.08146167, "grad_norm": 0.33782694, "learning_rate": 5.97e-06, "elapsed_time_per_iteration": 4.872576, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 4s", "remaining_time": "1h 50m 14s", "loss_scale": 1.0, "consumed_samples": 2905344, "global_step/max_steps": "11349/12700"}
{"lm loss": 2.05288649, "grad_norm": 0.3218576, "learning_rate": 5.97e-06, "elapsed_time_per_iteration": 4.85885692, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 9s", "remaining_time": "1h 50m 9s", "loss_scale": 1.0, "consumed_samples": 2905600, "global_step/max_steps": "11350/12700"}
{"lm loss": 2.06703234, "grad_norm": 0.3057515, "learning_rate": 5.96e-06, "elapsed_time_per_iteration": 4.80482244, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 13s", "remaining_time": "1h 50m 4s", "loss_scale": 1.0, "consumed_samples": 2905856, "global_step/max_steps": "11351/12700"}
{"lm loss": 2.06816649, "grad_norm": 0.33309746, "learning_rate": 5.96e-06, "elapsed_time_per_iteration": 4.86391997, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 18s", "remaining_time": "1h 49m 59s", "loss_scale": 1.0, "consumed_samples": 2906112, "global_step/max_steps": "11352/12700"}
{"lm loss": 2.05316019, "grad_norm": 0.2997157, "learning_rate": 5.95e-06, "elapsed_time_per_iteration": 4.89374042, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 23s", "remaining_time": "1h 49m 54s", "loss_scale": 1.0, "consumed_samples": 2906368, "global_step/max_steps": "11353/12700"}
{"lm loss": 2.05189443, "grad_norm": 0.31642553, "learning_rate": 5.95e-06, "elapsed_time_per_iteration": 4.85509682, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 28s", "remaining_time": "1h 49m 49s", "loss_scale": 1.0, "consumed_samples": 2906624, "global_step/max_steps": "11354/12700"}
{"lm loss": 2.0342257, "grad_norm": 0.32210296, "learning_rate": 5.94e-06, "elapsed_time_per_iteration": 4.86513948, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 33s", "remaining_time": "1h 49m 45s", "loss_scale": 1.0, "consumed_samples": 2906880, "global_step/max_steps": "11355/12700"}
{"lm loss": 2.03145504, "grad_norm": 0.31618989, "learning_rate": 5.94e-06, "elapsed_time_per_iteration": 4.96763372, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 38s", "remaining_time": "1h 49m 40s", "loss_scale": 1.0, "consumed_samples": 2907136, "global_step/max_steps": "11356/12700"}
{"lm loss": 2.02255797, "grad_norm": 0.30474472, "learning_rate": 5.94e-06, "elapsed_time_per_iteration": 5.03116059, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 43s", "remaining_time": "1h 49m 35s", "loss_scale": 1.0, "consumed_samples": 2907392, "global_step/max_steps": "11357/12700"}
{"lm loss": 2.052284, "grad_norm": 0.29696193, "learning_rate": 5.93e-06, "elapsed_time_per_iteration": 4.90837002, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 48s", "remaining_time": "1h 49m 30s", "loss_scale": 1.0, "consumed_samples": 2907648, "global_step/max_steps": "11358/12700"}
{"lm loss": 2.03693748, "grad_norm": 0.32835299, "learning_rate": 5.93e-06, "elapsed_time_per_iteration": 4.82585168, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 53s", "remaining_time": "1h 49m 25s", "loss_scale": 1.0, "consumed_samples": 2907904, "global_step/max_steps": "11359/12700"}
{"lm loss": 2.05028462, "grad_norm": 0.3093293, "learning_rate": 5.92e-06, "elapsed_time_per_iteration": 4.86637092, "memory(GiB)": 28.98, "elapsed_time": "15h 26m 57s", "remaining_time": "1h 49m 20s", "loss_scale": 1.0, "consumed_samples": 2908160, "global_step/max_steps": "11360/12700"}
{"lm loss": 2.04526806, "grad_norm": 0.30204654, "learning_rate": 5.92e-06, "elapsed_time_per_iteration": 5.01426363, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 2s", "remaining_time": "1h 49m 15s", "loss_scale": 1.0, "consumed_samples": 2908416, "global_step/max_steps": "11361/12700"}
{"lm loss": 2.02172661, "grad_norm": 0.32188576, "learning_rate": 5.91e-06, "elapsed_time_per_iteration": 4.87530351, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 7s", "remaining_time": "1h 49m 10s", "loss_scale": 1.0, "consumed_samples": 2908672, "global_step/max_steps": "11362/12700"}
{"lm loss": 2.0454576, "grad_norm": 0.32382748, "learning_rate": 5.91e-06, "elapsed_time_per_iteration": 5.06018353, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 12s", "remaining_time": "1h 49m 5s", "loss_scale": 1.0, "consumed_samples": 2908928, "global_step/max_steps": "11363/12700"}
{"lm loss": 2.04545236, "grad_norm": 0.32677218, "learning_rate": 5.91e-06, "elapsed_time_per_iteration": 4.93419385, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 17s", "remaining_time": "1h 49m 1s", "loss_scale": 1.0, "consumed_samples": 2909184, "global_step/max_steps": "11364/12700"}
{"lm loss": 2.06735158, "grad_norm": 0.32731074, "learning_rate": 5.9e-06, "elapsed_time_per_iteration": 4.96427584, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 22s", "remaining_time": "1h 48m 56s", "loss_scale": 1.0, "consumed_samples": 2909440, "global_step/max_steps": "11365/12700"}
{"lm loss": 2.04170823, "grad_norm": 0.29979098, "learning_rate": 5.9e-06, "elapsed_time_per_iteration": 4.83648324, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 27s", "remaining_time": "1h 48m 51s", "loss_scale": 1.0, "consumed_samples": 2909696, "global_step/max_steps": "11366/12700"}
{"lm loss": 2.06408525, "grad_norm": 0.30326051, "learning_rate": 5.89e-06, "elapsed_time_per_iteration": 4.83316565, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 32s", "remaining_time": "1h 48m 46s", "loss_scale": 1.0, "consumed_samples": 2909952, "global_step/max_steps": "11367/12700"}
{"lm loss": 2.04874325, "grad_norm": 0.31409582, "learning_rate": 5.89e-06, "elapsed_time_per_iteration": 4.86692309, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 37s", "remaining_time": "1h 48m 41s", "loss_scale": 1.0, "consumed_samples": 2910208, "global_step/max_steps": "11368/12700"}
{"lm loss": 2.06541204, "grad_norm": 0.30196404, "learning_rate": 5.88e-06, "elapsed_time_per_iteration": 4.8322022, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 42s", "remaining_time": "1h 48m 36s", "loss_scale": 1.0, "consumed_samples": 2910464, "global_step/max_steps": "11369/12700"}
{"lm loss": 2.04997063, "grad_norm": 0.3017655, "learning_rate": 5.88e-06, "elapsed_time_per_iteration": 4.89516926, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 47s", "remaining_time": "1h 48m 31s", "loss_scale": 1.0, "consumed_samples": 2910720, "global_step/max_steps": "11370/12700"}
{"lm loss": 2.05057144, "grad_norm": 0.31630829, "learning_rate": 5.88e-06, "elapsed_time_per_iteration": 4.88946152, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 51s", "remaining_time": "1h 48m 26s", "loss_scale": 1.0, "consumed_samples": 2910976, "global_step/max_steps": "11371/12700"}
{"lm loss": 2.07160735, "grad_norm": 0.31043905, "learning_rate": 5.87e-06, "elapsed_time_per_iteration": 4.87714386, "memory(GiB)": 28.98, "elapsed_time": "15h 27m 56s", "remaining_time": "1h 48m 21s", "loss_scale": 1.0, "consumed_samples": 2911232, "global_step/max_steps": "11372/12700"}
{"lm loss": 2.04615498, "grad_norm": 0.33243194, "learning_rate": 5.87e-06, "elapsed_time_per_iteration": 4.87185907, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 1s", "remaining_time": "1h 48m 16s", "loss_scale": 1.0, "consumed_samples": 2911488, "global_step/max_steps": "11373/12700"}
{"lm loss": 2.03741193, "grad_norm": 0.3248888, "learning_rate": 5.86e-06, "elapsed_time_per_iteration": 4.8544004, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 6s", "remaining_time": "1h 48m 12s", "loss_scale": 1.0, "consumed_samples": 2911744, "global_step/max_steps": "11374/12700"}
{"lm loss": 2.05857062, "grad_norm": 0.3060782, "learning_rate": 5.86e-06, "elapsed_time_per_iteration": 4.89255357, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 11s", "remaining_time": "1h 48m 7s", "loss_scale": 1.0, "consumed_samples": 2912000, "global_step/max_steps": "11375/12700"}
{"lm loss": 2.08985376, "grad_norm": 0.30467778, "learning_rate": 5.85e-06, "elapsed_time_per_iteration": 4.84468889, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 16s", "remaining_time": "1h 48m 2s", "loss_scale": 1.0, "consumed_samples": 2912256, "global_step/max_steps": "11376/12700"}
{"lm loss": 2.07366467, "grad_norm": 0.31381896, "learning_rate": 5.85e-06, "elapsed_time_per_iteration": 4.87878871, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 21s", "remaining_time": "1h 47m 57s", "loss_scale": 1.0, "consumed_samples": 2912512, "global_step/max_steps": "11377/12700"}
{"lm loss": 2.07989264, "grad_norm": 0.31276712, "learning_rate": 5.85e-06, "elapsed_time_per_iteration": 4.82668829, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 25s", "remaining_time": "1h 47m 52s", "loss_scale": 1.0, "consumed_samples": 2912768, "global_step/max_steps": "11378/12700"}
{"lm loss": 2.04740167, "grad_norm": 0.29566094, "learning_rate": 5.84e-06, "elapsed_time_per_iteration": 4.89827824, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 30s", "remaining_time": "1h 47m 47s", "loss_scale": 1.0, "consumed_samples": 2913024, "global_step/max_steps": "11379/12700"}
{"lm loss": 2.0568316, "grad_norm": 0.32712945, "learning_rate": 5.84e-06, "elapsed_time_per_iteration": 4.92887497, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 35s", "remaining_time": "1h 47m 42s", "loss_scale": 1.0, "consumed_samples": 2913280, "global_step/max_steps": "11380/12700"}
{"lm loss": 2.02543402, "grad_norm": 0.30376229, "learning_rate": 5.83e-06, "elapsed_time_per_iteration": 4.87623096, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 40s", "remaining_time": "1h 47m 37s", "loss_scale": 1.0, "consumed_samples": 2913536, "global_step/max_steps": "11381/12700"}
{"lm loss": 2.06408668, "grad_norm": 0.31873673, "learning_rate": 5.83e-06, "elapsed_time_per_iteration": 4.82183146, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 45s", "remaining_time": "1h 47m 32s", "loss_scale": 1.0, "consumed_samples": 2913792, "global_step/max_steps": "11382/12700"}
{"lm loss": 2.03832483, "grad_norm": 0.30867481, "learning_rate": 5.82e-06, "elapsed_time_per_iteration": 4.82716775, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 50s", "remaining_time": "1h 47m 27s", "loss_scale": 1.0, "consumed_samples": 2914048, "global_step/max_steps": "11383/12700"}
{"lm loss": 2.07544136, "grad_norm": 0.31281507, "learning_rate": 5.82e-06, "elapsed_time_per_iteration": 4.83083749, "memory(GiB)": 28.98, "elapsed_time": "15h 28m 55s", "remaining_time": "1h 47m 23s", "loss_scale": 1.0, "consumed_samples": 2914304, "global_step/max_steps": "11384/12700"}
{"lm loss": 2.03074622, "grad_norm": 0.31220499, "learning_rate": 5.82e-06, "elapsed_time_per_iteration": 4.86466122, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 0s", "remaining_time": "1h 47m 18s", "loss_scale": 1.0, "consumed_samples": 2914560, "global_step/max_steps": "11385/12700"}
{"lm loss": 2.02800274, "grad_norm": 0.31173053, "learning_rate": 5.81e-06, "elapsed_time_per_iteration": 4.94147682, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 4s", "remaining_time": "1h 47m 13s", "loss_scale": 1.0, "consumed_samples": 2914816, "global_step/max_steps": "11386/12700"}
{"lm loss": 2.06485152, "grad_norm": 0.32782397, "learning_rate": 5.81e-06, "elapsed_time_per_iteration": 4.86081576, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 9s", "remaining_time": "1h 47m 8s", "loss_scale": 1.0, "consumed_samples": 2915072, "global_step/max_steps": "11387/12700"}
{"lm loss": 2.06642413, "grad_norm": 0.30813706, "learning_rate": 5.8e-06, "elapsed_time_per_iteration": 4.8967905, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 14s", "remaining_time": "1h 47m 3s", "loss_scale": 1.0, "consumed_samples": 2915328, "global_step/max_steps": "11388/12700"}
{"lm loss": 2.02983856, "grad_norm": 0.31291208, "learning_rate": 5.8e-06, "elapsed_time_per_iteration": 4.79570031, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 19s", "remaining_time": "1h 46m 58s", "loss_scale": 1.0, "consumed_samples": 2915584, "global_step/max_steps": "11389/12700"}
{"lm loss": 2.04567385, "grad_norm": 0.31833956, "learning_rate": 5.79e-06, "elapsed_time_per_iteration": 4.87835622, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 24s", "remaining_time": "1h 46m 53s", "loss_scale": 1.0, "consumed_samples": 2915840, "global_step/max_steps": "11390/12700"}
{"lm loss": 2.05177045, "grad_norm": 0.32063705, "learning_rate": 5.79e-06, "elapsed_time_per_iteration": 4.9010675, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 29s", "remaining_time": "1h 46m 48s", "loss_scale": 1.0, "consumed_samples": 2916096, "global_step/max_steps": "11391/12700"}
{"lm loss": 2.0597682, "grad_norm": 0.31057245, "learning_rate": 5.79e-06, "elapsed_time_per_iteration": 4.90674114, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 34s", "remaining_time": "1h 46m 43s", "loss_scale": 1.0, "consumed_samples": 2916352, "global_step/max_steps": "11392/12700"}
{"lm loss": 2.0551157, "grad_norm": 0.31998867, "learning_rate": 5.78e-06, "elapsed_time_per_iteration": 5.15421343, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 39s", "remaining_time": "1h 46m 38s", "loss_scale": 1.0, "consumed_samples": 2916608, "global_step/max_steps": "11393/12700"}
{"lm loss": 2.07872486, "grad_norm": 0.31417868, "learning_rate": 5.78e-06, "elapsed_time_per_iteration": 4.89396358, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 44s", "remaining_time": "1h 46m 34s", "loss_scale": 1.0, "consumed_samples": 2916864, "global_step/max_steps": "11394/12700"}
{"lm loss": 2.06525588, "grad_norm": 0.32895547, "learning_rate": 5.77e-06, "elapsed_time_per_iteration": 4.83011341, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 49s", "remaining_time": "1h 46m 29s", "loss_scale": 1.0, "consumed_samples": 2917120, "global_step/max_steps": "11395/12700"}
{"lm loss": 2.04368496, "grad_norm": 0.30865157, "learning_rate": 5.77e-06, "elapsed_time_per_iteration": 4.89094663, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 53s", "remaining_time": "1h 46m 24s", "loss_scale": 1.0, "consumed_samples": 2917376, "global_step/max_steps": "11396/12700"}
{"lm loss": 2.0441978, "grad_norm": 0.3065269, "learning_rate": 5.76e-06, "elapsed_time_per_iteration": 4.82962775, "memory(GiB)": 28.98, "elapsed_time": "15h 29m 58s", "remaining_time": "1h 46m 19s", "loss_scale": 1.0, "consumed_samples": 2917632, "global_step/max_steps": "11397/12700"}
{"lm loss": 2.0759356, "grad_norm": 0.31502154, "learning_rate": 5.76e-06, "elapsed_time_per_iteration": 4.86491823, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 3s", "remaining_time": "1h 46m 14s", "loss_scale": 1.0, "consumed_samples": 2917888, "global_step/max_steps": "11398/12700"}
{"lm loss": 2.06884265, "grad_norm": 0.30594268, "learning_rate": 5.76e-06, "elapsed_time_per_iteration": 5.18808579, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 8s", "remaining_time": "1h 46m 9s", "loss_scale": 1.0, "consumed_samples": 2918144, "global_step/max_steps": "11399/12700"}
{"lm loss": 2.03514075, "grad_norm": 0.31636679, "learning_rate": 5.75e-06, "elapsed_time_per_iteration": 4.87087345, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 13s", "remaining_time": "1h 46m 4s", "loss_scale": 1.0, "consumed_samples": 2918400, "global_step/max_steps": "11400/12700"}
{"lm loss": 2.08795881, "grad_norm": 0.30932289, "learning_rate": 5.75e-06, "elapsed_time_per_iteration": 4.89228845, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 18s", "remaining_time": "1h 45m 59s", "loss_scale": 1.0, "consumed_samples": 2918656, "global_step/max_steps": "11401/12700"}
{"lm loss": 2.04036903, "grad_norm": 0.30471835, "learning_rate": 5.74e-06, "elapsed_time_per_iteration": 5.05960965, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 23s", "remaining_time": "1h 45m 54s", "loss_scale": 1.0, "consumed_samples": 2918912, "global_step/max_steps": "11402/12700"}
{"lm loss": 2.04405713, "grad_norm": 0.31946787, "learning_rate": 5.74e-06, "elapsed_time_per_iteration": 4.95647311, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 28s", "remaining_time": "1h 45m 50s", "loss_scale": 1.0, "consumed_samples": 2919168, "global_step/max_steps": "11403/12700"}
{"lm loss": 2.04113364, "grad_norm": 0.32474217, "learning_rate": 5.74e-06, "elapsed_time_per_iteration": 4.90525532, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 33s", "remaining_time": "1h 45m 45s", "loss_scale": 1.0, "consumed_samples": 2919424, "global_step/max_steps": "11404/12700"}
{"lm loss": 2.03285217, "grad_norm": 0.31451336, "learning_rate": 5.73e-06, "elapsed_time_per_iteration": 4.84536195, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 38s", "remaining_time": "1h 45m 40s", "loss_scale": 1.0, "consumed_samples": 2919680, "global_step/max_steps": "11405/12700"}
{"lm loss": 2.04897857, "grad_norm": 0.3061955, "learning_rate": 5.73e-06, "elapsed_time_per_iteration": 4.79110837, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 43s", "remaining_time": "1h 45m 35s", "loss_scale": 1.0, "consumed_samples": 2919936, "global_step/max_steps": "11406/12700"}
{"lm loss": 2.02017426, "grad_norm": 0.31517532, "learning_rate": 5.72e-06, "elapsed_time_per_iteration": 4.89162683, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 48s", "remaining_time": "1h 45m 30s", "loss_scale": 1.0, "consumed_samples": 2920192, "global_step/max_steps": "11407/12700"}
{"lm loss": 2.07182312, "grad_norm": 0.32960707, "learning_rate": 5.72e-06, "elapsed_time_per_iteration": 4.93017292, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 52s", "remaining_time": "1h 45m 25s", "loss_scale": 1.0, "consumed_samples": 2920448, "global_step/max_steps": "11408/12700"}
{"lm loss": 2.03992391, "grad_norm": 0.32586834, "learning_rate": 5.71e-06, "elapsed_time_per_iteration": 4.89494133, "memory(GiB)": 28.98, "elapsed_time": "15h 30m 57s", "remaining_time": "1h 45m 20s", "loss_scale": 1.0, "consumed_samples": 2920704, "global_step/max_steps": "11409/12700"}
{"lm loss": 2.03914976, "grad_norm": 0.31287754, "learning_rate": 5.71e-06, "elapsed_time_per_iteration": 4.91316533, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 2s", "remaining_time": "1h 45m 15s", "loss_scale": 1.0, "consumed_samples": 2920960, "global_step/max_steps": "11410/12700"}
{"lm loss": 2.02679753, "grad_norm": 0.32732835, "learning_rate": 5.71e-06, "elapsed_time_per_iteration": 4.9587431, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 7s", "remaining_time": "1h 45m 10s", "loss_scale": 1.0, "consumed_samples": 2921216, "global_step/max_steps": "11411/12700"}
{"lm loss": 2.11762619, "grad_norm": 0.3088558, "learning_rate": 5.7e-06, "elapsed_time_per_iteration": 4.79436398, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 12s", "remaining_time": "1h 45m 5s", "loss_scale": 1.0, "consumed_samples": 2921472, "global_step/max_steps": "11412/12700"}
{"lm loss": 2.05963516, "grad_norm": 0.30892244, "learning_rate": 5.7e-06, "elapsed_time_per_iteration": 4.9762876, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 17s", "remaining_time": "1h 45m 1s", "loss_scale": 1.0, "consumed_samples": 2921728, "global_step/max_steps": "11413/12700"}
{"lm loss": 2.03210855, "grad_norm": 0.32208171, "learning_rate": 5.69e-06, "elapsed_time_per_iteration": 4.88604379, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 22s", "remaining_time": "1h 44m 56s", "loss_scale": 1.0, "consumed_samples": 2921984, "global_step/max_steps": "11414/12700"}
{"lm loss": 2.06191444, "grad_norm": 0.29517028, "learning_rate": 5.69e-06, "elapsed_time_per_iteration": 4.85203981, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 27s", "remaining_time": "1h 44m 51s", "loss_scale": 1.0, "consumed_samples": 2922240, "global_step/max_steps": "11415/12700"}
{"lm loss": 2.03322482, "grad_norm": 0.33461773, "learning_rate": 5.69e-06, "elapsed_time_per_iteration": 4.89564157, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 32s", "remaining_time": "1h 44m 46s", "loss_scale": 1.0, "consumed_samples": 2922496, "global_step/max_steps": "11416/12700"}
{"lm loss": 2.04883623, "grad_norm": 0.31815246, "learning_rate": 5.68e-06, "elapsed_time_per_iteration": 4.8811276, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 37s", "remaining_time": "1h 44m 41s", "loss_scale": 1.0, "consumed_samples": 2922752, "global_step/max_steps": "11417/12700"}
{"lm loss": 2.05419135, "grad_norm": 0.30365139, "learning_rate": 5.68e-06, "elapsed_time_per_iteration": 4.95508957, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 41s", "remaining_time": "1h 44m 36s", "loss_scale": 1.0, "consumed_samples": 2923008, "global_step/max_steps": "11418/12700"}
{"lm loss": 2.07809925, "grad_norm": 0.3126255, "learning_rate": 5.67e-06, "elapsed_time_per_iteration": 4.84801269, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 46s", "remaining_time": "1h 44m 31s", "loss_scale": 1.0, "consumed_samples": 2923264, "global_step/max_steps": "11419/12700"}
{"lm loss": 2.0474391, "grad_norm": 0.30157378, "learning_rate": 5.67e-06, "elapsed_time_per_iteration": 4.90022588, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 51s", "remaining_time": "1h 44m 26s", "loss_scale": 1.0, "consumed_samples": 2923520, "global_step/max_steps": "11420/12700"}
{"lm loss": 2.03619885, "grad_norm": 0.3130675, "learning_rate": 5.66e-06, "elapsed_time_per_iteration": 4.90549541, "memory(GiB)": 28.98, "elapsed_time": "15h 31m 56s", "remaining_time": "1h 44m 21s", "loss_scale": 1.0, "consumed_samples": 2923776, "global_step/max_steps": "11421/12700"}
{"lm loss": 2.04191732, "grad_norm": 0.31077644, "learning_rate": 5.66e-06, "elapsed_time_per_iteration": 4.90474391, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 1s", "remaining_time": "1h 44m 17s", "loss_scale": 1.0, "consumed_samples": 2924032, "global_step/max_steps": "11422/12700"}
{"lm loss": 2.0277586, "grad_norm": 0.30740556, "learning_rate": 5.66e-06, "elapsed_time_per_iteration": 4.9132688, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 6s", "remaining_time": "1h 44m 12s", "loss_scale": 1.0, "consumed_samples": 2924288, "global_step/max_steps": "11423/12700"}
{"lm loss": 2.02462006, "grad_norm": 0.32161528, "learning_rate": 5.65e-06, "elapsed_time_per_iteration": 4.91838622, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 11s", "remaining_time": "1h 44m 7s", "loss_scale": 1.0, "consumed_samples": 2924544, "global_step/max_steps": "11424/12700"}
{"lm loss": 2.08912444, "grad_norm": 0.33663887, "learning_rate": 5.65e-06, "elapsed_time_per_iteration": 4.92635131, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 16s", "remaining_time": "1h 44m 2s", "loss_scale": 1.0, "consumed_samples": 2924800, "global_step/max_steps": "11425/12700"}
{"lm loss": 2.0715878, "grad_norm": 0.3109875, "learning_rate": 5.64e-06, "elapsed_time_per_iteration": 4.89311528, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 21s", "remaining_time": "1h 43m 57s", "loss_scale": 1.0, "consumed_samples": 2925056, "global_step/max_steps": "11426/12700"}
{"lm loss": 2.01341224, "grad_norm": 0.3337054, "learning_rate": 5.64e-06, "elapsed_time_per_iteration": 4.84180284, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 26s", "remaining_time": "1h 43m 52s", "loss_scale": 1.0, "consumed_samples": 2925312, "global_step/max_steps": "11427/12700"}
{"lm loss": 2.06446075, "grad_norm": 0.32352161, "learning_rate": 5.64e-06, "elapsed_time_per_iteration": 4.88247156, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 30s", "remaining_time": "1h 43m 47s", "loss_scale": 1.0, "consumed_samples": 2925568, "global_step/max_steps": "11428/12700"}
{"lm loss": 2.01253438, "grad_norm": 0.32422024, "learning_rate": 5.63e-06, "elapsed_time_per_iteration": 4.95513964, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 35s", "remaining_time": "1h 43m 42s", "loss_scale": 1.0, "consumed_samples": 2925824, "global_step/max_steps": "11429/12700"}
{"lm loss": 2.02801752, "grad_norm": 0.32008037, "learning_rate": 5.63e-06, "elapsed_time_per_iteration": 4.94909978, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 40s", "remaining_time": "1h 43m 37s", "loss_scale": 1.0, "consumed_samples": 2926080, "global_step/max_steps": "11430/12700"}
{"lm loss": 2.02758145, "grad_norm": 0.31884465, "learning_rate": 5.62e-06, "elapsed_time_per_iteration": 4.97977281, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 45s", "remaining_time": "1h 43m 32s", "loss_scale": 1.0, "consumed_samples": 2926336, "global_step/max_steps": "11431/12700"}
{"lm loss": 2.03505874, "grad_norm": 0.33507109, "learning_rate": 5.62e-06, "elapsed_time_per_iteration": 4.90413713, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 50s", "remaining_time": "1h 43m 28s", "loss_scale": 1.0, "consumed_samples": 2926592, "global_step/max_steps": "11432/12700"}
{"lm loss": 2.06212997, "grad_norm": 0.31933326, "learning_rate": 5.62e-06, "elapsed_time_per_iteration": 4.86715627, "memory(GiB)": 28.98, "elapsed_time": "15h 32m 55s", "remaining_time": "1h 43m 23s", "loss_scale": 1.0, "consumed_samples": 2926848, "global_step/max_steps": "11433/12700"}
{"lm loss": 2.06094766, "grad_norm": 0.32072949, "learning_rate": 5.61e-06, "elapsed_time_per_iteration": 4.86359262, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 0s", "remaining_time": "1h 43m 18s", "loss_scale": 1.0, "consumed_samples": 2927104, "global_step/max_steps": "11434/12700"}
{"lm loss": 2.01189852, "grad_norm": 0.31423417, "learning_rate": 5.61e-06, "elapsed_time_per_iteration": 4.8385942, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 5s", "remaining_time": "1h 43m 13s", "loss_scale": 1.0, "consumed_samples": 2927360, "global_step/max_steps": "11435/12700"}
{"lm loss": 2.05222964, "grad_norm": 0.31658638, "learning_rate": 5.6e-06, "elapsed_time_per_iteration": 4.888201, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 10s", "remaining_time": "1h 43m 8s", "loss_scale": 1.0, "consumed_samples": 2927616, "global_step/max_steps": "11436/12700"}
{"lm loss": 2.0388124, "grad_norm": 0.30463889, "learning_rate": 5.6e-06, "elapsed_time_per_iteration": 4.90484786, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 15s", "remaining_time": "1h 43m 3s", "loss_scale": 1.0, "consumed_samples": 2927872, "global_step/max_steps": "11437/12700"}
{"lm loss": 2.06826544, "grad_norm": 0.30658376, "learning_rate": 5.6e-06, "elapsed_time_per_iteration": 4.9175036, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 19s", "remaining_time": "1h 42m 58s", "loss_scale": 1.0, "consumed_samples": 2928128, "global_step/max_steps": "11438/12700"}
{"lm loss": 2.03556633, "grad_norm": 0.3170363, "learning_rate": 5.59e-06, "elapsed_time_per_iteration": 4.79824209, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 24s", "remaining_time": "1h 42m 53s", "loss_scale": 1.0, "consumed_samples": 2928384, "global_step/max_steps": "11439/12700"}
{"lm loss": 2.07262588, "grad_norm": 0.30734113, "learning_rate": 5.59e-06, "elapsed_time_per_iteration": 4.85264969, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 29s", "remaining_time": "1h 42m 48s", "loss_scale": 1.0, "consumed_samples": 2928640, "global_step/max_steps": "11440/12700"}
{"lm loss": 2.06224799, "grad_norm": 0.29955754, "learning_rate": 5.58e-06, "elapsed_time_per_iteration": 4.94703078, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 34s", "remaining_time": "1h 42m 44s", "loss_scale": 1.0, "consumed_samples": 2928896, "global_step/max_steps": "11441/12700"}
{"lm loss": 2.05604601, "grad_norm": 0.32401237, "learning_rate": 5.58e-06, "elapsed_time_per_iteration": 4.8962636, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 39s", "remaining_time": "1h 42m 39s", "loss_scale": 1.0, "consumed_samples": 2929152, "global_step/max_steps": "11442/12700"}
{"lm loss": 2.01524806, "grad_norm": 0.30041313, "learning_rate": 5.57e-06, "elapsed_time_per_iteration": 4.91663194, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 44s", "remaining_time": "1h 42m 34s", "loss_scale": 1.0, "consumed_samples": 2929408, "global_step/max_steps": "11443/12700"}
{"lm loss": 2.01109219, "grad_norm": 0.32415423, "learning_rate": 5.57e-06, "elapsed_time_per_iteration": 4.98048186, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 49s", "remaining_time": "1h 42m 29s", "loss_scale": 1.0, "consumed_samples": 2929664, "global_step/max_steps": "11444/12700"}
{"lm loss": 2.06806374, "grad_norm": 0.32561815, "learning_rate": 5.57e-06, "elapsed_time_per_iteration": 4.86395907, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 54s", "remaining_time": "1h 42m 24s", "loss_scale": 1.0, "consumed_samples": 2929920, "global_step/max_steps": "11445/12700"}
{"lm loss": 2.04876709, "grad_norm": 0.31929439, "learning_rate": 5.56e-06, "elapsed_time_per_iteration": 5.04897642, "memory(GiB)": 28.98, "elapsed_time": "15h 33m 59s", "remaining_time": "1h 42m 19s", "loss_scale": 1.0, "consumed_samples": 2930176, "global_step/max_steps": "11446/12700"}
{"lm loss": 2.03999329, "grad_norm": 0.30097827, "learning_rate": 5.56e-06, "elapsed_time_per_iteration": 4.84220219, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 4s", "remaining_time": "1h 42m 14s", "loss_scale": 1.0, "consumed_samples": 2930432, "global_step/max_steps": "11447/12700"}
{"lm loss": 2.02314973, "grad_norm": 0.32914716, "learning_rate": 5.55e-06, "elapsed_time_per_iteration": 4.89391732, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 9s", "remaining_time": "1h 42m 9s", "loss_scale": 1.0, "consumed_samples": 2930688, "global_step/max_steps": "11448/12700"}
{"lm loss": 2.03929162, "grad_norm": 0.33368623, "learning_rate": 5.55e-06, "elapsed_time_per_iteration": 4.88844633, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 13s", "remaining_time": "1h 42m 4s", "loss_scale": 1.0, "consumed_samples": 2930944, "global_step/max_steps": "11449/12700"}
{"lm loss": 2.07102466, "grad_norm": 0.30862492, "learning_rate": 5.55e-06, "elapsed_time_per_iteration": 5.08642173, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 19s", "remaining_time": "1h 41m 59s", "loss_scale": 1.0, "consumed_samples": 2931200, "global_step/max_steps": "11450/12700"}
{"lm loss": 2.06650305, "grad_norm": 0.31278804, "learning_rate": 5.54e-06, "elapsed_time_per_iteration": 4.9267776, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 23s", "remaining_time": "1h 41m 55s", "loss_scale": 1.0, "consumed_samples": 2931456, "global_step/max_steps": "11451/12700"}
{"lm loss": 2.06464076, "grad_norm": 0.31406349, "learning_rate": 5.54e-06, "elapsed_time_per_iteration": 4.83046937, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 28s", "remaining_time": "1h 41m 50s", "loss_scale": 1.0, "consumed_samples": 2931712, "global_step/max_steps": "11452/12700"}
{"lm loss": 2.00733328, "grad_norm": 0.29855028, "learning_rate": 5.53e-06, "elapsed_time_per_iteration": 4.89651442, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 33s", "remaining_time": "1h 41m 45s", "loss_scale": 1.0, "consumed_samples": 2931968, "global_step/max_steps": "11453/12700"}
{"lm loss": 2.04355669, "grad_norm": 0.30128497, "learning_rate": 5.53e-06, "elapsed_time_per_iteration": 4.88267803, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 38s", "remaining_time": "1h 41m 40s", "loss_scale": 1.0, "consumed_samples": 2932224, "global_step/max_steps": "11454/12700"}
{"lm loss": 2.04446936, "grad_norm": 0.3083556, "learning_rate": 5.53e-06, "elapsed_time_per_iteration": 4.8408196, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 43s", "remaining_time": "1h 41m 35s", "loss_scale": 1.0, "consumed_samples": 2932480, "global_step/max_steps": "11455/12700"}
{"lm loss": 2.06757665, "grad_norm": 0.31861189, "learning_rate": 5.52e-06, "elapsed_time_per_iteration": 4.87636328, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 48s", "remaining_time": "1h 41m 30s", "loss_scale": 1.0, "consumed_samples": 2932736, "global_step/max_steps": "11456/12700"}
{"lm loss": 2.06538057, "grad_norm": 0.33285207, "learning_rate": 5.52e-06, "elapsed_time_per_iteration": 4.9138813, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 53s", "remaining_time": "1h 41m 25s", "loss_scale": 1.0, "consumed_samples": 2932992, "global_step/max_steps": "11457/12700"}
{"lm loss": 2.04418612, "grad_norm": 0.31985912, "learning_rate": 5.51e-06, "elapsed_time_per_iteration": 4.88202763, "memory(GiB)": 28.98, "elapsed_time": "15h 34m 58s", "remaining_time": "1h 41m 20s", "loss_scale": 1.0, "consumed_samples": 2933248, "global_step/max_steps": "11458/12700"}
{"lm loss": 2.04798889, "grad_norm": 0.31187981, "learning_rate": 5.51e-06, "elapsed_time_per_iteration": 4.90434265, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 2s", "remaining_time": "1h 41m 15s", "loss_scale": 1.0, "consumed_samples": 2933504, "global_step/max_steps": "11459/12700"}
{"lm loss": 2.08154321, "grad_norm": 0.31817368, "learning_rate": 5.51e-06, "elapsed_time_per_iteration": 5.0695734, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 8s", "remaining_time": "1h 41m 11s", "loss_scale": 1.0, "consumed_samples": 2933760, "global_step/max_steps": "11460/12700"}
{"lm loss": 2.03330159, "grad_norm": 0.31393173, "learning_rate": 5.5e-06, "elapsed_time_per_iteration": 4.97582006, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 13s", "remaining_time": "1h 41m 6s", "loss_scale": 1.0, "consumed_samples": 2934016, "global_step/max_steps": "11461/12700"}
{"lm loss": 2.04558635, "grad_norm": 0.32790831, "learning_rate": 5.5e-06, "elapsed_time_per_iteration": 4.90701461, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 17s", "remaining_time": "1h 41m 1s", "loss_scale": 1.0, "consumed_samples": 2934272, "global_step/max_steps": "11462/12700"}
{"lm loss": 2.05005646, "grad_norm": 0.31088653, "learning_rate": 5.49e-06, "elapsed_time_per_iteration": 4.91786551, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 22s", "remaining_time": "1h 40m 56s", "loss_scale": 1.0, "consumed_samples": 2934528, "global_step/max_steps": "11463/12700"}
{"lm loss": 2.02350521, "grad_norm": 0.32790878, "learning_rate": 5.49e-06, "elapsed_time_per_iteration": 4.84377122, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 27s", "remaining_time": "1h 40m 51s", "loss_scale": 1.0, "consumed_samples": 2934784, "global_step/max_steps": "11464/12700"}
{"lm loss": 2.06424332, "grad_norm": 0.31217533, "learning_rate": 5.49e-06, "elapsed_time_per_iteration": 4.81447244, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 32s", "remaining_time": "1h 40m 46s", "loss_scale": 1.0, "consumed_samples": 2935040, "global_step/max_steps": "11465/12700"}
{"lm loss": 2.05420661, "grad_norm": 0.31234759, "learning_rate": 5.48e-06, "elapsed_time_per_iteration": 4.8182621, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 37s", "remaining_time": "1h 40m 41s", "loss_scale": 1.0, "consumed_samples": 2935296, "global_step/max_steps": "11466/12700"}
{"lm loss": 2.0406158, "grad_norm": 0.31970695, "learning_rate": 5.48e-06, "elapsed_time_per_iteration": 4.97762585, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 42s", "remaining_time": "1h 40m 36s", "loss_scale": 1.0, "consumed_samples": 2935552, "global_step/max_steps": "11467/12700"}
{"lm loss": 2.04223514, "grad_norm": 0.32812491, "learning_rate": 5.47e-06, "elapsed_time_per_iteration": 4.7665813, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 47s", "remaining_time": "1h 40m 31s", "loss_scale": 1.0, "consumed_samples": 2935808, "global_step/max_steps": "11468/12700"}
{"lm loss": 2.06076479, "grad_norm": 0.30704376, "learning_rate": 5.47e-06, "elapsed_time_per_iteration": 4.89356136, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 51s", "remaining_time": "1h 40m 26s", "loss_scale": 1.0, "consumed_samples": 2936064, "global_step/max_steps": "11469/12700"}
{"lm loss": 2.05180097, "grad_norm": 0.31468886, "learning_rate": 5.47e-06, "elapsed_time_per_iteration": 4.90649676, "memory(GiB)": 28.98, "elapsed_time": "15h 35m 56s", "remaining_time": "1h 40m 22s", "loss_scale": 1.0, "consumed_samples": 2936320, "global_step/max_steps": "11470/12700"}
{"lm loss": 2.0063448, "grad_norm": 0.30314344, "learning_rate": 5.46e-06, "elapsed_time_per_iteration": 4.82097936, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 1s", "remaining_time": "1h 40m 17s", "loss_scale": 1.0, "consumed_samples": 2936576, "global_step/max_steps": "11471/12700"}
{"lm loss": 2.05201507, "grad_norm": 0.29785621, "learning_rate": 5.46e-06, "elapsed_time_per_iteration": 4.87496901, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 6s", "remaining_time": "1h 40m 12s", "loss_scale": 1.0, "consumed_samples": 2936832, "global_step/max_steps": "11472/12700"}
{"lm loss": 2.05301261, "grad_norm": 0.30376443, "learning_rate": 5.45e-06, "elapsed_time_per_iteration": 4.85936761, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 11s", "remaining_time": "1h 40m 7s", "loss_scale": 1.0, "consumed_samples": 2937088, "global_step/max_steps": "11473/12700"}
{"lm loss": 2.03999043, "grad_norm": 0.34229019, "learning_rate": 5.45e-06, "elapsed_time_per_iteration": 4.95502234, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 16s", "remaining_time": "1h 40m 2s", "loss_scale": 1.0, "consumed_samples": 2937344, "global_step/max_steps": "11474/12700"}
{"lm loss": 2.05199957, "grad_norm": 0.31558639, "learning_rate": 5.45e-06, "elapsed_time_per_iteration": 4.87106848, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 21s", "remaining_time": "1h 39m 57s", "loss_scale": 1.0, "consumed_samples": 2937600, "global_step/max_steps": "11475/12700"}
{"lm loss": 2.04039526, "grad_norm": 0.30711904, "learning_rate": 5.44e-06, "elapsed_time_per_iteration": 4.87815619, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 26s", "remaining_time": "1h 39m 52s", "loss_scale": 1.0, "consumed_samples": 2937856, "global_step/max_steps": "11476/12700"}
{"lm loss": 2.05817246, "grad_norm": 0.30511171, "learning_rate": 5.44e-06, "elapsed_time_per_iteration": 4.82449341, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 30s", "remaining_time": "1h 39m 47s", "loss_scale": 1.0, "consumed_samples": 2938112, "global_step/max_steps": "11477/12700"}
{"lm loss": 2.06056833, "grad_norm": 0.31434926, "learning_rate": 5.43e-06, "elapsed_time_per_iteration": 4.85348797, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 35s", "remaining_time": "1h 39m 42s", "loss_scale": 1.0, "consumed_samples": 2938368, "global_step/max_steps": "11478/12700"}
{"lm loss": 2.03479433, "grad_norm": 0.32548839, "learning_rate": 5.43e-06, "elapsed_time_per_iteration": 4.86813092, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 40s", "remaining_time": "1h 39m 37s", "loss_scale": 1.0, "consumed_samples": 2938624, "global_step/max_steps": "11479/12700"}
{"lm loss": 2.04267144, "grad_norm": 0.30988982, "learning_rate": 5.43e-06, "elapsed_time_per_iteration": 4.89106894, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 45s", "remaining_time": "1h 39m 33s", "loss_scale": 1.0, "consumed_samples": 2938880, "global_step/max_steps": "11480/12700"}
{"lm loss": 2.03756475, "grad_norm": 0.34225023, "learning_rate": 5.42e-06, "elapsed_time_per_iteration": 5.0204215, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 50s", "remaining_time": "1h 39m 28s", "loss_scale": 1.0, "consumed_samples": 2939136, "global_step/max_steps": "11481/12700"}
{"lm loss": 2.07310414, "grad_norm": 0.33482859, "learning_rate": 5.42e-06, "elapsed_time_per_iteration": 4.91403413, "memory(GiB)": 28.98, "elapsed_time": "15h 36m 55s", "remaining_time": "1h 39m 23s", "loss_scale": 1.0, "consumed_samples": 2939392, "global_step/max_steps": "11482/12700"}
{"lm loss": 2.05903888, "grad_norm": 0.31361154, "learning_rate": 5.41e-06, "elapsed_time_per_iteration": 5.00437498, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 0s", "remaining_time": "1h 39m 18s", "loss_scale": 1.0, "consumed_samples": 2939648, "global_step/max_steps": "11483/12700"}
{"lm loss": 2.02697706, "grad_norm": 0.34381345, "learning_rate": 5.41e-06, "elapsed_time_per_iteration": 4.87621617, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 5s", "remaining_time": "1h 39m 13s", "loss_scale": 1.0, "consumed_samples": 2939904, "global_step/max_steps": "11484/12700"}
{"lm loss": 2.0234108, "grad_norm": 0.33020943, "learning_rate": 5.41e-06, "elapsed_time_per_iteration": 4.84607959, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 10s", "remaining_time": "1h 39m 8s", "loss_scale": 1.0, "consumed_samples": 2940160, "global_step/max_steps": "11485/12700"}
{"lm loss": 2.06378865, "grad_norm": 0.330558, "learning_rate": 5.4e-06, "elapsed_time_per_iteration": 4.8641274, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 15s", "remaining_time": "1h 39m 3s", "loss_scale": 1.0, "consumed_samples": 2940416, "global_step/max_steps": "11486/12700"}
{"lm loss": 2.09220958, "grad_norm": 0.31808919, "learning_rate": 5.4e-06, "elapsed_time_per_iteration": 4.82425594, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 19s", "remaining_time": "1h 38m 58s", "loss_scale": 1.0, "consumed_samples": 2940672, "global_step/max_steps": "11487/12700"}
{"lm loss": 2.06986666, "grad_norm": 0.34148982, "learning_rate": 5.4e-06, "elapsed_time_per_iteration": 4.93199492, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 24s", "remaining_time": "1h 38m 53s", "loss_scale": 1.0, "consumed_samples": 2940928, "global_step/max_steps": "11488/12700"}
{"lm loss": 2.02288604, "grad_norm": 0.33171284, "learning_rate": 5.39e-06, "elapsed_time_per_iteration": 5.05364799, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 29s", "remaining_time": "1h 38m 49s", "loss_scale": 1.0, "consumed_samples": 2941184, "global_step/max_steps": "11489/12700"}
{"lm loss": 2.05268931, "grad_norm": 0.35114342, "learning_rate": 5.39e-06, "elapsed_time_per_iteration": 4.91118312, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 34s", "remaining_time": "1h 38m 44s", "loss_scale": 1.0, "consumed_samples": 2941440, "global_step/max_steps": "11490/12700"}
{"lm loss": 2.06822109, "grad_norm": 0.30754739, "learning_rate": 5.38e-06, "elapsed_time_per_iteration": 5.06051731, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 39s", "remaining_time": "1h 38m 39s", "loss_scale": 1.0, "consumed_samples": 2941696, "global_step/max_steps": "11491/12700"}
{"lm loss": 2.01702809, "grad_norm": 0.29804224, "learning_rate": 5.38e-06, "elapsed_time_per_iteration": 5.01672244, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 44s", "remaining_time": "1h 38m 34s", "loss_scale": 1.0, "consumed_samples": 2941952, "global_step/max_steps": "11492/12700"}
{"lm loss": 2.06492281, "grad_norm": 0.30905119, "learning_rate": 5.38e-06, "elapsed_time_per_iteration": 4.84981036, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 49s", "remaining_time": "1h 38m 29s", "loss_scale": 1.0, "consumed_samples": 2942208, "global_step/max_steps": "11493/12700"}
{"lm loss": 2.0415566, "grad_norm": 0.31200781, "learning_rate": 5.37e-06, "elapsed_time_per_iteration": 4.84509039, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 54s", "remaining_time": "1h 38m 24s", "loss_scale": 1.0, "consumed_samples": 2942464, "global_step/max_steps": "11494/12700"}
{"lm loss": 2.00723481, "grad_norm": 0.30345935, "learning_rate": 5.37e-06, "elapsed_time_per_iteration": 4.77278161, "memory(GiB)": 28.98, "elapsed_time": "15h 37m 59s", "remaining_time": "1h 38m 19s", "loss_scale": 1.0, "consumed_samples": 2942720, "global_step/max_steps": "11495/12700"}
{"lm loss": 2.05151725, "grad_norm": 0.34377891, "learning_rate": 5.36e-06, "elapsed_time_per_iteration": 4.87662911, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 4s", "remaining_time": "1h 38m 14s", "loss_scale": 1.0, "consumed_samples": 2942976, "global_step/max_steps": "11496/12700"}
{"lm loss": 2.0278933, "grad_norm": 0.32118753, "learning_rate": 5.36e-06, "elapsed_time_per_iteration": 4.87758327, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 9s", "remaining_time": "1h 38m 9s", "loss_scale": 1.0, "consumed_samples": 2943232, "global_step/max_steps": "11497/12700"}
{"lm loss": 2.07115173, "grad_norm": 0.31725985, "learning_rate": 5.36e-06, "elapsed_time_per_iteration": 4.83028555, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 13s", "remaining_time": "1h 38m 4s", "loss_scale": 1.0, "consumed_samples": 2943488, "global_step/max_steps": "11498/12700"}
{"lm loss": 2.07733297, "grad_norm": 0.30929741, "learning_rate": 5.35e-06, "elapsed_time_per_iteration": 4.81493497, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 18s", "remaining_time": "1h 38m 0s", "loss_scale": 1.0, "consumed_samples": 2943744, "global_step/max_steps": "11499/12700"}
{"lm loss": 2.09944749, "grad_norm": 0.30730686, "learning_rate": 5.35e-06, "elapsed_time_per_iteration": 4.97334552, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 23s", "remaining_time": "1h 37m 55s", "loss_scale": 1.0, "consumed_samples": 2944000, "global_step/max_steps": "11500/12700"}
{"lm loss": 2.04783535, "grad_norm": 0.29391414, "learning_rate": 5.34e-06, "elapsed_time_per_iteration": 5.07688308, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 28s", "remaining_time": "1h 37m 50s", "loss_scale": 1.0, "consumed_samples": 2944256, "global_step/max_steps": "11501/12700"}
{"lm loss": 2.04701209, "grad_norm": 0.30961478, "learning_rate": 5.34e-06, "elapsed_time_per_iteration": 4.90828872, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 33s", "remaining_time": "1h 37m 45s", "loss_scale": 1.0, "consumed_samples": 2944512, "global_step/max_steps": "11502/12700"}
{"lm loss": 2.03668427, "grad_norm": 0.31164774, "learning_rate": 5.34e-06, "elapsed_time_per_iteration": 4.85120249, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 38s", "remaining_time": "1h 37m 40s", "loss_scale": 1.0, "consumed_samples": 2944768, "global_step/max_steps": "11503/12700"}
{"lm loss": 2.04870462, "grad_norm": 0.30454013, "learning_rate": 5.33e-06, "elapsed_time_per_iteration": 4.88451838, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 43s", "remaining_time": "1h 37m 35s", "loss_scale": 1.0, "consumed_samples": 2945024, "global_step/max_steps": "11504/12700"}
{"lm loss": 2.04785061, "grad_norm": 0.30617636, "learning_rate": 5.33e-06, "elapsed_time_per_iteration": 4.91196656, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 48s", "remaining_time": "1h 37m 30s", "loss_scale": 1.0, "consumed_samples": 2945280, "global_step/max_steps": "11505/12700"}
{"lm loss": 2.0496037, "grad_norm": 0.31576905, "learning_rate": 5.33e-06, "elapsed_time_per_iteration": 4.77121305, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 53s", "remaining_time": "1h 37m 25s", "loss_scale": 1.0, "consumed_samples": 2945536, "global_step/max_steps": "11506/12700"}
{"lm loss": 2.05772305, "grad_norm": 0.30510592, "learning_rate": 5.32e-06, "elapsed_time_per_iteration": 5.00356579, "memory(GiB)": 28.98, "elapsed_time": "15h 38m 58s", "remaining_time": "1h 37m 20s", "loss_scale": 1.0, "consumed_samples": 2945792, "global_step/max_steps": "11507/12700"}
{"lm loss": 2.07031178, "grad_norm": 0.32086372, "learning_rate": 5.32e-06, "elapsed_time_per_iteration": 4.8399694, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 2s", "remaining_time": "1h 37m 16s", "loss_scale": 1.0, "consumed_samples": 2946048, "global_step/max_steps": "11508/12700"}
{"lm loss": 2.056499, "grad_norm": 0.30343151, "learning_rate": 5.31e-06, "elapsed_time_per_iteration": 4.87196589, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 7s", "remaining_time": "1h 37m 11s", "loss_scale": 1.0, "consumed_samples": 2946304, "global_step/max_steps": "11509/12700"}
{"lm loss": 2.01864982, "grad_norm": 0.29413033, "learning_rate": 5.31e-06, "elapsed_time_per_iteration": 4.89624286, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 12s", "remaining_time": "1h 37m 6s", "loss_scale": 1.0, "consumed_samples": 2946560, "global_step/max_steps": "11510/12700"}
{"lm loss": 2.01987743, "grad_norm": 0.30641633, "learning_rate": 5.31e-06, "elapsed_time_per_iteration": 4.83535552, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 17s", "remaining_time": "1h 37m 1s", "loss_scale": 1.0, "consumed_samples": 2946816, "global_step/max_steps": "11511/12700"}
{"lm loss": 2.03426266, "grad_norm": 0.30641249, "learning_rate": 5.3e-06, "elapsed_time_per_iteration": 4.82666659, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 22s", "remaining_time": "1h 36m 56s", "loss_scale": 1.0, "consumed_samples": 2947072, "global_step/max_steps": "11512/12700"}
{"lm loss": 2.04421115, "grad_norm": 0.31327707, "learning_rate": 5.3e-06, "elapsed_time_per_iteration": 4.9353559, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 27s", "remaining_time": "1h 36m 51s", "loss_scale": 1.0, "consumed_samples": 2947328, "global_step/max_steps": "11513/12700"}
{"lm loss": 2.03480482, "grad_norm": 0.32129419, "learning_rate": 5.29e-06, "elapsed_time_per_iteration": 4.78489542, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 32s", "remaining_time": "1h 36m 46s", "loss_scale": 1.0, "consumed_samples": 2947584, "global_step/max_steps": "11514/12700"}
{"lm loss": 2.08898997, "grad_norm": 0.32614049, "learning_rate": 5.29e-06, "elapsed_time_per_iteration": 4.91590977, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 37s", "remaining_time": "1h 36m 41s", "loss_scale": 1.0, "consumed_samples": 2947840, "global_step/max_steps": "11515/12700"}
{"lm loss": 1.99205601, "grad_norm": 0.38958246, "learning_rate": 5.29e-06, "elapsed_time_per_iteration": 4.95591521, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 41s", "remaining_time": "1h 36m 36s", "loss_scale": 1.0, "consumed_samples": 2948096, "global_step/max_steps": "11516/12700"}
{"lm loss": 2.02239776, "grad_norm": 0.3138853, "learning_rate": 5.28e-06, "elapsed_time_per_iteration": 4.91586757, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 46s", "remaining_time": "1h 36m 31s", "loss_scale": 1.0, "consumed_samples": 2948352, "global_step/max_steps": "11517/12700"}
{"lm loss": 2.03024673, "grad_norm": 0.29671052, "learning_rate": 5.28e-06, "elapsed_time_per_iteration": 4.94728351, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 51s", "remaining_time": "1h 36m 27s", "loss_scale": 1.0, "consumed_samples": 2948608, "global_step/max_steps": "11518/12700"}
{"lm loss": 2.05341148, "grad_norm": 0.31477505, "learning_rate": 5.28e-06, "elapsed_time_per_iteration": 4.96941733, "memory(GiB)": 28.98, "elapsed_time": "15h 39m 56s", "remaining_time": "1h 36m 22s", "loss_scale": 1.0, "consumed_samples": 2948864, "global_step/max_steps": "11519/12700"}
{"lm loss": 2.06598783, "grad_norm": 0.32119876, "learning_rate": 5.27e-06, "elapsed_time_per_iteration": 5.02058339, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 1s", "remaining_time": "1h 36m 17s", "loss_scale": 1.0, "consumed_samples": 2949120, "global_step/max_steps": "11520/12700"}
{"lm loss": 2.01912928, "grad_norm": 0.30056378, "learning_rate": 5.27e-06, "elapsed_time_per_iteration": 4.81293893, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 6s", "remaining_time": "1h 36m 12s", "loss_scale": 1.0, "consumed_samples": 2949376, "global_step/max_steps": "11521/12700"}
{"lm loss": 2.0625217, "grad_norm": 0.31245691, "learning_rate": 5.26e-06, "elapsed_time_per_iteration": 4.82871652, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 11s", "remaining_time": "1h 36m 7s", "loss_scale": 1.0, "consumed_samples": 2949632, "global_step/max_steps": "11522/12700"}
{"lm loss": 2.05898118, "grad_norm": 0.32322553, "learning_rate": 5.26e-06, "elapsed_time_per_iteration": 4.96471858, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 16s", "remaining_time": "1h 36m 2s", "loss_scale": 1.0, "consumed_samples": 2949888, "global_step/max_steps": "11523/12700"}
{"lm loss": 2.07502103, "grad_norm": 0.32222578, "learning_rate": 5.26e-06, "elapsed_time_per_iteration": 4.83664322, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 21s", "remaining_time": "1h 35m 57s", "loss_scale": 1.0, "consumed_samples": 2950144, "global_step/max_steps": "11524/12700"}
{"lm loss": 2.06109262, "grad_norm": 0.3214221, "learning_rate": 5.25e-06, "elapsed_time_per_iteration": 4.82736111, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 26s", "remaining_time": "1h 35m 52s", "loss_scale": 1.0, "consumed_samples": 2950400, "global_step/max_steps": "11525/12700"}
{"lm loss": 2.05823708, "grad_norm": 0.33411989, "learning_rate": 5.25e-06, "elapsed_time_per_iteration": 4.74197388, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 30s", "remaining_time": "1h 35m 47s", "loss_scale": 1.0, "consumed_samples": 2950656, "global_step/max_steps": "11526/12700"}
{"lm loss": 2.03996706, "grad_norm": 0.31960791, "learning_rate": 5.24e-06, "elapsed_time_per_iteration": 4.88299274, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 35s", "remaining_time": "1h 35m 42s", "loss_scale": 1.0, "consumed_samples": 2950912, "global_step/max_steps": "11527/12700"}
{"lm loss": 2.0365448, "grad_norm": 0.32224682, "learning_rate": 5.24e-06, "elapsed_time_per_iteration": 4.86394024, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 40s", "remaining_time": "1h 35m 38s", "loss_scale": 1.0, "consumed_samples": 2951168, "global_step/max_steps": "11528/12700"}
{"lm loss": 2.03937387, "grad_norm": 0.31793347, "learning_rate": 5.24e-06, "elapsed_time_per_iteration": 4.94226432, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 45s", "remaining_time": "1h 35m 33s", "loss_scale": 1.0, "consumed_samples": 2951424, "global_step/max_steps": "11529/12700"}
{"lm loss": 2.01152587, "grad_norm": 0.31110725, "learning_rate": 5.23e-06, "elapsed_time_per_iteration": 4.96207881, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 50s", "remaining_time": "1h 35m 28s", "loss_scale": 1.0, "consumed_samples": 2951680, "global_step/max_steps": "11530/12700"}
{"lm loss": 2.0500524, "grad_norm": 0.30940518, "learning_rate": 5.23e-06, "elapsed_time_per_iteration": 4.85858512, "memory(GiB)": 28.98, "elapsed_time": "15h 40m 55s", "remaining_time": "1h 35m 23s", "loss_scale": 1.0, "consumed_samples": 2951936, "global_step/max_steps": "11531/12700"}
{"lm loss": 2.0714519, "grad_norm": 0.33082134, "learning_rate": 5.23e-06, "elapsed_time_per_iteration": 4.88059044, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 0s", "remaining_time": "1h 35m 18s", "loss_scale": 1.0, "consumed_samples": 2952192, "global_step/max_steps": "11532/12700"}
{"lm loss": 2.08514214, "grad_norm": 0.32044783, "learning_rate": 5.22e-06, "elapsed_time_per_iteration": 4.78666997, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 5s", "remaining_time": "1h 35m 13s", "loss_scale": 1.0, "consumed_samples": 2952448, "global_step/max_steps": "11533/12700"}
{"lm loss": 2.08801079, "grad_norm": 0.29173201, "learning_rate": 5.22e-06, "elapsed_time_per_iteration": 4.81963229, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 9s", "remaining_time": "1h 35m 8s", "loss_scale": 1.0, "consumed_samples": 2952704, "global_step/max_steps": "11534/12700"}
{"lm loss": 2.04633546, "grad_norm": 0.29934594, "learning_rate": 5.21e-06, "elapsed_time_per_iteration": 4.87447548, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 14s", "remaining_time": "1h 35m 3s", "loss_scale": 1.0, "consumed_samples": 2952960, "global_step/max_steps": "11535/12700"}
{"lm loss": 2.06807065, "grad_norm": 0.31345877, "learning_rate": 5.21e-06, "elapsed_time_per_iteration": 4.88187122, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 19s", "remaining_time": "1h 34m 58s", "loss_scale": 1.0, "consumed_samples": 2953216, "global_step/max_steps": "11536/12700"}
{"lm loss": 2.04250932, "grad_norm": 0.32104817, "learning_rate": 5.21e-06, "elapsed_time_per_iteration": 4.91794825, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 24s", "remaining_time": "1h 34m 53s", "loss_scale": 1.0, "consumed_samples": 2953472, "global_step/max_steps": "11537/12700"}
{"lm loss": 2.06630683, "grad_norm": 0.33985433, "learning_rate": 5.2e-06, "elapsed_time_per_iteration": 4.84747577, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 29s", "remaining_time": "1h 34m 49s", "loss_scale": 1.0, "consumed_samples": 2953728, "global_step/max_steps": "11538/12700"}
{"lm loss": 2.05735254, "grad_norm": 0.31330186, "learning_rate": 5.2e-06, "elapsed_time_per_iteration": 4.9297688, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 34s", "remaining_time": "1h 34m 44s", "loss_scale": 1.0, "consumed_samples": 2953984, "global_step/max_steps": "11539/12700"}
{"lm loss": 2.02601886, "grad_norm": 0.31938419, "learning_rate": 5.2e-06, "elapsed_time_per_iteration": 4.92194009, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 39s", "remaining_time": "1h 34m 39s", "loss_scale": 1.0, "consumed_samples": 2954240, "global_step/max_steps": "11540/12700"}
{"lm loss": 2.04705501, "grad_norm": 0.33178994, "learning_rate": 5.19e-06, "elapsed_time_per_iteration": 4.93199492, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 44s", "remaining_time": "1h 34m 34s", "loss_scale": 1.0, "consumed_samples": 2954496, "global_step/max_steps": "11541/12700"}
{"lm loss": 2.03909588, "grad_norm": 0.32589883, "learning_rate": 5.19e-06, "elapsed_time_per_iteration": 4.83771873, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 48s", "remaining_time": "1h 34m 29s", "loss_scale": 1.0, "consumed_samples": 2954752, "global_step/max_steps": "11542/12700"}
{"lm loss": 2.05723691, "grad_norm": 0.31309, "learning_rate": 5.18e-06, "elapsed_time_per_iteration": 4.88505721, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 53s", "remaining_time": "1h 34m 24s", "loss_scale": 1.0, "consumed_samples": 2955008, "global_step/max_steps": "11543/12700"}
{"lm loss": 2.04099321, "grad_norm": 0.31842861, "learning_rate": 5.18e-06, "elapsed_time_per_iteration": 4.94089985, "memory(GiB)": 28.98, "elapsed_time": "15h 41m 58s", "remaining_time": "1h 34m 19s", "loss_scale": 1.0, "consumed_samples": 2955264, "global_step/max_steps": "11544/12700"}
{"lm loss": 2.07267284, "grad_norm": 0.3247138, "learning_rate": 5.18e-06, "elapsed_time_per_iteration": 4.95011926, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 3s", "remaining_time": "1h 34m 14s", "loss_scale": 1.0, "consumed_samples": 2955520, "global_step/max_steps": "11545/12700"}
{"lm loss": 2.02429891, "grad_norm": 0.30188838, "learning_rate": 5.17e-06, "elapsed_time_per_iteration": 4.88570762, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 8s", "remaining_time": "1h 34m 9s", "loss_scale": 1.0, "consumed_samples": 2955776, "global_step/max_steps": "11546/12700"}
{"lm loss": 2.05922866, "grad_norm": 0.30297932, "learning_rate": 5.17e-06, "elapsed_time_per_iteration": 4.87514257, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 13s", "remaining_time": "1h 34m 5s", "loss_scale": 1.0, "consumed_samples": 2956032, "global_step/max_steps": "11547/12700"}
{"lm loss": 2.03876948, "grad_norm": 0.30790406, "learning_rate": 5.17e-06, "elapsed_time_per_iteration": 4.88872552, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 18s", "remaining_time": "1h 34m 0s", "loss_scale": 1.0, "consumed_samples": 2956288, "global_step/max_steps": "11548/12700"}
{"lm loss": 2.03694892, "grad_norm": 0.3145507, "learning_rate": 5.16e-06, "elapsed_time_per_iteration": 4.80950928, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 23s", "remaining_time": "1h 33m 55s", "loss_scale": 1.0, "consumed_samples": 2956544, "global_step/max_steps": "11549/12700"}
{"lm loss": 2.04086232, "grad_norm": 0.30930251, "learning_rate": 5.16e-06, "elapsed_time_per_iteration": 4.90324306, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 28s", "remaining_time": "1h 33m 50s", "loss_scale": 1.0, "consumed_samples": 2956800, "global_step/max_steps": "11550/12700"}
{"lm loss": 2.04043055, "grad_norm": 0.31379524, "learning_rate": 5.15e-06, "elapsed_time_per_iteration": 4.98162866, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 33s", "remaining_time": "1h 33m 45s", "loss_scale": 1.0, "consumed_samples": 2957056, "global_step/max_steps": "11551/12700"}
{"lm loss": 2.04163456, "grad_norm": 0.30345175, "learning_rate": 5.15e-06, "elapsed_time_per_iteration": 4.91315603, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 38s", "remaining_time": "1h 33m 40s", "loss_scale": 1.0, "consumed_samples": 2957312, "global_step/max_steps": "11552/12700"}
{"lm loss": 2.05368328, "grad_norm": 0.3055881, "learning_rate": 5.15e-06, "elapsed_time_per_iteration": 4.91002655, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 42s", "remaining_time": "1h 33m 35s", "loss_scale": 1.0, "consumed_samples": 2957568, "global_step/max_steps": "11553/12700"}
{"lm loss": 2.07300019, "grad_norm": 0.30444634, "learning_rate": 5.14e-06, "elapsed_time_per_iteration": 4.79496431, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 47s", "remaining_time": "1h 33m 30s", "loss_scale": 1.0, "consumed_samples": 2957824, "global_step/max_steps": "11554/12700"}
{"lm loss": 2.02905536, "grad_norm": 0.35158947, "learning_rate": 5.14e-06, "elapsed_time_per_iteration": 4.86340475, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 52s", "remaining_time": "1h 33m 25s", "loss_scale": 1.0, "consumed_samples": 2958080, "global_step/max_steps": "11555/12700"}
{"lm loss": 2.03510594, "grad_norm": 0.36395353, "learning_rate": 5.14e-06, "elapsed_time_per_iteration": 4.89481378, "memory(GiB)": 28.98, "elapsed_time": "15h 42m 57s", "remaining_time": "1h 33m 20s", "loss_scale": 1.0, "consumed_samples": 2958336, "global_step/max_steps": "11556/12700"}
{"lm loss": 2.0337503, "grad_norm": 0.33200863, "learning_rate": 5.13e-06, "elapsed_time_per_iteration": 4.85760736, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 2s", "remaining_time": "1h 33m 16s", "loss_scale": 1.0, "consumed_samples": 2958592, "global_step/max_steps": "11557/12700"}
{"lm loss": 2.05487895, "grad_norm": 0.31213784, "learning_rate": 5.13e-06, "elapsed_time_per_iteration": 4.86812544, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 7s", "remaining_time": "1h 33m 11s", "loss_scale": 1.0, "consumed_samples": 2958848, "global_step/max_steps": "11558/12700"}
{"lm loss": 2.0545001, "grad_norm": 0.29893008, "learning_rate": 5.12e-06, "elapsed_time_per_iteration": 4.84390903, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 12s", "remaining_time": "1h 33m 6s", "loss_scale": 1.0, "consumed_samples": 2959104, "global_step/max_steps": "11559/12700"}
{"lm loss": 2.0640502, "grad_norm": 0.33396098, "learning_rate": 5.12e-06, "elapsed_time_per_iteration": 4.9280405, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 16s", "remaining_time": "1h 33m 1s", "loss_scale": 1.0, "consumed_samples": 2959360, "global_step/max_steps": "11560/12700"}
{"lm loss": 2.04914808, "grad_norm": 0.31146863, "learning_rate": 5.12e-06, "elapsed_time_per_iteration": 4.99311972, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 21s", "remaining_time": "1h 32m 56s", "loss_scale": 1.0, "consumed_samples": 2959616, "global_step/max_steps": "11561/12700"}
{"lm loss": 2.06727529, "grad_norm": 0.32237732, "learning_rate": 5.11e-06, "elapsed_time_per_iteration": 4.89348626, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 26s", "remaining_time": "1h 32m 51s", "loss_scale": 1.0, "consumed_samples": 2959872, "global_step/max_steps": "11562/12700"}
{"lm loss": 2.05073738, "grad_norm": 0.32874906, "learning_rate": 5.11e-06, "elapsed_time_per_iteration": 5.10022163, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 31s", "remaining_time": "1h 32m 46s", "loss_scale": 1.0, "consumed_samples": 2960128, "global_step/max_steps": "11563/12700"}
{"lm loss": 2.06865811, "grad_norm": 0.31897551, "learning_rate": 5.11e-06, "elapsed_time_per_iteration": 4.95672965, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 36s", "remaining_time": "1h 32m 41s", "loss_scale": 1.0, "consumed_samples": 2960384, "global_step/max_steps": "11564/12700"}
{"lm loss": 2.06314898, "grad_norm": 0.32741144, "learning_rate": 5.1e-06, "elapsed_time_per_iteration": 5.03892016, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 41s", "remaining_time": "1h 32m 36s", "loss_scale": 1.0, "consumed_samples": 2960640, "global_step/max_steps": "11565/12700"}
{"lm loss": 2.01953793, "grad_norm": 0.321899, "learning_rate": 5.1e-06, "elapsed_time_per_iteration": 4.88335943, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 46s", "remaining_time": "1h 32m 32s", "loss_scale": 1.0, "consumed_samples": 2960896, "global_step/max_steps": "11566/12700"}
{"lm loss": 2.01320171, "grad_norm": 0.31441328, "learning_rate": 5.1e-06, "elapsed_time_per_iteration": 4.91694045, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 51s", "remaining_time": "1h 32m 27s", "loss_scale": 1.0, "consumed_samples": 2961152, "global_step/max_steps": "11567/12700"}
{"lm loss": 2.05751467, "grad_norm": 0.30403218, "learning_rate": 5.09e-06, "elapsed_time_per_iteration": 4.84668565, "memory(GiB)": 28.98, "elapsed_time": "15h 43m 56s", "remaining_time": "1h 32m 22s", "loss_scale": 1.0, "consumed_samples": 2961408, "global_step/max_steps": "11568/12700"}
{"lm loss": 2.07022023, "grad_norm": 0.30767226, "learning_rate": 5.09e-06, "elapsed_time_per_iteration": 4.86158919, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 1s", "remaining_time": "1h 32m 17s", "loss_scale": 1.0, "consumed_samples": 2961664, "global_step/max_steps": "11569/12700"}
{"lm loss": 2.08231831, "grad_norm": 0.35378343, "learning_rate": 5.08e-06, "elapsed_time_per_iteration": 4.88449311, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 6s", "remaining_time": "1h 32m 12s", "loss_scale": 1.0, "consumed_samples": 2961920, "global_step/max_steps": "11570/12700"}
{"lm loss": 1.99273515, "grad_norm": 0.31215566, "learning_rate": 5.08e-06, "elapsed_time_per_iteration": 5.02107286, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 11s", "remaining_time": "1h 32m 7s", "loss_scale": 1.0, "consumed_samples": 2962176, "global_step/max_steps": "11571/12700"}
{"lm loss": 2.06316352, "grad_norm": 0.31405738, "learning_rate": 5.08e-06, "elapsed_time_per_iteration": 4.85718203, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 16s", "remaining_time": "1h 32m 2s", "loss_scale": 1.0, "consumed_samples": 2962432, "global_step/max_steps": "11572/12700"}
{"lm loss": 2.07619619, "grad_norm": 0.31559533, "learning_rate": 5.07e-06, "elapsed_time_per_iteration": 4.83816576, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 21s", "remaining_time": "1h 31m 57s", "loss_scale": 1.0, "consumed_samples": 2962688, "global_step/max_steps": "11573/12700"}
{"lm loss": 2.03810787, "grad_norm": 0.31056961, "learning_rate": 5.07e-06, "elapsed_time_per_iteration": 4.81667995, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 25s", "remaining_time": "1h 31m 52s", "loss_scale": 1.0, "consumed_samples": 2962944, "global_step/max_steps": "11574/12700"}
{"lm loss": 2.04030228, "grad_norm": 0.34588861, "learning_rate": 5.07e-06, "elapsed_time_per_iteration": 4.97124171, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 30s", "remaining_time": "1h 31m 47s", "loss_scale": 1.0, "consumed_samples": 2963200, "global_step/max_steps": "11575/12700"}
{"lm loss": 2.03498459, "grad_norm": 0.30157244, "learning_rate": 5.06e-06, "elapsed_time_per_iteration": 4.79907942, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 35s", "remaining_time": "1h 31m 43s", "loss_scale": 1.0, "consumed_samples": 2963456, "global_step/max_steps": "11576/12700"}
{"lm loss": 2.0277431, "grad_norm": 0.32934043, "learning_rate": 5.06e-06, "elapsed_time_per_iteration": 4.9283576, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 40s", "remaining_time": "1h 31m 38s", "loss_scale": 1.0, "consumed_samples": 2963712, "global_step/max_steps": "11577/12700"}
{"lm loss": 2.04242015, "grad_norm": 0.34135735, "learning_rate": 5.06e-06, "elapsed_time_per_iteration": 4.9309752, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 45s", "remaining_time": "1h 31m 33s", "loss_scale": 1.0, "consumed_samples": 2963968, "global_step/max_steps": "11578/12700"}
{"lm loss": 2.05678034, "grad_norm": 0.33223498, "learning_rate": 5.05e-06, "elapsed_time_per_iteration": 4.82980609, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 50s", "remaining_time": "1h 31m 28s", "loss_scale": 1.0, "consumed_samples": 2964224, "global_step/max_steps": "11579/12700"}
{"lm loss": 2.04608226, "grad_norm": 0.31319246, "learning_rate": 5.05e-06, "elapsed_time_per_iteration": 4.85929132, "memory(GiB)": 28.98, "elapsed_time": "15h 44m 55s", "remaining_time": "1h 31m 23s", "loss_scale": 1.0, "consumed_samples": 2964480, "global_step/max_steps": "11580/12700"}
{"lm loss": 2.04728484, "grad_norm": 0.31498259, "learning_rate": 5.04e-06, "elapsed_time_per_iteration": 4.86210108, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 0s", "remaining_time": "1h 31m 18s", "loss_scale": 1.0, "consumed_samples": 2964736, "global_step/max_steps": "11581/12700"}
{"lm loss": 2.07240582, "grad_norm": 0.32084262, "learning_rate": 5.04e-06, "elapsed_time_per_iteration": 4.93498111, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 5s", "remaining_time": "1h 31m 13s", "loss_scale": 1.0, "consumed_samples": 2964992, "global_step/max_steps": "11582/12700"}
{"lm loss": 2.03532672, "grad_norm": 0.31998995, "learning_rate": 5.04e-06, "elapsed_time_per_iteration": 4.879601, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 9s", "remaining_time": "1h 31m 8s", "loss_scale": 1.0, "consumed_samples": 2965248, "global_step/max_steps": "11583/12700"}
{"lm loss": 2.02474308, "grad_norm": 0.32938713, "learning_rate": 5.03e-06, "elapsed_time_per_iteration": 4.87426138, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 14s", "remaining_time": "1h 31m 3s", "loss_scale": 1.0, "consumed_samples": 2965504, "global_step/max_steps": "11584/12700"}
{"lm loss": 2.03873944, "grad_norm": 0.31134072, "learning_rate": 5.03e-06, "elapsed_time_per_iteration": 4.9199326, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 19s", "remaining_time": "1h 30m 58s", "loss_scale": 1.0, "consumed_samples": 2965760, "global_step/max_steps": "11585/12700"}
{"lm loss": 2.08631229, "grad_norm": 0.32054883, "learning_rate": 5.03e-06, "elapsed_time_per_iteration": 4.91204906, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 24s", "remaining_time": "1h 30m 54s", "loss_scale": 1.0, "consumed_samples": 2966016, "global_step/max_steps": "11586/12700"}
{"lm loss": 2.04123569, "grad_norm": 0.30324855, "learning_rate": 5.02e-06, "elapsed_time_per_iteration": 4.86148024, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 29s", "remaining_time": "1h 30m 49s", "loss_scale": 1.0, "consumed_samples": 2966272, "global_step/max_steps": "11587/12700"}
{"lm loss": 2.07189822, "grad_norm": 0.31151584, "learning_rate": 5.02e-06, "elapsed_time_per_iteration": 4.87087131, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 34s", "remaining_time": "1h 30m 44s", "loss_scale": 1.0, "consumed_samples": 2966528, "global_step/max_steps": "11588/12700"}
{"lm loss": 2.08898258, "grad_norm": 0.31974795, "learning_rate": 5.02e-06, "elapsed_time_per_iteration": 4.87995386, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 39s", "remaining_time": "1h 30m 39s", "loss_scale": 1.0, "consumed_samples": 2966784, "global_step/max_steps": "11589/12700"}
{"lm loss": 2.03218913, "grad_norm": 0.3103075, "learning_rate": 5.01e-06, "elapsed_time_per_iteration": 4.92929435, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 44s", "remaining_time": "1h 30m 34s", "loss_scale": 1.0, "consumed_samples": 2967040, "global_step/max_steps": "11590/12700"}
{"lm loss": 2.04104948, "grad_norm": 0.32371891, "learning_rate": 5.01e-06, "elapsed_time_per_iteration": 4.85770106, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 48s", "remaining_time": "1h 30m 29s", "loss_scale": 1.0, "consumed_samples": 2967296, "global_step/max_steps": "11591/12700"}
{"lm loss": 2.0359478, "grad_norm": 0.3077428, "learning_rate": 5e-06, "elapsed_time_per_iteration": 4.87207007, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 53s", "remaining_time": "1h 30m 24s", "loss_scale": 1.0, "consumed_samples": 2967552, "global_step/max_steps": "11592/12700"}
{"lm loss": 2.04744744, "grad_norm": 0.30629992, "learning_rate": 5e-06, "elapsed_time_per_iteration": 4.85422945, "memory(GiB)": 28.98, "elapsed_time": "15h 45m 58s", "remaining_time": "1h 30m 19s", "loss_scale": 1.0, "consumed_samples": 2967808, "global_step/max_steps": "11593/12700"}
{"lm loss": 2.05878639, "grad_norm": 0.31077203, "learning_rate": 5e-06, "elapsed_time_per_iteration": 4.91223955, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 3s", "remaining_time": "1h 30m 14s", "loss_scale": 1.0, "consumed_samples": 2968064, "global_step/max_steps": "11594/12700"}
{"lm loss": 2.07047272, "grad_norm": 0.303298, "learning_rate": 4.99e-06, "elapsed_time_per_iteration": 4.97837353, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 8s", "remaining_time": "1h 30m 10s", "loss_scale": 1.0, "consumed_samples": 2968320, "global_step/max_steps": "11595/12700"}
{"lm loss": 2.05075932, "grad_norm": 0.33095559, "learning_rate": 4.99e-06, "elapsed_time_per_iteration": 4.83650947, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 13s", "remaining_time": "1h 30m 5s", "loss_scale": 1.0, "consumed_samples": 2968576, "global_step/max_steps": "11596/12700"}
{"lm loss": 2.06223059, "grad_norm": 0.30854496, "learning_rate": 4.99e-06, "elapsed_time_per_iteration": 4.96994662, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 18s", "remaining_time": "1h 30m 0s", "loss_scale": 1.0, "consumed_samples": 2968832, "global_step/max_steps": "11597/12700"}
{"lm loss": 2.0485158, "grad_norm": 0.31660023, "learning_rate": 4.98e-06, "elapsed_time_per_iteration": 4.93723726, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 23s", "remaining_time": "1h 29m 55s", "loss_scale": 1.0, "consumed_samples": 2969088, "global_step/max_steps": "11598/12700"}
{"lm loss": 2.04572105, "grad_norm": 0.31797165, "learning_rate": 4.98e-06, "elapsed_time_per_iteration": 4.91513777, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 28s", "remaining_time": "1h 29m 50s", "loss_scale": 1.0, "consumed_samples": 2969344, "global_step/max_steps": "11599/12700"}
{"lm loss": 2.07473779, "grad_norm": 0.32317883, "learning_rate": 4.98e-06, "elapsed_time_per_iteration": 5.03088212, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 33s", "remaining_time": "1h 29m 45s", "loss_scale": 1.0, "consumed_samples": 2969600, "global_step/max_steps": "11600/12700"}
{"lm loss": 2.05894971, "grad_norm": 0.33096138, "learning_rate": 4.97e-06, "elapsed_time_per_iteration": 4.96615195, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 38s", "remaining_time": "1h 29m 40s", "loss_scale": 1.0, "consumed_samples": 2969856, "global_step/max_steps": "11601/12700"}
{"lm loss": 2.04224396, "grad_norm": 0.3061353, "learning_rate": 4.97e-06, "elapsed_time_per_iteration": 4.87253165, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 43s", "remaining_time": "1h 29m 35s", "loss_scale": 1.0, "consumed_samples": 2970112, "global_step/max_steps": "11602/12700"}
{"lm loss": 2.06019521, "grad_norm": 0.30980155, "learning_rate": 4.97e-06, "elapsed_time_per_iteration": 4.80549955, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 47s", "remaining_time": "1h 29m 30s", "loss_scale": 1.0, "consumed_samples": 2970368, "global_step/max_steps": "11603/12700"}
{"lm loss": 2.06168699, "grad_norm": 0.31179145, "learning_rate": 4.96e-06, "elapsed_time_per_iteration": 4.85810471, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 52s", "remaining_time": "1h 29m 25s", "loss_scale": 1.0, "consumed_samples": 2970624, "global_step/max_steps": "11604/12700"}
{"lm loss": 2.04765821, "grad_norm": 0.30947262, "learning_rate": 4.96e-06, "elapsed_time_per_iteration": 4.87066507, "memory(GiB)": 28.98, "elapsed_time": "15h 46m 57s", "remaining_time": "1h 29m 21s", "loss_scale": 1.0, "consumed_samples": 2970880, "global_step/max_steps": "11605/12700"}
{"lm loss": 2.05291867, "grad_norm": 0.31501782, "learning_rate": 4.95e-06, "elapsed_time_per_iteration": 4.92829728, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 2s", "remaining_time": "1h 29m 16s", "loss_scale": 1.0, "consumed_samples": 2971136, "global_step/max_steps": "11606/12700"}
{"lm loss": 2.02629948, "grad_norm": 0.3085317, "learning_rate": 4.95e-06, "elapsed_time_per_iteration": 4.88219643, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 7s", "remaining_time": "1h 29m 11s", "loss_scale": 1.0, "consumed_samples": 2971392, "global_step/max_steps": "11607/12700"}
{"lm loss": 2.04359698, "grad_norm": 0.31021187, "learning_rate": 4.95e-06, "elapsed_time_per_iteration": 4.80322266, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 12s", "remaining_time": "1h 29m 6s", "loss_scale": 1.0, "consumed_samples": 2971648, "global_step/max_steps": "11608/12700"}
{"lm loss": 2.0522995, "grad_norm": 0.30675641, "learning_rate": 4.94e-06, "elapsed_time_per_iteration": 4.85962629, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 17s", "remaining_time": "1h 29m 1s", "loss_scale": 1.0, "consumed_samples": 2971904, "global_step/max_steps": "11609/12700"}
{"lm loss": 2.05030322, "grad_norm": 0.31768593, "learning_rate": 4.94e-06, "elapsed_time_per_iteration": 5.09079552, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 22s", "remaining_time": "1h 28m 56s", "loss_scale": 1.0, "consumed_samples": 2972160, "global_step/max_steps": "11610/12700"}
{"lm loss": 2.03185129, "grad_norm": 0.3104066, "learning_rate": 4.94e-06, "elapsed_time_per_iteration": 4.857476, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 27s", "remaining_time": "1h 28m 51s", "loss_scale": 1.0, "consumed_samples": 2972416, "global_step/max_steps": "11611/12700"}
{"lm loss": 2.00978208, "grad_norm": 0.30390671, "learning_rate": 4.93e-06, "elapsed_time_per_iteration": 4.90249014, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 31s", "remaining_time": "1h 28m 46s", "loss_scale": 1.0, "consumed_samples": 2972672, "global_step/max_steps": "11612/12700"}
{"lm loss": 2.04046154, "grad_norm": 0.33539593, "learning_rate": 4.93e-06, "elapsed_time_per_iteration": 4.79205966, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 36s", "remaining_time": "1h 28m 41s", "loss_scale": 1.0, "consumed_samples": 2972928, "global_step/max_steps": "11613/12700"}
{"lm loss": 2.06313491, "grad_norm": 0.31783491, "learning_rate": 4.93e-06, "elapsed_time_per_iteration": 4.95641661, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 41s", "remaining_time": "1h 28m 37s", "loss_scale": 1.0, "consumed_samples": 2973184, "global_step/max_steps": "11614/12700"}
{"lm loss": 2.04131317, "grad_norm": 0.31184179, "learning_rate": 4.92e-06, "elapsed_time_per_iteration": 4.91551542, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 46s", "remaining_time": "1h 28m 32s", "loss_scale": 1.0, "consumed_samples": 2973440, "global_step/max_steps": "11615/12700"}
{"lm loss": 2.05553198, "grad_norm": 0.32987174, "learning_rate": 4.92e-06, "elapsed_time_per_iteration": 4.90166378, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 51s", "remaining_time": "1h 28m 27s", "loss_scale": 1.0, "consumed_samples": 2973696, "global_step/max_steps": "11616/12700"}
{"lm loss": 2.02982211, "grad_norm": 0.31511769, "learning_rate": 4.92e-06, "elapsed_time_per_iteration": 4.87199616, "memory(GiB)": 28.98, "elapsed_time": "15h 47m 56s", "remaining_time": "1h 28m 22s", "loss_scale": 1.0, "consumed_samples": 2973952, "global_step/max_steps": "11617/12700"}
{"lm loss": 2.08117414, "grad_norm": 0.31377843, "learning_rate": 4.91e-06, "elapsed_time_per_iteration": 4.94728899, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 1s", "remaining_time": "1h 28m 17s", "loss_scale": 1.0, "consumed_samples": 2974208, "global_step/max_steps": "11618/12700"}
{"lm loss": 2.03984141, "grad_norm": 0.33473402, "learning_rate": 4.91e-06, "elapsed_time_per_iteration": 4.89369583, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 6s", "remaining_time": "1h 28m 12s", "loss_scale": 1.0, "consumed_samples": 2974464, "global_step/max_steps": "11619/12700"}
{"lm loss": 2.0679903, "grad_norm": 0.32601967, "learning_rate": 4.91e-06, "elapsed_time_per_iteration": 4.89532018, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 11s", "remaining_time": "1h 28m 7s", "loss_scale": 1.0, "consumed_samples": 2974720, "global_step/max_steps": "11620/12700"}
{"lm loss": 2.07663822, "grad_norm": 0.31244096, "learning_rate": 4.9e-06, "elapsed_time_per_iteration": 4.84027886, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 16s", "remaining_time": "1h 28m 2s", "loss_scale": 1.0, "consumed_samples": 2974976, "global_step/max_steps": "11621/12700"}
{"lm loss": 2.06588221, "grad_norm": 0.31370616, "learning_rate": 4.9e-06, "elapsed_time_per_iteration": 4.97298431, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 20s", "remaining_time": "1h 27m 57s", "loss_scale": 1.0, "consumed_samples": 2975232, "global_step/max_steps": "11622/12700"}
{"lm loss": 2.04596519, "grad_norm": 0.30997697, "learning_rate": 4.89e-06, "elapsed_time_per_iteration": 4.95546842, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 25s", "remaining_time": "1h 27m 52s", "loss_scale": 1.0, "consumed_samples": 2975488, "global_step/max_steps": "11623/12700"}
{"lm loss": 2.04897928, "grad_norm": 0.34442031, "learning_rate": 4.89e-06, "elapsed_time_per_iteration": 4.88546658, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 30s", "remaining_time": "1h 27m 48s", "loss_scale": 1.0, "consumed_samples": 2975744, "global_step/max_steps": "11624/12700"}
{"lm loss": 2.06614137, "grad_norm": 0.31337568, "learning_rate": 4.89e-06, "elapsed_time_per_iteration": 4.91055417, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 35s", "remaining_time": "1h 27m 43s", "loss_scale": 1.0, "consumed_samples": 2976000, "global_step/max_steps": "11625/12700"}
{"lm loss": 2.0702529, "grad_norm": 0.30294824, "learning_rate": 4.88e-06, "elapsed_time_per_iteration": 4.86328721, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 40s", "remaining_time": "1h 27m 38s", "loss_scale": 1.0, "consumed_samples": 2976256, "global_step/max_steps": "11626/12700"}
{"lm loss": 2.04835939, "grad_norm": 0.30098522, "learning_rate": 4.88e-06, "elapsed_time_per_iteration": 4.89449072, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 45s", "remaining_time": "1h 27m 33s", "loss_scale": 1.0, "consumed_samples": 2976512, "global_step/max_steps": "11627/12700"}
{"lm loss": 2.03543806, "grad_norm": 0.31435871, "learning_rate": 4.88e-06, "elapsed_time_per_iteration": 4.99153686, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 50s", "remaining_time": "1h 27m 28s", "loss_scale": 1.0, "consumed_samples": 2976768, "global_step/max_steps": "11628/12700"}
{"lm loss": 2.07555008, "grad_norm": 0.32116517, "learning_rate": 4.87e-06, "elapsed_time_per_iteration": 4.90874171, "memory(GiB)": 28.98, "elapsed_time": "15h 48m 55s", "remaining_time": "1h 27m 23s", "loss_scale": 1.0, "consumed_samples": 2977024, "global_step/max_steps": "11629/12700"}
{"lm loss": 2.05531836, "grad_norm": 0.32605463, "learning_rate": 4.87e-06, "elapsed_time_per_iteration": 5.01920414, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 0s", "remaining_time": "1h 27m 18s", "loss_scale": 1.0, "consumed_samples": 2977280, "global_step/max_steps": "11630/12700"}
{"lm loss": 2.05163932, "grad_norm": 0.30966744, "learning_rate": 4.87e-06, "elapsed_time_per_iteration": 4.92233133, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 5s", "remaining_time": "1h 27m 13s", "loss_scale": 1.0, "consumed_samples": 2977536, "global_step/max_steps": "11631/12700"}
{"lm loss": 2.02470803, "grad_norm": 0.30942523, "learning_rate": 4.86e-06, "elapsed_time_per_iteration": 4.89109063, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 10s", "remaining_time": "1h 27m 8s", "loss_scale": 1.0, "consumed_samples": 2977792, "global_step/max_steps": "11632/12700"}
{"lm loss": 2.05246449, "grad_norm": 0.3104009, "learning_rate": 4.86e-06, "elapsed_time_per_iteration": 4.89829254, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 15s", "remaining_time": "1h 27m 4s", "loss_scale": 1.0, "consumed_samples": 2978048, "global_step/max_steps": "11633/12700"}
{"lm loss": 2.05007315, "grad_norm": 0.32207689, "learning_rate": 4.86e-06, "elapsed_time_per_iteration": 4.89058208, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 20s", "remaining_time": "1h 26m 59s", "loss_scale": 1.0, "consumed_samples": 2978304, "global_step/max_steps": "11634/12700"}
{"lm loss": 2.069031, "grad_norm": 0.31430182, "learning_rate": 4.85e-06, "elapsed_time_per_iteration": 4.7974546, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 24s", "remaining_time": "1h 26m 54s", "loss_scale": 1.0, "consumed_samples": 2978560, "global_step/max_steps": "11635/12700"}
{"lm loss": 2.0571034, "grad_norm": 0.31695208, "learning_rate": 4.85e-06, "elapsed_time_per_iteration": 4.77830434, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 29s", "remaining_time": "1h 26m 49s", "loss_scale": 1.0, "consumed_samples": 2978816, "global_step/max_steps": "11636/12700"}
{"lm loss": 2.03350329, "grad_norm": 0.30286157, "learning_rate": 4.85e-06, "elapsed_time_per_iteration": 4.80449009, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 34s", "remaining_time": "1h 26m 44s", "loss_scale": 1.0, "consumed_samples": 2979072, "global_step/max_steps": "11637/12700"}
{"lm loss": 2.03467345, "grad_norm": 0.30911502, "learning_rate": 4.84e-06, "elapsed_time_per_iteration": 4.9099052, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 39s", "remaining_time": "1h 26m 39s", "loss_scale": 1.0, "consumed_samples": 2979328, "global_step/max_steps": "11638/12700"}
{"lm loss": 2.03434968, "grad_norm": 0.31006125, "learning_rate": 4.84e-06, "elapsed_time_per_iteration": 4.86498737, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 44s", "remaining_time": "1h 26m 34s", "loss_scale": 1.0, "consumed_samples": 2979584, "global_step/max_steps": "11639/12700"}
{"lm loss": 2.04365969, "grad_norm": 0.31780213, "learning_rate": 4.84e-06, "elapsed_time_per_iteration": 4.93859696, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 49s", "remaining_time": "1h 26m 29s", "loss_scale": 1.0, "consumed_samples": 2979840, "global_step/max_steps": "11640/12700"}
{"lm loss": 2.06813788, "grad_norm": 0.32438105, "learning_rate": 4.83e-06, "elapsed_time_per_iteration": 4.89326835, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 53s", "remaining_time": "1h 26m 24s", "loss_scale": 1.0, "consumed_samples": 2980096, "global_step/max_steps": "11641/12700"}
{"lm loss": 2.06619191, "grad_norm": 0.31626719, "learning_rate": 4.83e-06, "elapsed_time_per_iteration": 4.83691144, "memory(GiB)": 28.98, "elapsed_time": "15h 49m 58s", "remaining_time": "1h 26m 19s", "loss_scale": 1.0, "consumed_samples": 2980352, "global_step/max_steps": "11642/12700"}
{"lm loss": 2.10202718, "grad_norm": 0.31694424, "learning_rate": 4.83e-06, "elapsed_time_per_iteration": 4.89794016, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 3s", "remaining_time": "1h 26m 15s", "loss_scale": 1.0, "consumed_samples": 2980608, "global_step/max_steps": "11643/12700"}
{"lm loss": 2.02793169, "grad_norm": 0.31712335, "learning_rate": 4.82e-06, "elapsed_time_per_iteration": 4.85325003, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 8s", "remaining_time": "1h 26m 10s", "loss_scale": 1.0, "consumed_samples": 2980864, "global_step/max_steps": "11644/12700"}
{"lm loss": 2.07092428, "grad_norm": 0.30993026, "learning_rate": 4.82e-06, "elapsed_time_per_iteration": 4.84911442, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 13s", "remaining_time": "1h 26m 5s", "loss_scale": 1.0, "consumed_samples": 2981120, "global_step/max_steps": "11645/12700"}
{"lm loss": 2.06688666, "grad_norm": 0.30212653, "learning_rate": 4.82e-06, "elapsed_time_per_iteration": 4.83706665, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 18s", "remaining_time": "1h 26m 0s", "loss_scale": 1.0, "consumed_samples": 2981376, "global_step/max_steps": "11646/12700"}
{"lm loss": 2.01748753, "grad_norm": 0.30117136, "learning_rate": 4.81e-06, "elapsed_time_per_iteration": 4.84299064, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 23s", "remaining_time": "1h 25m 55s", "loss_scale": 1.0, "consumed_samples": 2981632, "global_step/max_steps": "11647/12700"}
{"lm loss": 2.05359817, "grad_norm": 0.33234617, "learning_rate": 4.81e-06, "elapsed_time_per_iteration": 4.8057549, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 27s", "remaining_time": "1h 25m 50s", "loss_scale": 1.0, "consumed_samples": 2981888, "global_step/max_steps": "11648/12700"}
{"lm loss": 2.04286909, "grad_norm": 0.30913368, "learning_rate": 4.8e-06, "elapsed_time_per_iteration": 4.9263525, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 32s", "remaining_time": "1h 25m 45s", "loss_scale": 1.0, "consumed_samples": 2982144, "global_step/max_steps": "11649/12700"}
{"lm loss": 2.04674149, "grad_norm": 0.30407014, "learning_rate": 4.8e-06, "elapsed_time_per_iteration": 4.81118274, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 37s", "remaining_time": "1h 25m 40s", "loss_scale": 1.0, "consumed_samples": 2982400, "global_step/max_steps": "11650/12700"}
{"lm loss": 2.03447151, "grad_norm": 0.30441082, "learning_rate": 4.8e-06, "elapsed_time_per_iteration": 4.91321421, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 42s", "remaining_time": "1h 25m 35s", "loss_scale": 1.0, "consumed_samples": 2982656, "global_step/max_steps": "11651/12700"}
{"lm loss": 2.05521464, "grad_norm": 0.30002269, "learning_rate": 4.79e-06, "elapsed_time_per_iteration": 4.93473005, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 47s", "remaining_time": "1h 25m 30s", "loss_scale": 1.0, "consumed_samples": 2982912, "global_step/max_steps": "11652/12700"}
{"lm loss": 2.04953456, "grad_norm": 0.33355367, "learning_rate": 4.79e-06, "elapsed_time_per_iteration": 4.93069839, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 52s", "remaining_time": "1h 25m 26s", "loss_scale": 1.0, "consumed_samples": 2983168, "global_step/max_steps": "11653/12700"}
{"lm loss": 2.04503441, "grad_norm": 0.32175186, "learning_rate": 4.79e-06, "elapsed_time_per_iteration": 4.90772748, "memory(GiB)": 28.98, "elapsed_time": "15h 50m 57s", "remaining_time": "1h 25m 21s", "loss_scale": 1.0, "consumed_samples": 2983424, "global_step/max_steps": "11654/12700"}
{"lm loss": 2.03736353, "grad_norm": 0.30482188, "learning_rate": 4.78e-06, "elapsed_time_per_iteration": 4.90442014, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 2s", "remaining_time": "1h 25m 16s", "loss_scale": 1.0, "consumed_samples": 2983680, "global_step/max_steps": "11655/12700"}
{"lm loss": 2.0521276, "grad_norm": 0.31670162, "learning_rate": 4.78e-06, "elapsed_time_per_iteration": 4.86774731, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 7s", "remaining_time": "1h 25m 11s", "loss_scale": 1.0, "consumed_samples": 2983936, "global_step/max_steps": "11656/12700"}
{"lm loss": 2.0570004, "grad_norm": 0.32616562, "learning_rate": 4.78e-06, "elapsed_time_per_iteration": 4.82870126, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 11s", "remaining_time": "1h 25m 6s", "loss_scale": 1.0, "consumed_samples": 2984192, "global_step/max_steps": "11657/12700"}
{"lm loss": 2.08743334, "grad_norm": 0.35239157, "learning_rate": 4.77e-06, "elapsed_time_per_iteration": 4.85000944, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 16s", "remaining_time": "1h 25m 1s", "loss_scale": 1.0, "consumed_samples": 2984448, "global_step/max_steps": "11658/12700"}
{"lm loss": 2.0425961, "grad_norm": 0.30772427, "learning_rate": 4.77e-06, "elapsed_time_per_iteration": 5.01249003, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 21s", "remaining_time": "1h 24m 56s", "loss_scale": 1.0, "consumed_samples": 2984704, "global_step/max_steps": "11659/12700"}
{"lm loss": 2.06431174, "grad_norm": 0.32081848, "learning_rate": 4.77e-06, "elapsed_time_per_iteration": 4.88346195, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 26s", "remaining_time": "1h 24m 51s", "loss_scale": 1.0, "consumed_samples": 2984960, "global_step/max_steps": "11660/12700"}
{"lm loss": 2.04021072, "grad_norm": 0.31172505, "learning_rate": 4.76e-06, "elapsed_time_per_iteration": 4.86913514, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 31s", "remaining_time": "1h 24m 46s", "loss_scale": 1.0, "consumed_samples": 2985216, "global_step/max_steps": "11661/12700"}
{"lm loss": 2.02533865, "grad_norm": 0.31757236, "learning_rate": 4.76e-06, "elapsed_time_per_iteration": 5.058815, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 36s", "remaining_time": "1h 24m 42s", "loss_scale": 1.0, "consumed_samples": 2985472, "global_step/max_steps": "11662/12700"}
{"lm loss": 2.04188919, "grad_norm": 0.30277181, "learning_rate": 4.76e-06, "elapsed_time_per_iteration": 4.84743309, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 41s", "remaining_time": "1h 24m 37s", "loss_scale": 1.0, "consumed_samples": 2985728, "global_step/max_steps": "11663/12700"}
{"lm loss": 2.03207755, "grad_norm": 0.31462917, "learning_rate": 4.75e-06, "elapsed_time_per_iteration": 4.9007988, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 46s", "remaining_time": "1h 24m 32s", "loss_scale": 1.0, "consumed_samples": 2985984, "global_step/max_steps": "11664/12700"}
{"lm loss": 2.01623178, "grad_norm": 0.33994004, "learning_rate": 4.75e-06, "elapsed_time_per_iteration": 4.8729012, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 51s", "remaining_time": "1h 24m 27s", "loss_scale": 1.0, "consumed_samples": 2986240, "global_step/max_steps": "11665/12700"}
{"lm loss": 2.04159403, "grad_norm": 0.33280045, "learning_rate": 4.75e-06, "elapsed_time_per_iteration": 4.89752722, "memory(GiB)": 28.98, "elapsed_time": "15h 51m 56s", "remaining_time": "1h 24m 22s", "loss_scale": 1.0, "consumed_samples": 2986496, "global_step/max_steps": "11666/12700"}
{"lm loss": 2.03505635, "grad_norm": 0.30019698, "learning_rate": 4.74e-06, "elapsed_time_per_iteration": 4.9789288, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 1s", "remaining_time": "1h 24m 17s", "loss_scale": 1.0, "consumed_samples": 2986752, "global_step/max_steps": "11667/12700"}
{"lm loss": 2.02896047, "grad_norm": 0.30863842, "learning_rate": 4.74e-06, "elapsed_time_per_iteration": 4.94497514, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 6s", "remaining_time": "1h 24m 12s", "loss_scale": 1.0, "consumed_samples": 2987008, "global_step/max_steps": "11668/12700"}
{"lm loss": 1.99106503, "grad_norm": 0.33269873, "learning_rate": 4.74e-06, "elapsed_time_per_iteration": 4.86471462, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 10s", "remaining_time": "1h 24m 7s", "loss_scale": 1.0, "consumed_samples": 2987264, "global_step/max_steps": "11669/12700"}
{"lm loss": 2.05328822, "grad_norm": 0.31290647, "learning_rate": 4.73e-06, "elapsed_time_per_iteration": 4.88030457, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 15s", "remaining_time": "1h 24m 2s", "loss_scale": 1.0, "consumed_samples": 2987520, "global_step/max_steps": "11670/12700"}
{"lm loss": 2.00946236, "grad_norm": 0.29648629, "learning_rate": 4.73e-06, "elapsed_time_per_iteration": 4.86867976, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 20s", "remaining_time": "1h 23m 57s", "loss_scale": 1.0, "consumed_samples": 2987776, "global_step/max_steps": "11671/12700"}
{"lm loss": 2.02900243, "grad_norm": 0.32913521, "learning_rate": 4.73e-06, "elapsed_time_per_iteration": 4.89438677, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 25s", "remaining_time": "1h 23m 53s", "loss_scale": 1.0, "consumed_samples": 2988032, "global_step/max_steps": "11672/12700"}
{"lm loss": 2.05169964, "grad_norm": 0.32895619, "learning_rate": 4.72e-06, "elapsed_time_per_iteration": 4.95200086, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 30s", "remaining_time": "1h 23m 48s", "loss_scale": 1.0, "consumed_samples": 2988288, "global_step/max_steps": "11673/12700"}
{"lm loss": 2.03772569, "grad_norm": 0.31389999, "learning_rate": 4.72e-06, "elapsed_time_per_iteration": 4.84965014, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 35s", "remaining_time": "1h 23m 43s", "loss_scale": 1.0, "consumed_samples": 2988544, "global_step/max_steps": "11674/12700"}
{"lm loss": 2.05439162, "grad_norm": 0.33224705, "learning_rate": 4.72e-06, "elapsed_time_per_iteration": 4.80375457, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 40s", "remaining_time": "1h 23m 38s", "loss_scale": 1.0, "consumed_samples": 2988800, "global_step/max_steps": "11675/12700"}
{"lm loss": 2.0352757, "grad_norm": 0.33325109, "learning_rate": 4.71e-06, "elapsed_time_per_iteration": 4.83318949, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 45s", "remaining_time": "1h 23m 33s", "loss_scale": 1.0, "consumed_samples": 2989056, "global_step/max_steps": "11676/12700"}
{"lm loss": 2.0292747, "grad_norm": 0.30817148, "learning_rate": 4.71e-06, "elapsed_time_per_iteration": 4.73557115, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 49s", "remaining_time": "1h 23m 28s", "loss_scale": 1.0, "consumed_samples": 2989312, "global_step/max_steps": "11677/12700"}
{"lm loss": 2.06078243, "grad_norm": 0.33595791, "learning_rate": 4.71e-06, "elapsed_time_per_iteration": 4.94155741, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 54s", "remaining_time": "1h 23m 23s", "loss_scale": 1.0, "consumed_samples": 2989568, "global_step/max_steps": "11678/12700"}
{"lm loss": 2.03949213, "grad_norm": 0.31643963, "learning_rate": 4.7e-06, "elapsed_time_per_iteration": 4.8522234, "memory(GiB)": 28.98, "elapsed_time": "15h 52m 59s", "remaining_time": "1h 23m 18s", "loss_scale": 1.0, "consumed_samples": 2989824, "global_step/max_steps": "11679/12700"}
{"lm loss": 2.03927135, "grad_norm": 0.31128794, "learning_rate": 4.7e-06, "elapsed_time_per_iteration": 4.84429574, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 4s", "remaining_time": "1h 23m 13s", "loss_scale": 1.0, "consumed_samples": 2990080, "global_step/max_steps": "11680/12700"}
{"lm loss": 2.03313375, "grad_norm": 0.31368983, "learning_rate": 4.7e-06, "elapsed_time_per_iteration": 4.87135935, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 9s", "remaining_time": "1h 23m 8s", "loss_scale": 1.0, "consumed_samples": 2990336, "global_step/max_steps": "11681/12700"}
{"lm loss": 2.06486297, "grad_norm": 0.31543565, "learning_rate": 4.69e-06, "elapsed_time_per_iteration": 4.91646934, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 14s", "remaining_time": "1h 23m 4s", "loss_scale": 1.0, "consumed_samples": 2990592, "global_step/max_steps": "11682/12700"}
{"lm loss": 2.03394413, "grad_norm": 0.32568607, "learning_rate": 4.69e-06, "elapsed_time_per_iteration": 4.83348703, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 19s", "remaining_time": "1h 22m 59s", "loss_scale": 1.0, "consumed_samples": 2990848, "global_step/max_steps": "11683/12700"}
{"lm loss": 2.02681041, "grad_norm": 0.31363204, "learning_rate": 4.69e-06, "elapsed_time_per_iteration": 4.80106616, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 23s", "remaining_time": "1h 22m 54s", "loss_scale": 1.0, "consumed_samples": 2991104, "global_step/max_steps": "11684/12700"}
{"lm loss": 1.97706521, "grad_norm": 0.32317722, "learning_rate": 4.68e-06, "elapsed_time_per_iteration": 4.99141622, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 28s", "remaining_time": "1h 22m 49s", "loss_scale": 1.0, "consumed_samples": 2991360, "global_step/max_steps": "11685/12700"}
{"lm loss": 2.08905339, "grad_norm": 0.30657631, "learning_rate": 4.68e-06, "elapsed_time_per_iteration": 4.92881107, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 33s", "remaining_time": "1h 22m 44s", "loss_scale": 1.0, "consumed_samples": 2991616, "global_step/max_steps": "11686/12700"}
{"lm loss": 2.07443762, "grad_norm": 0.33080745, "learning_rate": 4.68e-06, "elapsed_time_per_iteration": 4.90504718, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 38s", "remaining_time": "1h 22m 39s", "loss_scale": 1.0, "consumed_samples": 2991872, "global_step/max_steps": "11687/12700"}
{"lm loss": 2.0302217, "grad_norm": 0.2985535, "learning_rate": 4.67e-06, "elapsed_time_per_iteration": 4.87984061, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 43s", "remaining_time": "1h 22m 34s", "loss_scale": 1.0, "consumed_samples": 2992128, "global_step/max_steps": "11688/12700"}
{"lm loss": 2.07662272, "grad_norm": 0.31465632, "learning_rate": 4.67e-06, "elapsed_time_per_iteration": 4.82803869, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 48s", "remaining_time": "1h 22m 29s", "loss_scale": 1.0, "consumed_samples": 2992384, "global_step/max_steps": "11689/12700"}
{"lm loss": 2.0774138, "grad_norm": 0.32780486, "learning_rate": 4.67e-06, "elapsed_time_per_iteration": 4.95187545, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 53s", "remaining_time": "1h 22m 24s", "loss_scale": 1.0, "consumed_samples": 2992640, "global_step/max_steps": "11690/12700"}
{"lm loss": 2.052598, "grad_norm": 0.34333298, "learning_rate": 4.66e-06, "elapsed_time_per_iteration": 4.84546018, "memory(GiB)": 28.98, "elapsed_time": "15h 53m 58s", "remaining_time": "1h 22m 19s", "loss_scale": 1.0, "consumed_samples": 2992896, "global_step/max_steps": "11691/12700"}
{"lm loss": 2.05115914, "grad_norm": 0.31628326, "learning_rate": 4.66e-06, "elapsed_time_per_iteration": 4.89273667, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 3s", "remaining_time": "1h 22m 15s", "loss_scale": 1.0, "consumed_samples": 2993152, "global_step/max_steps": "11692/12700"}
{"lm loss": 2.0352385, "grad_norm": 0.30048129, "learning_rate": 4.66e-06, "elapsed_time_per_iteration": 4.92755008, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 7s", "remaining_time": "1h 22m 10s", "loss_scale": 1.0, "consumed_samples": 2993408, "global_step/max_steps": "11693/12700"}
{"lm loss": 2.06710076, "grad_norm": 0.32813472, "learning_rate": 4.65e-06, "elapsed_time_per_iteration": 4.9571712, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 12s", "remaining_time": "1h 22m 5s", "loss_scale": 1.0, "consumed_samples": 2993664, "global_step/max_steps": "11694/12700"}
{"lm loss": 2.02013993, "grad_norm": 0.31677496, "learning_rate": 4.65e-06, "elapsed_time_per_iteration": 4.82826996, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 17s", "remaining_time": "1h 22m 0s", "loss_scale": 1.0, "consumed_samples": 2993920, "global_step/max_steps": "11695/12700"}
{"lm loss": 2.08491468, "grad_norm": 0.29878983, "learning_rate": 4.65e-06, "elapsed_time_per_iteration": 4.88426447, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 22s", "remaining_time": "1h 21m 55s", "loss_scale": 1.0, "consumed_samples": 2994176, "global_step/max_steps": "11696/12700"}
{"lm loss": 2.04167962, "grad_norm": 0.31263968, "learning_rate": 4.64e-06, "elapsed_time_per_iteration": 4.90805173, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 27s", "remaining_time": "1h 21m 50s", "loss_scale": 1.0, "consumed_samples": 2994432, "global_step/max_steps": "11697/12700"}
{"lm loss": 2.0321207, "grad_norm": 0.30907711, "learning_rate": 4.64e-06, "elapsed_time_per_iteration": 4.88241076, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 32s", "remaining_time": "1h 21m 45s", "loss_scale": 1.0, "consumed_samples": 2994688, "global_step/max_steps": "11698/12700"}
{"lm loss": 2.04285645, "grad_norm": 0.31363317, "learning_rate": 4.64e-06, "elapsed_time_per_iteration": 4.89489055, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 37s", "remaining_time": "1h 21m 40s", "loss_scale": 1.0, "consumed_samples": 2994944, "global_step/max_steps": "11699/12700"}
{"lm loss": 2.02794003, "grad_norm": 0.30837837, "learning_rate": 4.63e-06, "elapsed_time_per_iteration": 4.9133327, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 42s", "remaining_time": "1h 21m 35s", "loss_scale": 1.0, "consumed_samples": 2995200, "global_step/max_steps": "11700/12700"}
{"lm loss": 2.05999637, "grad_norm": 0.30318516, "learning_rate": 4.63e-06, "elapsed_time_per_iteration": 4.83662891, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 47s", "remaining_time": "1h 21m 31s", "loss_scale": 1.0, "consumed_samples": 2995456, "global_step/max_steps": "11701/12700"}
{"lm loss": 2.07860756, "grad_norm": 0.33457893, "learning_rate": 4.63e-06, "elapsed_time_per_iteration": 4.88195848, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 51s", "remaining_time": "1h 21m 26s", "loss_scale": 1.0, "consumed_samples": 2995712, "global_step/max_steps": "11702/12700"}
{"lm loss": 2.05256295, "grad_norm": 0.31852093, "learning_rate": 4.63e-06, "elapsed_time_per_iteration": 4.79823899, "memory(GiB)": 28.98, "elapsed_time": "15h 54m 56s", "remaining_time": "1h 21m 21s", "loss_scale": 1.0, "consumed_samples": 2995968, "global_step/max_steps": "11703/12700"}
{"lm loss": 2.02817702, "grad_norm": 0.31497565, "learning_rate": 4.62e-06, "elapsed_time_per_iteration": 4.79262137, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 1s", "remaining_time": "1h 21m 16s", "loss_scale": 1.0, "consumed_samples": 2996224, "global_step/max_steps": "11704/12700"}
{"lm loss": 2.06475782, "grad_norm": 0.31492797, "learning_rate": 4.62e-06, "elapsed_time_per_iteration": 4.83737493, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 6s", "remaining_time": "1h 21m 11s", "loss_scale": 1.0, "consumed_samples": 2996480, "global_step/max_steps": "11705/12700"}
{"lm loss": 2.04760981, "grad_norm": 0.3106707, "learning_rate": 4.62e-06, "elapsed_time_per_iteration": 4.80411673, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 11s", "remaining_time": "1h 21m 6s", "loss_scale": 1.0, "consumed_samples": 2996736, "global_step/max_steps": "11706/12700"}
{"lm loss": 2.03915739, "grad_norm": 0.32353249, "learning_rate": 4.61e-06, "elapsed_time_per_iteration": 4.9210999, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 16s", "remaining_time": "1h 21m 1s", "loss_scale": 1.0, "consumed_samples": 2996992, "global_step/max_steps": "11707/12700"}
{"lm loss": 2.04832363, "grad_norm": 0.32346362, "learning_rate": 4.61e-06, "elapsed_time_per_iteration": 4.86335015, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 20s", "remaining_time": "1h 20m 56s", "loss_scale": 1.0, "consumed_samples": 2997248, "global_step/max_steps": "11708/12700"}
{"lm loss": 2.04212785, "grad_norm": 0.31225505, "learning_rate": 4.61e-06, "elapsed_time_per_iteration": 4.83866858, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 25s", "remaining_time": "1h 20m 51s", "loss_scale": 1.0, "consumed_samples": 2997504, "global_step/max_steps": "11709/12700"}
{"lm loss": 2.04776716, "grad_norm": 0.32718319, "learning_rate": 4.6e-06, "elapsed_time_per_iteration": 4.8366971, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 30s", "remaining_time": "1h 20m 46s", "loss_scale": 1.0, "consumed_samples": 2997760, "global_step/max_steps": "11710/12700"}
{"lm loss": 2.05233693, "grad_norm": 0.33520284, "learning_rate": 4.6e-06, "elapsed_time_per_iteration": 4.90931487, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 35s", "remaining_time": "1h 20m 42s", "loss_scale": 1.0, "consumed_samples": 2998016, "global_step/max_steps": "11711/12700"}
{"lm loss": 2.0663588, "grad_norm": 0.30824044, "learning_rate": 4.6e-06, "elapsed_time_per_iteration": 4.89817858, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 40s", "remaining_time": "1h 20m 37s", "loss_scale": 1.0, "consumed_samples": 2998272, "global_step/max_steps": "11712/12700"}
{"lm loss": 2.04502416, "grad_norm": 0.31171441, "learning_rate": 4.59e-06, "elapsed_time_per_iteration": 4.9359529, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 45s", "remaining_time": "1h 20m 32s", "loss_scale": 1.0, "consumed_samples": 2998528, "global_step/max_steps": "11713/12700"}
{"lm loss": 1.99140656, "grad_norm": 0.30864841, "learning_rate": 4.59e-06, "elapsed_time_per_iteration": 5.01699805, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 50s", "remaining_time": "1h 20m 27s", "loss_scale": 1.0, "consumed_samples": 2998784, "global_step/max_steps": "11714/12700"}
{"lm loss": 2.02011037, "grad_norm": 0.30851761, "learning_rate": 4.59e-06, "elapsed_time_per_iteration": 4.79902387, "memory(GiB)": 28.98, "elapsed_time": "15h 55m 55s", "remaining_time": "1h 20m 22s", "loss_scale": 1.0, "consumed_samples": 2999040, "global_step/max_steps": "11715/12700"}
{"lm loss": 2.05270791, "grad_norm": 0.31529927, "learning_rate": 4.58e-06, "elapsed_time_per_iteration": 4.82343078, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 0s", "remaining_time": "1h 20m 17s", "loss_scale": 1.0, "consumed_samples": 2999296, "global_step/max_steps": "11716/12700"}
{"lm loss": 2.038692, "grad_norm": 0.29333273, "learning_rate": 4.58e-06, "elapsed_time_per_iteration": 4.89789915, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 4s", "remaining_time": "1h 20m 12s", "loss_scale": 1.0, "consumed_samples": 2999552, "global_step/max_steps": "11717/12700"}
{"lm loss": 2.03838944, "grad_norm": 0.3064402, "learning_rate": 4.58e-06, "elapsed_time_per_iteration": 4.83114171, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 9s", "remaining_time": "1h 20m 7s", "loss_scale": 1.0, "consumed_samples": 2999808, "global_step/max_steps": "11718/12700"}
{"lm loss": 2.09809947, "grad_norm": 0.33299002, "learning_rate": 4.57e-06, "elapsed_time_per_iteration": 4.94255352, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 14s", "remaining_time": "1h 20m 2s", "loss_scale": 1.0, "consumed_samples": 3000064, "global_step/max_steps": "11719/12700"}
{"lm loss": 2.03540134, "grad_norm": 0.31103176, "learning_rate": 4.57e-06, "elapsed_time_per_iteration": 4.7941761, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 19s", "remaining_time": "1h 19m 57s", "loss_scale": 1.0, "consumed_samples": 3000320, "global_step/max_steps": "11720/12700"}
{"lm loss": 2.02527881, "grad_norm": 0.31235746, "learning_rate": 4.57e-06, "elapsed_time_per_iteration": 4.88544941, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 24s", "remaining_time": "1h 19m 53s", "loss_scale": 1.0, "consumed_samples": 3000576, "global_step/max_steps": "11721/12700"}
{"lm loss": 2.05969882, "grad_norm": 0.30361125, "learning_rate": 4.56e-06, "elapsed_time_per_iteration": 5.00013995, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 29s", "remaining_time": "1h 19m 48s", "loss_scale": 1.0, "consumed_samples": 3000832, "global_step/max_steps": "11722/12700"}
{"lm loss": 2.03815031, "grad_norm": 0.32545575, "learning_rate": 4.56e-06, "elapsed_time_per_iteration": 4.78335094, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 34s", "remaining_time": "1h 19m 43s", "loss_scale": 1.0, "consumed_samples": 3001088, "global_step/max_steps": "11723/12700"}
{"lm loss": 2.0299592, "grad_norm": 0.31084922, "learning_rate": 4.56e-06, "elapsed_time_per_iteration": 4.82486272, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 38s", "remaining_time": "1h 19m 38s", "loss_scale": 1.0, "consumed_samples": 3001344, "global_step/max_steps": "11724/12700"}
{"lm loss": 2.03781509, "grad_norm": 0.29518825, "learning_rate": 4.55e-06, "elapsed_time_per_iteration": 4.86743665, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 43s", "remaining_time": "1h 19m 33s", "loss_scale": 1.0, "consumed_samples": 3001600, "global_step/max_steps": "11725/12700"}
{"lm loss": 2.04632235, "grad_norm": 0.30467159, "learning_rate": 4.55e-06, "elapsed_time_per_iteration": 4.98249292, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 48s", "remaining_time": "1h 19m 28s", "loss_scale": 1.0, "consumed_samples": 3001856, "global_step/max_steps": "11726/12700"}
{"lm loss": 2.04525042, "grad_norm": 0.30172461, "learning_rate": 4.55e-06, "elapsed_time_per_iteration": 4.88280392, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 53s", "remaining_time": "1h 19m 23s", "loss_scale": 1.0, "consumed_samples": 3002112, "global_step/max_steps": "11727/12700"}
{"lm loss": 2.05831313, "grad_norm": 0.32421976, "learning_rate": 4.55e-06, "elapsed_time_per_iteration": 4.92986631, "memory(GiB)": 28.98, "elapsed_time": "15h 56m 58s", "remaining_time": "1h 19m 18s", "loss_scale": 1.0, "consumed_samples": 3002368, "global_step/max_steps": "11728/12700"}
{"lm loss": 2.05348754, "grad_norm": 0.30487451, "learning_rate": 4.54e-06, "elapsed_time_per_iteration": 4.9462409, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 3s", "remaining_time": "1h 19m 13s", "loss_scale": 1.0, "consumed_samples": 3002624, "global_step/max_steps": "11729/12700"}
{"lm loss": 2.07222795, "grad_norm": 0.30152813, "learning_rate": 4.54e-06, "elapsed_time_per_iteration": 4.92957091, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 8s", "remaining_time": "1h 19m 8s", "loss_scale": 1.0, "consumed_samples": 3002880, "global_step/max_steps": "11730/12700"}
{"lm loss": 2.04209137, "grad_norm": 0.30712801, "learning_rate": 4.54e-06, "elapsed_time_per_iteration": 4.93739676, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 13s", "remaining_time": "1h 19m 4s", "loss_scale": 1.0, "consumed_samples": 3003136, "global_step/max_steps": "11731/12700"}
{"lm loss": 2.02437544, "grad_norm": 0.30585161, "learning_rate": 4.53e-06, "elapsed_time_per_iteration": 4.82525873, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 18s", "remaining_time": "1h 18m 59s", "loss_scale": 1.0, "consumed_samples": 3003392, "global_step/max_steps": "11732/12700"}
{"lm loss": 2.05505991, "grad_norm": 0.30546752, "learning_rate": 4.53e-06, "elapsed_time_per_iteration": 4.91801023, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 23s", "remaining_time": "1h 18m 54s", "loss_scale": 1.0, "consumed_samples": 3003648, "global_step/max_steps": "11733/12700"}
{"lm loss": 2.03116274, "grad_norm": 0.32333201, "learning_rate": 4.53e-06, "elapsed_time_per_iteration": 4.84404373, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 28s", "remaining_time": "1h 18m 49s", "loss_scale": 1.0, "consumed_samples": 3003904, "global_step/max_steps": "11734/12700"}
{"lm loss": 2.05077863, "grad_norm": 0.30402777, "learning_rate": 4.52e-06, "elapsed_time_per_iteration": 4.90869975, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 32s", "remaining_time": "1h 18m 44s", "loss_scale": 1.0, "consumed_samples": 3004160, "global_step/max_steps": "11735/12700"}
{"lm loss": 2.07598782, "grad_norm": 0.30303815, "learning_rate": 4.52e-06, "elapsed_time_per_iteration": 4.96467328, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 37s", "remaining_time": "1h 18m 39s", "loss_scale": 1.0, "consumed_samples": 3004416, "global_step/max_steps": "11736/12700"}
{"lm loss": 2.05307508, "grad_norm": 0.30549189, "learning_rate": 4.52e-06, "elapsed_time_per_iteration": 4.89140892, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 42s", "remaining_time": "1h 18m 34s", "loss_scale": 1.0, "consumed_samples": 3004672, "global_step/max_steps": "11737/12700"}
{"lm loss": 2.05692959, "grad_norm": 0.30795386, "learning_rate": 4.51e-06, "elapsed_time_per_iteration": 4.83153629, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 47s", "remaining_time": "1h 18m 29s", "loss_scale": 1.0, "consumed_samples": 3004928, "global_step/max_steps": "11738/12700"}
{"lm loss": 2.04389715, "grad_norm": 0.31260678, "learning_rate": 4.51e-06, "elapsed_time_per_iteration": 4.8856566, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 52s", "remaining_time": "1h 18m 24s", "loss_scale": 1.0, "consumed_samples": 3005184, "global_step/max_steps": "11739/12700"}
{"lm loss": 2.06088424, "grad_norm": 0.32956496, "learning_rate": 4.51e-06, "elapsed_time_per_iteration": 4.81309962, "memory(GiB)": 28.98, "elapsed_time": "15h 57m 57s", "remaining_time": "1h 18m 20s", "loss_scale": 1.0, "consumed_samples": 3005440, "global_step/max_steps": "11740/12700"}
{"lm loss": 2.02690649, "grad_norm": 0.30238774, "learning_rate": 4.5e-06, "elapsed_time_per_iteration": 4.90019894, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 2s", "remaining_time": "1h 18m 15s", "loss_scale": 1.0, "consumed_samples": 3005696, "global_step/max_steps": "11741/12700"}
{"lm loss": 2.04892159, "grad_norm": 0.30677766, "learning_rate": 4.5e-06, "elapsed_time_per_iteration": 4.87934065, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 7s", "remaining_time": "1h 18m 10s", "loss_scale": 1.0, "consumed_samples": 3005952, "global_step/max_steps": "11742/12700"}
{"lm loss": 2.05232048, "grad_norm": 0.32058844, "learning_rate": 4.5e-06, "elapsed_time_per_iteration": 4.86021638, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 11s", "remaining_time": "1h 18m 5s", "loss_scale": 1.0, "consumed_samples": 3006208, "global_step/max_steps": "11743/12700"}
{"lm loss": 2.04488492, "grad_norm": 0.31516048, "learning_rate": 4.49e-06, "elapsed_time_per_iteration": 4.85548878, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 16s", "remaining_time": "1h 18m 0s", "loss_scale": 1.0, "consumed_samples": 3006464, "global_step/max_steps": "11744/12700"}
{"lm loss": 2.08991289, "grad_norm": 0.31131685, "learning_rate": 4.49e-06, "elapsed_time_per_iteration": 4.85037756, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 21s", "remaining_time": "1h 17m 55s", "loss_scale": 1.0, "consumed_samples": 3006720, "global_step/max_steps": "11745/12700"}
{"lm loss": 2.04602528, "grad_norm": 0.3108483, "learning_rate": 4.49e-06, "elapsed_time_per_iteration": 4.94802046, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 26s", "remaining_time": "1h 17m 50s", "loss_scale": 1.0, "consumed_samples": 3006976, "global_step/max_steps": "11746/12700"}
{"lm loss": 2.03044224, "grad_norm": 0.30555937, "learning_rate": 4.49e-06, "elapsed_time_per_iteration": 4.85987306, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 31s", "remaining_time": "1h 17m 45s", "loss_scale": 1.0, "consumed_samples": 3007232, "global_step/max_steps": "11747/12700"}
{"lm loss": 2.04760909, "grad_norm": 0.30383921, "learning_rate": 4.48e-06, "elapsed_time_per_iteration": 4.91271758, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 36s", "remaining_time": "1h 17m 40s", "loss_scale": 1.0, "consumed_samples": 3007488, "global_step/max_steps": "11748/12700"}
{"lm loss": 2.04416513, "grad_norm": 0.31282637, "learning_rate": 4.48e-06, "elapsed_time_per_iteration": 4.9465487, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 41s", "remaining_time": "1h 17m 35s", "loss_scale": 1.0, "consumed_samples": 3007744, "global_step/max_steps": "11749/12700"}
{"lm loss": 2.05563807, "grad_norm": 0.32471585, "learning_rate": 4.48e-06, "elapsed_time_per_iteration": 4.85232997, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 46s", "remaining_time": "1h 17m 31s", "loss_scale": 1.0, "consumed_samples": 3008000, "global_step/max_steps": "11750/12700"}
{"lm loss": 2.05771875, "grad_norm": 0.32108614, "learning_rate": 4.47e-06, "elapsed_time_per_iteration": 4.86038041, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 51s", "remaining_time": "1h 17m 26s", "loss_scale": 1.0, "consumed_samples": 3008256, "global_step/max_steps": "11751/12700"}
{"lm loss": 2.10009146, "grad_norm": 0.31950116, "learning_rate": 4.47e-06, "elapsed_time_per_iteration": 4.88655257, "memory(GiB)": 28.98, "elapsed_time": "15h 58m 55s", "remaining_time": "1h 17m 21s", "loss_scale": 1.0, "consumed_samples": 3008512, "global_step/max_steps": "11752/12700"}
{"lm loss": 2.07002926, "grad_norm": 0.30962268, "learning_rate": 4.47e-06, "elapsed_time_per_iteration": 4.91389513, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 0s", "remaining_time": "1h 17m 16s", "loss_scale": 1.0, "consumed_samples": 3008768, "global_step/max_steps": "11753/12700"}
{"lm loss": 2.0804112, "grad_norm": 0.31293449, "learning_rate": 4.46e-06, "elapsed_time_per_iteration": 4.93860197, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 5s", "remaining_time": "1h 17m 11s", "loss_scale": 1.0, "consumed_samples": 3009024, "global_step/max_steps": "11754/12700"}
{"lm loss": 2.05945468, "grad_norm": 0.29719487, "learning_rate": 4.46e-06, "elapsed_time_per_iteration": 4.88766742, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 10s", "remaining_time": "1h 17m 6s", "loss_scale": 1.0, "consumed_samples": 3009280, "global_step/max_steps": "11755/12700"}
{"lm loss": 2.03004336, "grad_norm": 0.31541297, "learning_rate": 4.46e-06, "elapsed_time_per_iteration": 5.08498573, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 15s", "remaining_time": "1h 17m 1s", "loss_scale": 1.0, "consumed_samples": 3009536, "global_step/max_steps": "11756/12700"}
{"lm loss": 2.05274892, "grad_norm": 0.32483265, "learning_rate": 4.45e-06, "elapsed_time_per_iteration": 4.87071419, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 20s", "remaining_time": "1h 16m 56s", "loss_scale": 1.0, "consumed_samples": 3009792, "global_step/max_steps": "11757/12700"}
{"lm loss": 2.05569553, "grad_norm": 0.3052597, "learning_rate": 4.45e-06, "elapsed_time_per_iteration": 4.91739917, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 25s", "remaining_time": "1h 16m 51s", "loss_scale": 1.0, "consumed_samples": 3010048, "global_step/max_steps": "11758/12700"}
{"lm loss": 2.0481236, "grad_norm": 0.30831835, "learning_rate": 4.45e-06, "elapsed_time_per_iteration": 4.82876897, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 30s", "remaining_time": "1h 16m 47s", "loss_scale": 1.0, "consumed_samples": 3010304, "global_step/max_steps": "11759/12700"}
{"lm loss": 2.06083035, "grad_norm": 0.30465859, "learning_rate": 4.45e-06, "elapsed_time_per_iteration": 4.95486426, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 35s", "remaining_time": "1h 16m 42s", "loss_scale": 1.0, "consumed_samples": 3010560, "global_step/max_steps": "11760/12700"}
{"lm loss": 2.03773117, "grad_norm": 0.31690934, "learning_rate": 4.44e-06, "elapsed_time_per_iteration": 4.77514291, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 40s", "remaining_time": "1h 16m 37s", "loss_scale": 1.0, "consumed_samples": 3010816, "global_step/max_steps": "11761/12700"}
{"lm loss": 2.04362226, "grad_norm": 0.29501444, "learning_rate": 4.44e-06, "elapsed_time_per_iteration": 4.81610751, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 44s", "remaining_time": "1h 16m 32s", "loss_scale": 1.0, "consumed_samples": 3011072, "global_step/max_steps": "11762/12700"}
{"lm loss": 2.05824065, "grad_norm": 0.32042998, "learning_rate": 4.44e-06, "elapsed_time_per_iteration": 4.79720092, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 49s", "remaining_time": "1h 16m 27s", "loss_scale": 1.0, "consumed_samples": 3011328, "global_step/max_steps": "11763/12700"}
{"lm loss": 2.07240176, "grad_norm": 0.30253357, "learning_rate": 4.43e-06, "elapsed_time_per_iteration": 4.92385173, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 54s", "remaining_time": "1h 16m 22s", "loss_scale": 1.0, "consumed_samples": 3011584, "global_step/max_steps": "11764/12700"}
{"lm loss": 2.06644964, "grad_norm": 0.30383161, "learning_rate": 4.43e-06, "elapsed_time_per_iteration": 4.94849706, "memory(GiB)": 28.98, "elapsed_time": "15h 59m 59s", "remaining_time": "1h 16m 17s", "loss_scale": 1.0, "consumed_samples": 3011840, "global_step/max_steps": "11765/12700"}
{"lm loss": 2.05495262, "grad_norm": 0.30966249, "learning_rate": 4.43e-06, "elapsed_time_per_iteration": 4.88897538, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 4s", "remaining_time": "1h 16m 12s", "loss_scale": 1.0, "consumed_samples": 3012096, "global_step/max_steps": "11766/12700"}
{"lm loss": 2.04203629, "grad_norm": 0.32031107, "learning_rate": 4.42e-06, "elapsed_time_per_iteration": 5.00713921, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 9s", "remaining_time": "1h 16m 7s", "loss_scale": 1.0, "consumed_samples": 3012352, "global_step/max_steps": "11767/12700"}
{"lm loss": 2.01225758, "grad_norm": 0.30347466, "learning_rate": 4.42e-06, "elapsed_time_per_iteration": 4.89121628, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 14s", "remaining_time": "1h 16m 2s", "loss_scale": 1.0, "consumed_samples": 3012608, "global_step/max_steps": "11768/12700"}
{"lm loss": 2.02641773, "grad_norm": 0.33071336, "learning_rate": 4.42e-06, "elapsed_time_per_iteration": 4.84242582, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 19s", "remaining_time": "1h 15m 58s", "loss_scale": 1.0, "consumed_samples": 3012864, "global_step/max_steps": "11769/12700"}
{"lm loss": 2.03955531, "grad_norm": 0.32379133, "learning_rate": 4.42e-06, "elapsed_time_per_iteration": 4.78225493, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 24s", "remaining_time": "1h 15m 53s", "loss_scale": 1.0, "consumed_samples": 3013120, "global_step/max_steps": "11770/12700"}
{"lm loss": 2.00953794, "grad_norm": 0.31299457, "learning_rate": 4.41e-06, "elapsed_time_per_iteration": 4.90287995, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 28s", "remaining_time": "1h 15m 48s", "loss_scale": 1.0, "consumed_samples": 3013376, "global_step/max_steps": "11771/12700"}
{"lm loss": 2.02749443, "grad_norm": 0.31097683, "learning_rate": 4.41e-06, "elapsed_time_per_iteration": 4.86653209, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 33s", "remaining_time": "1h 15m 43s", "loss_scale": 1.0, "consumed_samples": 3013632, "global_step/max_steps": "11772/12700"}
{"lm loss": 2.04595852, "grad_norm": 0.29612017, "learning_rate": 4.41e-06, "elapsed_time_per_iteration": 4.79116988, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 38s", "remaining_time": "1h 15m 38s", "loss_scale": 1.0, "consumed_samples": 3013888, "global_step/max_steps": "11773/12700"}
{"lm loss": 2.02288818, "grad_norm": 0.30835637, "learning_rate": 4.4e-06, "elapsed_time_per_iteration": 4.94572687, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 43s", "remaining_time": "1h 15m 33s", "loss_scale": 1.0, "consumed_samples": 3014144, "global_step/max_steps": "11774/12700"}
{"lm loss": 2.05220604, "grad_norm": 0.31495655, "learning_rate": 4.4e-06, "elapsed_time_per_iteration": 4.91209579, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 48s", "remaining_time": "1h 15m 28s", "loss_scale": 1.0, "consumed_samples": 3014400, "global_step/max_steps": "11775/12700"}
{"lm loss": 2.05886364, "grad_norm": 0.3174369, "learning_rate": 4.4e-06, "elapsed_time_per_iteration": 4.93682122, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 53s", "remaining_time": "1h 15m 23s", "loss_scale": 1.0, "consumed_samples": 3014656, "global_step/max_steps": "11776/12700"}
{"lm loss": 2.02862597, "grad_norm": 0.31661475, "learning_rate": 4.39e-06, "elapsed_time_per_iteration": 4.91111898, "memory(GiB)": 28.98, "elapsed_time": "16h 0m 58s", "remaining_time": "1h 15m 18s", "loss_scale": 1.0, "consumed_samples": 3014912, "global_step/max_steps": "11777/12700"}
{"lm loss": 2.08252835, "grad_norm": 0.31119865, "learning_rate": 4.39e-06, "elapsed_time_per_iteration": 4.96394944, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 3s", "remaining_time": "1h 15m 13s", "loss_scale": 1.0, "consumed_samples": 3015168, "global_step/max_steps": "11778/12700"}
{"lm loss": 2.02708244, "grad_norm": 0.31235924, "learning_rate": 4.39e-06, "elapsed_time_per_iteration": 4.8454082, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 8s", "remaining_time": "1h 15m 9s", "loss_scale": 1.0, "consumed_samples": 3015424, "global_step/max_steps": "11779/12700"}
{"lm loss": 2.02443314, "grad_norm": 0.31326726, "learning_rate": 4.39e-06, "elapsed_time_per_iteration": 4.84268975, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 12s", "remaining_time": "1h 15m 4s", "loss_scale": 1.0, "consumed_samples": 3015680, "global_step/max_steps": "11780/12700"}
{"lm loss": 2.04613614, "grad_norm": 0.31139398, "learning_rate": 4.38e-06, "elapsed_time_per_iteration": 4.9207561, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 17s", "remaining_time": "1h 14m 59s", "loss_scale": 1.0, "consumed_samples": 3015936, "global_step/max_steps": "11781/12700"}
{"lm loss": 2.04223776, "grad_norm": 0.29972854, "learning_rate": 4.38e-06, "elapsed_time_per_iteration": 4.82700992, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 22s", "remaining_time": "1h 14m 54s", "loss_scale": 1.0, "consumed_samples": 3016192, "global_step/max_steps": "11782/12700"}
{"lm loss": 2.09432554, "grad_norm": 0.32665887, "learning_rate": 4.38e-06, "elapsed_time_per_iteration": 4.83322692, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 27s", "remaining_time": "1h 14m 49s", "loss_scale": 1.0, "consumed_samples": 3016448, "global_step/max_steps": "11783/12700"}
{"lm loss": 2.02202368, "grad_norm": 0.31460446, "learning_rate": 4.37e-06, "elapsed_time_per_iteration": 4.84068394, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 32s", "remaining_time": "1h 14m 44s", "loss_scale": 1.0, "consumed_samples": 3016704, "global_step/max_steps": "11784/12700"}
{"lm loss": 2.01942158, "grad_norm": 0.30560225, "learning_rate": 4.37e-06, "elapsed_time_per_iteration": 4.87604475, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 37s", "remaining_time": "1h 14m 39s", "loss_scale": 1.0, "consumed_samples": 3016960, "global_step/max_steps": "11785/12700"}
{"lm loss": 2.06250644, "grad_norm": 0.32421595, "learning_rate": 4.37e-06, "elapsed_time_per_iteration": 4.84152484, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 42s", "remaining_time": "1h 14m 34s", "loss_scale": 1.0, "consumed_samples": 3017216, "global_step/max_steps": "11786/12700"}
{"lm loss": 2.03136945, "grad_norm": 0.31154454, "learning_rate": 4.36e-06, "elapsed_time_per_iteration": 4.85405302, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 46s", "remaining_time": "1h 14m 29s", "loss_scale": 1.0, "consumed_samples": 3017472, "global_step/max_steps": "11787/12700"}
{"lm loss": 2.08178186, "grad_norm": 0.32034248, "learning_rate": 4.36e-06, "elapsed_time_per_iteration": 4.92797923, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 51s", "remaining_time": "1h 14m 24s", "loss_scale": 1.0, "consumed_samples": 3017728, "global_step/max_steps": "11788/12700"}
{"lm loss": 2.06773615, "grad_norm": 0.30628854, "learning_rate": 4.36e-06, "elapsed_time_per_iteration": 4.83205914, "memory(GiB)": 28.98, "elapsed_time": "16h 1m 56s", "remaining_time": "1h 14m 20s", "loss_scale": 1.0, "consumed_samples": 3017984, "global_step/max_steps": "11789/12700"}
{"lm loss": 2.03705025, "grad_norm": 0.2881662, "learning_rate": 4.36e-06, "elapsed_time_per_iteration": 4.82167411, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 1s", "remaining_time": "1h 14m 15s", "loss_scale": 1.0, "consumed_samples": 3018240, "global_step/max_steps": "11790/12700"}
{"lm loss": 2.04496479, "grad_norm": 0.30169067, "learning_rate": 4.35e-06, "elapsed_time_per_iteration": 4.79004788, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 6s", "remaining_time": "1h 14m 10s", "loss_scale": 1.0, "consumed_samples": 3018496, "global_step/max_steps": "11791/12700"}
{"lm loss": 2.05009389, "grad_norm": 0.29901379, "learning_rate": 4.35e-06, "elapsed_time_per_iteration": 4.86403775, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 11s", "remaining_time": "1h 14m 5s", "loss_scale": 1.0, "consumed_samples": 3018752, "global_step/max_steps": "11792/12700"}
{"lm loss": 2.06465411, "grad_norm": 0.3238349, "learning_rate": 4.35e-06, "elapsed_time_per_iteration": 4.88358331, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 16s", "remaining_time": "1h 14m 0s", "loss_scale": 1.0, "consumed_samples": 3019008, "global_step/max_steps": "11793/12700"}
{"lm loss": 2.06123757, "grad_norm": 0.33102351, "learning_rate": 4.34e-06, "elapsed_time_per_iteration": 4.81010914, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 20s", "remaining_time": "1h 13m 55s", "loss_scale": 1.0, "consumed_samples": 3019264, "global_step/max_steps": "11794/12700"}
{"lm loss": 2.04674077, "grad_norm": 0.31800425, "learning_rate": 4.34e-06, "elapsed_time_per_iteration": 4.89457273, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 25s", "remaining_time": "1h 13m 50s", "loss_scale": 1.0, "consumed_samples": 3019520, "global_step/max_steps": "11795/12700"}
{"lm loss": 2.0556407, "grad_norm": 0.32447246, "learning_rate": 4.34e-06, "elapsed_time_per_iteration": 4.90259051, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 30s", "remaining_time": "1h 13m 45s", "loss_scale": 1.0, "consumed_samples": 3019776, "global_step/max_steps": "11796/12700"}
{"lm loss": 2.04596186, "grad_norm": 0.31437853, "learning_rate": 4.33e-06, "elapsed_time_per_iteration": 4.8901763, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 35s", "remaining_time": "1h 13m 40s", "loss_scale": 1.0, "consumed_samples": 3020032, "global_step/max_steps": "11797/12700"}
{"lm loss": 2.00362277, "grad_norm": 0.30385223, "learning_rate": 4.33e-06, "elapsed_time_per_iteration": 4.88412642, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 40s", "remaining_time": "1h 13m 35s", "loss_scale": 1.0, "consumed_samples": 3020288, "global_step/max_steps": "11798/12700"}
{"lm loss": 2.02081966, "grad_norm": 0.3184393, "learning_rate": 4.33e-06, "elapsed_time_per_iteration": 4.87463331, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 45s", "remaining_time": "1h 13m 31s", "loss_scale": 1.0, "consumed_samples": 3020544, "global_step/max_steps": "11799/12700"}
{"lm loss": 2.05688214, "grad_norm": 0.31731948, "learning_rate": 4.33e-06, "elapsed_time_per_iteration": 4.83536386, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 50s", "remaining_time": "1h 13m 26s", "loss_scale": 1.0, "consumed_samples": 3020800, "global_step/max_steps": "11800/12700"}
{"lm loss": 2.04024196, "grad_norm": 0.31390956, "learning_rate": 4.32e-06, "elapsed_time_per_iteration": 4.93663836, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 55s", "remaining_time": "1h 13m 21s", "loss_scale": 1.0, "consumed_samples": 3021056, "global_step/max_steps": "11801/12700"}
{"lm loss": 2.04003215, "grad_norm": 0.37315181, "learning_rate": 4.32e-06, "elapsed_time_per_iteration": 4.87737298, "memory(GiB)": 28.98, "elapsed_time": "16h 2m 59s", "remaining_time": "1h 13m 16s", "loss_scale": 1.0, "consumed_samples": 3021312, "global_step/max_steps": "11802/12700"}
{"lm loss": 2.04701495, "grad_norm": 0.31012744, "learning_rate": 4.32e-06, "elapsed_time_per_iteration": 4.87602544, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 4s", "remaining_time": "1h 13m 11s", "loss_scale": 1.0, "consumed_samples": 3021568, "global_step/max_steps": "11803/12700"}
{"lm loss": 2.05240011, "grad_norm": 0.30663747, "learning_rate": 4.31e-06, "elapsed_time_per_iteration": 4.90958881, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 9s", "remaining_time": "1h 13m 6s", "loss_scale": 1.0, "consumed_samples": 3021824, "global_step/max_steps": "11804/12700"}
{"lm loss": 2.0522871, "grad_norm": 0.32016841, "learning_rate": 4.31e-06, "elapsed_time_per_iteration": 4.83926487, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 14s", "remaining_time": "1h 13m 1s", "loss_scale": 1.0, "consumed_samples": 3022080, "global_step/max_steps": "11805/12700"}
{"lm loss": 2.04537129, "grad_norm": 0.33589965, "learning_rate": 4.31e-06, "elapsed_time_per_iteration": 4.91914225, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 19s", "remaining_time": "1h 12m 56s", "loss_scale": 1.0, "consumed_samples": 3022336, "global_step/max_steps": "11806/12700"}
{"lm loss": 2.00763249, "grad_norm": 0.30518106, "learning_rate": 4.31e-06, "elapsed_time_per_iteration": 4.94497991, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 24s", "remaining_time": "1h 12m 51s", "loss_scale": 1.0, "consumed_samples": 3022592, "global_step/max_steps": "11807/12700"}
{"lm loss": 2.0519681, "grad_norm": 0.30943969, "learning_rate": 4.3e-06, "elapsed_time_per_iteration": 4.84872603, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 29s", "remaining_time": "1h 12m 47s", "loss_scale": 1.0, "consumed_samples": 3022848, "global_step/max_steps": "11808/12700"}
{"lm loss": 2.03372407, "grad_norm": 0.32456973, "learning_rate": 4.3e-06, "elapsed_time_per_iteration": 4.9228332, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 34s", "remaining_time": "1h 12m 42s", "loss_scale": 1.0, "consumed_samples": 3023104, "global_step/max_steps": "11809/12700"}
{"lm loss": 2.05333495, "grad_norm": 0.33114734, "learning_rate": 4.3e-06, "elapsed_time_per_iteration": 4.85052586, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 39s", "remaining_time": "1h 12m 37s", "loss_scale": 1.0, "consumed_samples": 3023360, "global_step/max_steps": "11810/12700"}
{"lm loss": 2.03884983, "grad_norm": 0.33164617, "learning_rate": 4.29e-06, "elapsed_time_per_iteration": 4.94083166, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 44s", "remaining_time": "1h 12m 32s", "loss_scale": 1.0, "consumed_samples": 3023616, "global_step/max_steps": "11811/12700"}
{"lm loss": 2.02366853, "grad_norm": 0.30785483, "learning_rate": 4.29e-06, "elapsed_time_per_iteration": 4.89825749, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 48s", "remaining_time": "1h 12m 27s", "loss_scale": 1.0, "consumed_samples": 3023872, "global_step/max_steps": "11812/12700"}
{"lm loss": 2.07856297, "grad_norm": 0.30974543, "learning_rate": 4.29e-06, "elapsed_time_per_iteration": 4.79203176, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 53s", "remaining_time": "1h 12m 22s", "loss_scale": 1.0, "consumed_samples": 3024128, "global_step/max_steps": "11813/12700"}
{"lm loss": 2.07972789, "grad_norm": 0.32698289, "learning_rate": 4.28e-06, "elapsed_time_per_iteration": 4.83782458, "memory(GiB)": 28.98, "elapsed_time": "16h 3m 58s", "remaining_time": "1h 12m 17s", "loss_scale": 1.0, "consumed_samples": 3024384, "global_step/max_steps": "11814/12700"}
{"lm loss": 2.04342794, "grad_norm": 0.3026098, "learning_rate": 4.28e-06, "elapsed_time_per_iteration": 5.01627827, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 3s", "remaining_time": "1h 12m 12s", "loss_scale": 1.0, "consumed_samples": 3024640, "global_step/max_steps": "11815/12700"}
{"lm loss": 2.05504179, "grad_norm": 0.30332881, "learning_rate": 4.28e-06, "elapsed_time_per_iteration": 4.87703013, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 8s", "remaining_time": "1h 12m 7s", "loss_scale": 1.0, "consumed_samples": 3024896, "global_step/max_steps": "11816/12700"}
{"lm loss": 2.0538075, "grad_norm": 0.32184774, "learning_rate": 4.28e-06, "elapsed_time_per_iteration": 4.81139898, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 13s", "remaining_time": "1h 12m 2s", "loss_scale": 1.0, "consumed_samples": 3025152, "global_step/max_steps": "11817/12700"}
{"lm loss": 2.08132291, "grad_norm": 0.32537025, "learning_rate": 4.27e-06, "elapsed_time_per_iteration": 4.86143064, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 18s", "remaining_time": "1h 11m 58s", "loss_scale": 1.0, "consumed_samples": 3025408, "global_step/max_steps": "11818/12700"}
{"lm loss": 2.05162048, "grad_norm": 0.34670347, "learning_rate": 4.27e-06, "elapsed_time_per_iteration": 4.82307434, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 22s", "remaining_time": "1h 11m 53s", "loss_scale": 1.0, "consumed_samples": 3025664, "global_step/max_steps": "11819/12700"}
{"lm loss": 2.02891564, "grad_norm": 0.31784984, "learning_rate": 4.27e-06, "elapsed_time_per_iteration": 4.90491939, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 27s", "remaining_time": "1h 11m 48s", "loss_scale": 1.0, "consumed_samples": 3025920, "global_step/max_steps": "11820/12700"}
{"lm loss": 2.04374337, "grad_norm": 0.31043267, "learning_rate": 4.26e-06, "elapsed_time_per_iteration": 4.96808195, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 32s", "remaining_time": "1h 11m 43s", "loss_scale": 1.0, "consumed_samples": 3026176, "global_step/max_steps": "11821/12700"}
{"lm loss": 2.0721209, "grad_norm": 0.32635793, "learning_rate": 4.26e-06, "elapsed_time_per_iteration": 4.94161916, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 37s", "remaining_time": "1h 11m 38s", "loss_scale": 1.0, "consumed_samples": 3026432, "global_step/max_steps": "11822/12700"}
{"lm loss": 2.09152889, "grad_norm": 0.33883384, "learning_rate": 4.26e-06, "elapsed_time_per_iteration": 4.80704379, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 42s", "remaining_time": "1h 11m 33s", "loss_scale": 1.0, "consumed_samples": 3026688, "global_step/max_steps": "11823/12700"}
{"lm loss": 2.04307413, "grad_norm": 0.30232364, "learning_rate": 4.26e-06, "elapsed_time_per_iteration": 4.90907478, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 47s", "remaining_time": "1h 11m 28s", "loss_scale": 1.0, "consumed_samples": 3026944, "global_step/max_steps": "11824/12700"}
{"lm loss": 2.03616691, "grad_norm": 0.31527457, "learning_rate": 4.25e-06, "elapsed_time_per_iteration": 5.00672364, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 52s", "remaining_time": "1h 11m 23s", "loss_scale": 1.0, "consumed_samples": 3027200, "global_step/max_steps": "11825/12700"}
{"lm loss": 2.03314781, "grad_norm": 0.3163656, "learning_rate": 4.25e-06, "elapsed_time_per_iteration": 4.96067691, "memory(GiB)": 28.98, "elapsed_time": "16h 4m 57s", "remaining_time": "1h 11m 18s", "loss_scale": 1.0, "consumed_samples": 3027456, "global_step/max_steps": "11826/12700"}
{"lm loss": 2.08158612, "grad_norm": 0.31292394, "learning_rate": 4.25e-06, "elapsed_time_per_iteration": 4.93399, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 2s", "remaining_time": "1h 11m 14s", "loss_scale": 1.0, "consumed_samples": 3027712, "global_step/max_steps": "11827/12700"}
{"lm loss": 2.05391622, "grad_norm": 0.31907386, "learning_rate": 4.24e-06, "elapsed_time_per_iteration": 4.85542965, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 7s", "remaining_time": "1h 11m 9s", "loss_scale": 1.0, "consumed_samples": 3027968, "global_step/max_steps": "11828/12700"}
{"lm loss": 2.02850938, "grad_norm": 0.31606051, "learning_rate": 4.24e-06, "elapsed_time_per_iteration": 4.89334869, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 12s", "remaining_time": "1h 11m 4s", "loss_scale": 1.0, "consumed_samples": 3028224, "global_step/max_steps": "11829/12700"}
{"lm loss": 2.09806919, "grad_norm": 0.30274022, "learning_rate": 4.24e-06, "elapsed_time_per_iteration": 4.84465289, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 16s", "remaining_time": "1h 10m 59s", "loss_scale": 1.0, "consumed_samples": 3028480, "global_step/max_steps": "11830/12700"}
{"lm loss": 2.07957625, "grad_norm": 0.32678935, "learning_rate": 4.24e-06, "elapsed_time_per_iteration": 4.89766717, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 21s", "remaining_time": "1h 10m 54s", "loss_scale": 1.0, "consumed_samples": 3028736, "global_step/max_steps": "11831/12700"}
{"lm loss": 2.05870795, "grad_norm": 0.30881104, "learning_rate": 4.23e-06, "elapsed_time_per_iteration": 4.93166351, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 26s", "remaining_time": "1h 10m 49s", "loss_scale": 1.0, "consumed_samples": 3028992, "global_step/max_steps": "11832/12700"}
{"lm loss": 2.03593135, "grad_norm": 0.30835232, "learning_rate": 4.23e-06, "elapsed_time_per_iteration": 5.08088899, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 31s", "remaining_time": "1h 10m 44s", "loss_scale": 1.0, "consumed_samples": 3029248, "global_step/max_steps": "11833/12700"}
{"lm loss": 2.04773664, "grad_norm": 0.30394742, "learning_rate": 4.23e-06, "elapsed_time_per_iteration": 4.8070519, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 36s", "remaining_time": "1h 10m 39s", "loss_scale": 1.0, "consumed_samples": 3029504, "global_step/max_steps": "11834/12700"}
{"lm loss": 2.05642915, "grad_norm": 0.3162556, "learning_rate": 4.23e-06, "elapsed_time_per_iteration": 4.98812127, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 41s", "remaining_time": "1h 10m 34s", "loss_scale": 1.0, "consumed_samples": 3029760, "global_step/max_steps": "11835/12700"}
{"lm loss": 2.04550505, "grad_norm": 0.30748728, "learning_rate": 4.22e-06, "elapsed_time_per_iteration": 4.99066615, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 46s", "remaining_time": "1h 10m 29s", "loss_scale": 1.0, "consumed_samples": 3030016, "global_step/max_steps": "11836/12700"}
{"lm loss": 2.04730749, "grad_norm": 0.29376242, "learning_rate": 4.22e-06, "elapsed_time_per_iteration": 4.94199514, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 51s", "remaining_time": "1h 10m 25s", "loss_scale": 1.0, "consumed_samples": 3030272, "global_step/max_steps": "11837/12700"}
{"lm loss": 2.06459951, "grad_norm": 0.31654814, "learning_rate": 4.22e-06, "elapsed_time_per_iteration": 4.79684091, "memory(GiB)": 28.98, "elapsed_time": "16h 5m 56s", "remaining_time": "1h 10m 20s", "loss_scale": 1.0, "consumed_samples": 3030528, "global_step/max_steps": "11838/12700"}
{"lm loss": 2.00522399, "grad_norm": 0.31782079, "learning_rate": 4.21e-06, "elapsed_time_per_iteration": 4.81851101, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 1s", "remaining_time": "1h 10m 15s", "loss_scale": 1.0, "consumed_samples": 3030784, "global_step/max_steps": "11839/12700"}
{"lm loss": 2.06828427, "grad_norm": 0.31843719, "learning_rate": 4.21e-06, "elapsed_time_per_iteration": 4.85684156, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 6s", "remaining_time": "1h 10m 10s", "loss_scale": 1.0, "consumed_samples": 3031040, "global_step/max_steps": "11840/12700"}
{"lm loss": 2.02943254, "grad_norm": 0.31748819, "learning_rate": 4.21e-06, "elapsed_time_per_iteration": 4.83658695, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 10s", "remaining_time": "1h 10m 5s", "loss_scale": 1.0, "consumed_samples": 3031296, "global_step/max_steps": "11841/12700"}
{"lm loss": 2.04250669, "grad_norm": 0.31321236, "learning_rate": 4.21e-06, "elapsed_time_per_iteration": 4.85119152, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 15s", "remaining_time": "1h 10m 0s", "loss_scale": 1.0, "consumed_samples": 3031552, "global_step/max_steps": "11842/12700"}
{"lm loss": 2.06497979, "grad_norm": 0.33047518, "learning_rate": 4.2e-06, "elapsed_time_per_iteration": 4.84014559, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 20s", "remaining_time": "1h 9m 55s", "loss_scale": 1.0, "consumed_samples": 3031808, "global_step/max_steps": "11843/12700"}
{"lm loss": 2.05115294, "grad_norm": 0.31137085, "learning_rate": 4.2e-06, "elapsed_time_per_iteration": 4.87155581, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 25s", "remaining_time": "1h 9m 50s", "loss_scale": 1.0, "consumed_samples": 3032064, "global_step/max_steps": "11844/12700"}
{"lm loss": 2.02535224, "grad_norm": 0.30901298, "learning_rate": 4.2e-06, "elapsed_time_per_iteration": 5.15967798, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 30s", "remaining_time": "1h 9m 45s", "loss_scale": 1.0, "consumed_samples": 3032320, "global_step/max_steps": "11845/12700"}
{"lm loss": 2.03237963, "grad_norm": 0.31839302, "learning_rate": 4.19e-06, "elapsed_time_per_iteration": 5.08693361, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 35s", "remaining_time": "1h 9m 41s", "loss_scale": 1.0, "consumed_samples": 3032576, "global_step/max_steps": "11846/12700"}
{"lm loss": 2.02476954, "grad_norm": 0.32675111, "learning_rate": 4.19e-06, "elapsed_time_per_iteration": 4.92277145, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 40s", "remaining_time": "1h 9m 36s", "loss_scale": 1.0, "consumed_samples": 3032832, "global_step/max_steps": "11847/12700"}
{"lm loss": 2.02687931, "grad_norm": 0.30740586, "learning_rate": 4.19e-06, "elapsed_time_per_iteration": 4.77340508, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 45s", "remaining_time": "1h 9m 31s", "loss_scale": 1.0, "consumed_samples": 3033088, "global_step/max_steps": "11848/12700"}
{"lm loss": 2.05272698, "grad_norm": 0.29734433, "learning_rate": 4.19e-06, "elapsed_time_per_iteration": 4.84673309, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 50s", "remaining_time": "1h 9m 26s", "loss_scale": 1.0, "consumed_samples": 3033344, "global_step/max_steps": "11849/12700"}
{"lm loss": 2.07379103, "grad_norm": 0.30641079, "learning_rate": 4.18e-06, "elapsed_time_per_iteration": 4.9819591, "memory(GiB)": 28.98, "elapsed_time": "16h 6m 55s", "remaining_time": "1h 9m 21s", "loss_scale": 1.0, "consumed_samples": 3033600, "global_step/max_steps": "11850/12700"}
{"lm loss": 2.07952189, "grad_norm": 0.30672231, "learning_rate": 4.18e-06, "elapsed_time_per_iteration": 4.85114336, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 0s", "remaining_time": "1h 9m 16s", "loss_scale": 1.0, "consumed_samples": 3033856, "global_step/max_steps": "11851/12700"}
{"lm loss": 2.06172776, "grad_norm": 0.30703107, "learning_rate": 4.18e-06, "elapsed_time_per_iteration": 4.78320217, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 4s", "remaining_time": "1h 9m 11s", "loss_scale": 1.0, "consumed_samples": 3034112, "global_step/max_steps": "11852/12700"}
{"lm loss": 2.03188205, "grad_norm": 0.29873353, "learning_rate": 4.17e-06, "elapsed_time_per_iteration": 4.87237644, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 9s", "remaining_time": "1h 9m 6s", "loss_scale": 1.0, "consumed_samples": 3034368, "global_step/max_steps": "11853/12700"}
{"lm loss": 2.02461481, "grad_norm": 0.31322443, "learning_rate": 4.17e-06, "elapsed_time_per_iteration": 4.93441725, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 14s", "remaining_time": "1h 9m 1s", "loss_scale": 1.0, "consumed_samples": 3034624, "global_step/max_steps": "11854/12700"}
{"lm loss": 2.01627779, "grad_norm": 0.30623606, "learning_rate": 4.17e-06, "elapsed_time_per_iteration": 4.89341521, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 19s", "remaining_time": "1h 8m 56s", "loss_scale": 1.0, "consumed_samples": 3034880, "global_step/max_steps": "11855/12700"}
{"lm loss": 2.02868462, "grad_norm": 0.30218649, "learning_rate": 4.17e-06, "elapsed_time_per_iteration": 4.94111729, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 24s", "remaining_time": "1h 8m 52s", "loss_scale": 1.0, "consumed_samples": 3035136, "global_step/max_steps": "11856/12700"}
{"lm loss": 2.03707552, "grad_norm": 0.31250802, "learning_rate": 4.16e-06, "elapsed_time_per_iteration": 4.83089352, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 29s", "remaining_time": "1h 8m 47s", "loss_scale": 1.0, "consumed_samples": 3035392, "global_step/max_steps": "11857/12700"}
{"lm loss": 2.03298092, "grad_norm": 0.31711525, "learning_rate": 4.16e-06, "elapsed_time_per_iteration": 4.88959694, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 34s", "remaining_time": "1h 8m 42s", "loss_scale": 1.0, "consumed_samples": 3035648, "global_step/max_steps": "11858/12700"}
{"lm loss": 2.05290055, "grad_norm": 0.32372245, "learning_rate": 4.16e-06, "elapsed_time_per_iteration": 4.97300863, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 39s", "remaining_time": "1h 8m 37s", "loss_scale": 1.0, "consumed_samples": 3035904, "global_step/max_steps": "11859/12700"}
{"lm loss": 2.03970242, "grad_norm": 0.28941879, "learning_rate": 4.16e-06, "elapsed_time_per_iteration": 4.85208583, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 44s", "remaining_time": "1h 8m 32s", "loss_scale": 1.0, "consumed_samples": 3036160, "global_step/max_steps": "11860/12700"}
{"lm loss": 2.07701254, "grad_norm": 0.31989142, "learning_rate": 4.15e-06, "elapsed_time_per_iteration": 4.87837553, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 48s", "remaining_time": "1h 8m 27s", "loss_scale": 1.0, "consumed_samples": 3036416, "global_step/max_steps": "11861/12700"}
{"lm loss": 2.03096271, "grad_norm": 0.31081462, "learning_rate": 4.15e-06, "elapsed_time_per_iteration": 4.84391356, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 53s", "remaining_time": "1h 8m 22s", "loss_scale": 1.0, "consumed_samples": 3036672, "global_step/max_steps": "11862/12700"}
{"lm loss": 2.06936932, "grad_norm": 0.32195458, "learning_rate": 4.15e-06, "elapsed_time_per_iteration": 4.86091399, "memory(GiB)": 28.98, "elapsed_time": "16h 7m 58s", "remaining_time": "1h 8m 17s", "loss_scale": 1.0, "consumed_samples": 3036928, "global_step/max_steps": "11863/12700"}
{"lm loss": 2.04102683, "grad_norm": 0.29578218, "learning_rate": 4.14e-06, "elapsed_time_per_iteration": 4.93243146, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 3s", "remaining_time": "1h 8m 12s", "loss_scale": 1.0, "consumed_samples": 3037184, "global_step/max_steps": "11864/12700"}
{"lm loss": 2.03306794, "grad_norm": 0.3025623, "learning_rate": 4.14e-06, "elapsed_time_per_iteration": 4.88193965, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 8s", "remaining_time": "1h 8m 7s", "loss_scale": 1.0, "consumed_samples": 3037440, "global_step/max_steps": "11865/12700"}
{"lm loss": 2.07467818, "grad_norm": 0.30637875, "learning_rate": 4.14e-06, "elapsed_time_per_iteration": 5.05721736, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 13s", "remaining_time": "1h 8m 3s", "loss_scale": 1.0, "consumed_samples": 3037696, "global_step/max_steps": "11866/12700"}
{"lm loss": 2.05578947, "grad_norm": 0.30183038, "learning_rate": 4.14e-06, "elapsed_time_per_iteration": 4.88701105, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 18s", "remaining_time": "1h 7m 58s", "loss_scale": 1.0, "consumed_samples": 3037952, "global_step/max_steps": "11867/12700"}
{"lm loss": 2.04577732, "grad_norm": 0.30640462, "learning_rate": 4.13e-06, "elapsed_time_per_iteration": 4.79665613, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 23s", "remaining_time": "1h 7m 53s", "loss_scale": 1.0, "consumed_samples": 3038208, "global_step/max_steps": "11868/12700"}
{"lm loss": 2.06909919, "grad_norm": 0.29526055, "learning_rate": 4.13e-06, "elapsed_time_per_iteration": 4.98281217, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 28s", "remaining_time": "1h 7m 48s", "loss_scale": 1.0, "consumed_samples": 3038464, "global_step/max_steps": "11869/12700"}
{"lm loss": 2.0815413, "grad_norm": 0.31608939, "learning_rate": 4.13e-06, "elapsed_time_per_iteration": 4.76672316, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 32s", "remaining_time": "1h 7m 43s", "loss_scale": 1.0, "consumed_samples": 3038720, "global_step/max_steps": "11870/12700"}
{"lm loss": 2.0876596, "grad_norm": 0.32772645, "learning_rate": 4.13e-06, "elapsed_time_per_iteration": 4.8510859, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 37s", "remaining_time": "1h 7m 38s", "loss_scale": 1.0, "consumed_samples": 3038976, "global_step/max_steps": "11871/12700"}
{"lm loss": 2.0247066, "grad_norm": 0.30286884, "learning_rate": 4.12e-06, "elapsed_time_per_iteration": 4.82773328, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 42s", "remaining_time": "1h 7m 33s", "loss_scale": 1.0, "consumed_samples": 3039232, "global_step/max_steps": "11872/12700"}
{"lm loss": 2.05371928, "grad_norm": 0.32057005, "learning_rate": 4.12e-06, "elapsed_time_per_iteration": 4.93927097, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 47s", "remaining_time": "1h 7m 28s", "loss_scale": 1.0, "consumed_samples": 3039488, "global_step/max_steps": "11873/12700"}
{"lm loss": 2.05799055, "grad_norm": 0.325499, "learning_rate": 4.12e-06, "elapsed_time_per_iteration": 4.9202466, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 52s", "remaining_time": "1h 7m 23s", "loss_scale": 1.0, "consumed_samples": 3039744, "global_step/max_steps": "11874/12700"}
{"lm loss": 2.04491448, "grad_norm": 0.33190411, "learning_rate": 4.11e-06, "elapsed_time_per_iteration": 4.94367909, "memory(GiB)": 28.98, "elapsed_time": "16h 8m 57s", "remaining_time": "1h 7m 19s", "loss_scale": 1.0, "consumed_samples": 3040000, "global_step/max_steps": "11875/12700"}
{"lm loss": 2.0954721, "grad_norm": 0.2950384, "learning_rate": 4.11e-06, "elapsed_time_per_iteration": 4.91878462, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 2s", "remaining_time": "1h 7m 14s", "loss_scale": 1.0, "consumed_samples": 3040256, "global_step/max_steps": "11876/12700"}
{"lm loss": 2.02405095, "grad_norm": 0.30683735, "learning_rate": 4.11e-06, "elapsed_time_per_iteration": 4.88183498, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 7s", "remaining_time": "1h 7m 9s", "loss_scale": 1.0, "consumed_samples": 3040512, "global_step/max_steps": "11877/12700"}
{"lm loss": 2.03736067, "grad_norm": 0.3147583, "learning_rate": 4.11e-06, "elapsed_time_per_iteration": 4.82253313, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 12s", "remaining_time": "1h 7m 4s", "loss_scale": 1.0, "consumed_samples": 3040768, "global_step/max_steps": "11878/12700"}
{"lm loss": 2.02347136, "grad_norm": 0.30844054, "learning_rate": 4.1e-06, "elapsed_time_per_iteration": 4.80461645, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 16s", "remaining_time": "1h 6m 59s", "loss_scale": 1.0, "consumed_samples": 3041024, "global_step/max_steps": "11879/12700"}
{"lm loss": 2.05115438, "grad_norm": 0.31550357, "learning_rate": 4.1e-06, "elapsed_time_per_iteration": 4.83714986, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 21s", "remaining_time": "1h 6m 54s", "loss_scale": 1.0, "consumed_samples": 3041280, "global_step/max_steps": "11880/12700"}
{"lm loss": 2.04670238, "grad_norm": 0.32859808, "learning_rate": 4.1e-06, "elapsed_time_per_iteration": 4.8308599, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 26s", "remaining_time": "1h 6m 49s", "loss_scale": 1.0, "consumed_samples": 3041536, "global_step/max_steps": "11881/12700"}
{"lm loss": 2.04669213, "grad_norm": 0.32177475, "learning_rate": 4.1e-06, "elapsed_time_per_iteration": 4.85057831, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 31s", "remaining_time": "1h 6m 44s", "loss_scale": 1.0, "consumed_samples": 3041792, "global_step/max_steps": "11882/12700"}
{"lm loss": 2.05073977, "grad_norm": 0.31930044, "learning_rate": 4.09e-06, "elapsed_time_per_iteration": 4.7948935, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 36s", "remaining_time": "1h 6m 39s", "loss_scale": 1.0, "consumed_samples": 3042048, "global_step/max_steps": "11883/12700"}
{"lm loss": 2.06316161, "grad_norm": 0.31571257, "learning_rate": 4.09e-06, "elapsed_time_per_iteration": 4.93854952, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 41s", "remaining_time": "1h 6m 34s", "loss_scale": 1.0, "consumed_samples": 3042304, "global_step/max_steps": "11884/12700"}
{"lm loss": 2.06072497, "grad_norm": 0.31483707, "learning_rate": 4.09e-06, "elapsed_time_per_iteration": 4.893327, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 45s", "remaining_time": "1h 6m 30s", "loss_scale": 1.0, "consumed_samples": 3042560, "global_step/max_steps": "11885/12700"}
{"lm loss": 2.04042268, "grad_norm": 0.31431019, "learning_rate": 4.09e-06, "elapsed_time_per_iteration": 4.93654251, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 50s", "remaining_time": "1h 6m 25s", "loss_scale": 1.0, "consumed_samples": 3042816, "global_step/max_steps": "11886/12700"}
{"lm loss": 2.04446745, "grad_norm": 0.30621648, "learning_rate": 4.08e-06, "elapsed_time_per_iteration": 4.83400655, "memory(GiB)": 28.98, "elapsed_time": "16h 9m 55s", "remaining_time": "1h 6m 20s", "loss_scale": 1.0, "consumed_samples": 3043072, "global_step/max_steps": "11887/12700"}
{"lm loss": 2.02870011, "grad_norm": 0.32143635, "learning_rate": 4.08e-06, "elapsed_time_per_iteration": 4.90055156, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 0s", "remaining_time": "1h 6m 15s", "loss_scale": 1.0, "consumed_samples": 3043328, "global_step/max_steps": "11888/12700"}
{"lm loss": 2.04742813, "grad_norm": 0.31383631, "learning_rate": 4.08e-06, "elapsed_time_per_iteration": 4.84972668, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 5s", "remaining_time": "1h 6m 10s", "loss_scale": 1.0, "consumed_samples": 3043584, "global_step/max_steps": "11889/12700"}
{"lm loss": 2.04021144, "grad_norm": 0.31576326, "learning_rate": 4.07e-06, "elapsed_time_per_iteration": 4.92405319, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 10s", "remaining_time": "1h 6m 5s", "loss_scale": 1.0, "consumed_samples": 3043840, "global_step/max_steps": "11890/12700"}
{"lm loss": 2.03652978, "grad_norm": 0.32301676, "learning_rate": 4.07e-06, "elapsed_time_per_iteration": 4.90717459, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 15s", "remaining_time": "1h 6m 0s", "loss_scale": 1.0, "consumed_samples": 3044096, "global_step/max_steps": "11891/12700"}
{"lm loss": 2.03244328, "grad_norm": 0.29948586, "learning_rate": 4.07e-06, "elapsed_time_per_iteration": 4.73919868, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 20s", "remaining_time": "1h 5m 55s", "loss_scale": 1.0, "consumed_samples": 3044352, "global_step/max_steps": "11892/12700"}
{"lm loss": 2.05800343, "grad_norm": 0.34387439, "learning_rate": 4.07e-06, "elapsed_time_per_iteration": 4.94718099, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 25s", "remaining_time": "1h 5m 50s", "loss_scale": 1.0, "consumed_samples": 3044608, "global_step/max_steps": "11893/12700"}
{"lm loss": 2.05633211, "grad_norm": 0.311012, "learning_rate": 4.06e-06, "elapsed_time_per_iteration": 4.87425041, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 29s", "remaining_time": "1h 5m 45s", "loss_scale": 1.0, "consumed_samples": 3044864, "global_step/max_steps": "11894/12700"}
{"lm loss": 2.07197475, "grad_norm": 0.30831823, "learning_rate": 4.06e-06, "elapsed_time_per_iteration": 4.94519544, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 34s", "remaining_time": "1h 5m 41s", "loss_scale": 1.0, "consumed_samples": 3045120, "global_step/max_steps": "11895/12700"}
{"lm loss": 2.0189383, "grad_norm": 0.31143904, "learning_rate": 4.06e-06, "elapsed_time_per_iteration": 4.91024423, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 39s", "remaining_time": "1h 5m 36s", "loss_scale": 1.0, "consumed_samples": 3045376, "global_step/max_steps": "11896/12700"}
{"lm loss": 2.07026744, "grad_norm": 0.32149997, "learning_rate": 4.06e-06, "elapsed_time_per_iteration": 4.84563446, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 44s", "remaining_time": "1h 5m 31s", "loss_scale": 1.0, "consumed_samples": 3045632, "global_step/max_steps": "11897/12700"}
{"lm loss": 2.05891275, "grad_norm": 0.31373131, "learning_rate": 4.05e-06, "elapsed_time_per_iteration": 4.85236192, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 49s", "remaining_time": "1h 5m 26s", "loss_scale": 1.0, "consumed_samples": 3045888, "global_step/max_steps": "11898/12700"}
{"lm loss": 2.04930878, "grad_norm": 0.31889045, "learning_rate": 4.05e-06, "elapsed_time_per_iteration": 4.83909225, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 54s", "remaining_time": "1h 5m 21s", "loss_scale": 1.0, "consumed_samples": 3046144, "global_step/max_steps": "11899/12700"}
{"lm loss": 2.08755136, "grad_norm": 0.30803028, "learning_rate": 4.05e-06, "elapsed_time_per_iteration": 4.83842778, "memory(GiB)": 28.98, "elapsed_time": "16h 10m 59s", "remaining_time": "1h 5m 16s", "loss_scale": 1.0, "consumed_samples": 3046400, "global_step/max_steps": "11900/12700"}
{"lm loss": 2.03978229, "grad_norm": 0.31223074, "learning_rate": 4.05e-06, "elapsed_time_per_iteration": 5.87103009, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 5s", "remaining_time": "1h 5m 11s", "loss_scale": 1.0, "consumed_samples": 3046656, "global_step/max_steps": "11901/12700"}
{"lm loss": 2.02033091, "grad_norm": 0.30318999, "learning_rate": 4.04e-06, "elapsed_time_per_iteration": 4.93416929, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 9s", "remaining_time": "1h 5m 6s", "loss_scale": 1.0, "consumed_samples": 3046912, "global_step/max_steps": "11902/12700"}
{"lm loss": 2.01749158, "grad_norm": 0.31971839, "learning_rate": 4.04e-06, "elapsed_time_per_iteration": 4.98079848, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 14s", "remaining_time": "1h 5m 1s", "loss_scale": 1.0, "consumed_samples": 3047168, "global_step/max_steps": "11903/12700"}
{"lm loss": 2.0418489, "grad_norm": 0.32132965, "learning_rate": 4.04e-06, "elapsed_time_per_iteration": 4.9535439, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 19s", "remaining_time": "1h 4m 57s", "loss_scale": 1.0, "consumed_samples": 3047424, "global_step/max_steps": "11904/12700"}
{"lm loss": 2.03397703, "grad_norm": 0.33018029, "learning_rate": 4.04e-06, "elapsed_time_per_iteration": 4.97530246, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 24s", "remaining_time": "1h 4m 52s", "loss_scale": 1.0, "consumed_samples": 3047680, "global_step/max_steps": "11905/12700"}
{"lm loss": 2.0275383, "grad_norm": 0.32955688, "learning_rate": 4.03e-06, "elapsed_time_per_iteration": 4.95402122, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 29s", "remaining_time": "1h 4m 47s", "loss_scale": 1.0, "consumed_samples": 3047936, "global_step/max_steps": "11906/12700"}
{"lm loss": 2.03682137, "grad_norm": 0.31856152, "learning_rate": 4.03e-06, "elapsed_time_per_iteration": 4.9876523, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 34s", "remaining_time": "1h 4m 42s", "loss_scale": 1.0, "consumed_samples": 3048192, "global_step/max_steps": "11907/12700"}
{"lm loss": 2.01693487, "grad_norm": 0.31879261, "learning_rate": 4.03e-06, "elapsed_time_per_iteration": 4.91147041, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 39s", "remaining_time": "1h 4m 37s", "loss_scale": 1.0, "consumed_samples": 3048448, "global_step/max_steps": "11908/12700"}
{"lm loss": 2.0200212, "grad_norm": 0.31799161, "learning_rate": 4.03e-06, "elapsed_time_per_iteration": 4.80540323, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 44s", "remaining_time": "1h 4m 32s", "loss_scale": 1.0, "consumed_samples": 3048704, "global_step/max_steps": "11909/12700"}
{"lm loss": 2.05560613, "grad_norm": 0.31789201, "learning_rate": 4.02e-06, "elapsed_time_per_iteration": 4.9431293, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 49s", "remaining_time": "1h 4m 27s", "loss_scale": 1.0, "consumed_samples": 3048960, "global_step/max_steps": "11910/12700"}
{"lm loss": 2.04010558, "grad_norm": 0.3221181, "learning_rate": 4.02e-06, "elapsed_time_per_iteration": 4.92521191, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 54s", "remaining_time": "1h 4m 22s", "loss_scale": 1.0, "consumed_samples": 3049216, "global_step/max_steps": "11911/12700"}
{"lm loss": 2.03930521, "grad_norm": 0.30474347, "learning_rate": 4.02e-06, "elapsed_time_per_iteration": 4.94959998, "memory(GiB)": 28.98, "elapsed_time": "16h 11m 59s", "remaining_time": "1h 4m 17s", "loss_scale": 1.0, "consumed_samples": 3049472, "global_step/max_steps": "11912/12700"}
{"lm loss": 2.0134027, "grad_norm": 0.31206831, "learning_rate": 4.01e-06, "elapsed_time_per_iteration": 4.89817429, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 4s", "remaining_time": "1h 4m 13s", "loss_scale": 1.0, "consumed_samples": 3049728, "global_step/max_steps": "11913/12700"}
{"lm loss": 2.05347514, "grad_norm": 0.31181562, "learning_rate": 4.01e-06, "elapsed_time_per_iteration": 4.82774091, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 9s", "remaining_time": "1h 4m 8s", "loss_scale": 1.0, "consumed_samples": 3049984, "global_step/max_steps": "11914/12700"}
{"lm loss": 2.04404664, "grad_norm": 0.30367598, "learning_rate": 4.01e-06, "elapsed_time_per_iteration": 4.84025145, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 13s", "remaining_time": "1h 4m 3s", "loss_scale": 1.0, "consumed_samples": 3050240, "global_step/max_steps": "11915/12700"}
{"lm loss": 2.04121423, "grad_norm": 0.30381468, "learning_rate": 4.01e-06, "elapsed_time_per_iteration": 4.93779993, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 18s", "remaining_time": "1h 3m 58s", "loss_scale": 1.0, "consumed_samples": 3050496, "global_step/max_steps": "11916/12700"}
{"lm loss": 2.02437568, "grad_norm": 0.30036402, "learning_rate": 4e-06, "elapsed_time_per_iteration": 4.83649278, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 23s", "remaining_time": "1h 3m 53s", "loss_scale": 1.0, "consumed_samples": 3050752, "global_step/max_steps": "11917/12700"}
{"lm loss": 2.03050351, "grad_norm": 0.30513966, "learning_rate": 4e-06, "elapsed_time_per_iteration": 4.84631181, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 28s", "remaining_time": "1h 3m 48s", "loss_scale": 1.0, "consumed_samples": 3051008, "global_step/max_steps": "11918/12700"}
{"lm loss": 2.05878711, "grad_norm": 0.30238879, "learning_rate": 4e-06, "elapsed_time_per_iteration": 4.92423105, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 33s", "remaining_time": "1h 3m 43s", "loss_scale": 1.0, "consumed_samples": 3051264, "global_step/max_steps": "11919/12700"}
{"lm loss": 2.02592134, "grad_norm": 0.30430982, "learning_rate": 4e-06, "elapsed_time_per_iteration": 4.89335728, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 38s", "remaining_time": "1h 3m 38s", "loss_scale": 1.0, "consumed_samples": 3051520, "global_step/max_steps": "11920/12700"}
{"lm loss": 2.01523852, "grad_norm": 0.30395603, "learning_rate": 3.99e-06, "elapsed_time_per_iteration": 4.8600409, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 43s", "remaining_time": "1h 3m 33s", "loss_scale": 1.0, "consumed_samples": 3051776, "global_step/max_steps": "11921/12700"}
{"lm loss": 2.01091003, "grad_norm": 0.33356512, "learning_rate": 3.99e-06, "elapsed_time_per_iteration": 4.91586256, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 48s", "remaining_time": "1h 3m 28s", "loss_scale": 1.0, "consumed_samples": 3052032, "global_step/max_steps": "11922/12700"}
{"lm loss": 2.03993273, "grad_norm": 0.30786026, "learning_rate": 3.99e-06, "elapsed_time_per_iteration": 4.87230921, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 52s", "remaining_time": "1h 3m 24s", "loss_scale": 1.0, "consumed_samples": 3052288, "global_step/max_steps": "11923/12700"}
{"lm loss": 2.03364539, "grad_norm": 0.3025721, "learning_rate": 3.99e-06, "elapsed_time_per_iteration": 4.8669765, "memory(GiB)": 28.98, "elapsed_time": "16h 12m 57s", "remaining_time": "1h 3m 19s", "loss_scale": 1.0, "consumed_samples": 3052544, "global_step/max_steps": "11924/12700"}
{"lm loss": 2.02514029, "grad_norm": 0.30251521, "learning_rate": 3.98e-06, "elapsed_time_per_iteration": 4.83493376, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 2s", "remaining_time": "1h 3m 14s", "loss_scale": 1.0, "consumed_samples": 3052800, "global_step/max_steps": "11925/12700"}
{"lm loss": 2.05141091, "grad_norm": 0.3224183, "learning_rate": 3.98e-06, "elapsed_time_per_iteration": 4.83775377, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 7s", "remaining_time": "1h 3m 9s", "loss_scale": 1.0, "consumed_samples": 3053056, "global_step/max_steps": "11926/12700"}
{"lm loss": 1.99547553, "grad_norm": 0.31861234, "learning_rate": 3.98e-06, "elapsed_time_per_iteration": 4.88811874, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 12s", "remaining_time": "1h 3m 4s", "loss_scale": 1.0, "consumed_samples": 3053312, "global_step/max_steps": "11927/12700"}
{"lm loss": 2.04514623, "grad_norm": 0.30820471, "learning_rate": 3.98e-06, "elapsed_time_per_iteration": 4.86369348, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 17s", "remaining_time": "1h 2m 59s", "loss_scale": 1.0, "consumed_samples": 3053568, "global_step/max_steps": "11928/12700"}
{"lm loss": 2.05881953, "grad_norm": 0.31408948, "learning_rate": 3.97e-06, "elapsed_time_per_iteration": 4.8382287, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 22s", "remaining_time": "1h 2m 54s", "loss_scale": 1.0, "consumed_samples": 3053824, "global_step/max_steps": "11929/12700"}
{"lm loss": 2.01909518, "grad_norm": 0.30787539, "learning_rate": 3.97e-06, "elapsed_time_per_iteration": 4.7879858, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 26s", "remaining_time": "1h 2m 49s", "loss_scale": 1.0, "consumed_samples": 3054080, "global_step/max_steps": "11930/12700"}
{"lm loss": 2.0429337, "grad_norm": 0.30105537, "learning_rate": 3.97e-06, "elapsed_time_per_iteration": 4.87692046, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 31s", "remaining_time": "1h 2m 44s", "loss_scale": 1.0, "consumed_samples": 3054336, "global_step/max_steps": "11931/12700"}
{"lm loss": 2.04612899, "grad_norm": 0.32436162, "learning_rate": 3.97e-06, "elapsed_time_per_iteration": 4.81428981, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 36s", "remaining_time": "1h 2m 39s", "loss_scale": 1.0, "consumed_samples": 3054592, "global_step/max_steps": "11932/12700"}
{"lm loss": 2.04276395, "grad_norm": 0.31100079, "learning_rate": 3.96e-06, "elapsed_time_per_iteration": 5.02160358, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 41s", "remaining_time": "1h 2m 35s", "loss_scale": 1.0, "consumed_samples": 3054848, "global_step/max_steps": "11933/12700"}
{"lm loss": 2.04395151, "grad_norm": 0.30025318, "learning_rate": 3.96e-06, "elapsed_time_per_iteration": 5.00111055, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 46s", "remaining_time": "1h 2m 30s", "loss_scale": 1.0, "consumed_samples": 3055104, "global_step/max_steps": "11934/12700"}
{"lm loss": 2.03189874, "grad_norm": 0.32723621, "learning_rate": 3.96e-06, "elapsed_time_per_iteration": 4.86065793, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 51s", "remaining_time": "1h 2m 25s", "loss_scale": 1.0, "consumed_samples": 3055360, "global_step/max_steps": "11935/12700"}
{"lm loss": 2.03284144, "grad_norm": 0.30827969, "learning_rate": 3.96e-06, "elapsed_time_per_iteration": 5.01153636, "memory(GiB)": 28.98, "elapsed_time": "16h 13m 56s", "remaining_time": "1h 2m 20s", "loss_scale": 1.0, "consumed_samples": 3055616, "global_step/max_steps": "11936/12700"}
{"lm loss": 2.01805687, "grad_norm": 0.31215999, "learning_rate": 3.95e-06, "elapsed_time_per_iteration": 4.96073842, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 1s", "remaining_time": "1h 2m 15s", "loss_scale": 1.0, "consumed_samples": 3055872, "global_step/max_steps": "11937/12700"}
{"lm loss": 2.03481102, "grad_norm": 0.30701551, "learning_rate": 3.95e-06, "elapsed_time_per_iteration": 4.94792175, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 6s", "remaining_time": "1h 2m 10s", "loss_scale": 1.0, "consumed_samples": 3056128, "global_step/max_steps": "11938/12700"}
{"lm loss": 2.03010917, "grad_norm": 0.32457286, "learning_rate": 3.95e-06, "elapsed_time_per_iteration": 4.97817469, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 11s", "remaining_time": "1h 2m 5s", "loss_scale": 1.0, "consumed_samples": 3056384, "global_step/max_steps": "11939/12700"}
{"lm loss": 1.97937381, "grad_norm": 0.29543877, "learning_rate": 3.95e-06, "elapsed_time_per_iteration": 4.88754416, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 16s", "remaining_time": "1h 2m 0s", "loss_scale": 1.0, "consumed_samples": 3056640, "global_step/max_steps": "11940/12700"}
{"lm loss": 2.01086164, "grad_norm": 0.32207933, "learning_rate": 3.94e-06, "elapsed_time_per_iteration": 4.8924799, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 21s", "remaining_time": "1h 1m 55s", "loss_scale": 1.0, "consumed_samples": 3056896, "global_step/max_steps": "11941/12700"}
{"lm loss": 2.02107167, "grad_norm": 0.31200999, "learning_rate": 3.94e-06, "elapsed_time_per_iteration": 4.9089427, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 26s", "remaining_time": "1h 1m 51s", "loss_scale": 1.0, "consumed_samples": 3057152, "global_step/max_steps": "11942/12700"}
{"lm loss": 2.03253627, "grad_norm": 0.32944092, "learning_rate": 3.94e-06, "elapsed_time_per_iteration": 4.91349697, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 30s", "remaining_time": "1h 1m 46s", "loss_scale": 1.0, "consumed_samples": 3057408, "global_step/max_steps": "11943/12700"}
{"lm loss": 2.03210258, "grad_norm": 0.3216435, "learning_rate": 3.94e-06, "elapsed_time_per_iteration": 4.83332133, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 35s", "remaining_time": "1h 1m 41s", "loss_scale": 1.0, "consumed_samples": 3057664, "global_step/max_steps": "11944/12700"}
{"lm loss": 2.06932998, "grad_norm": 0.31430128, "learning_rate": 3.93e-06, "elapsed_time_per_iteration": 4.87814927, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 40s", "remaining_time": "1h 1m 36s", "loss_scale": 1.0, "consumed_samples": 3057920, "global_step/max_steps": "11945/12700"}
{"lm loss": 2.06278443, "grad_norm": 0.33120507, "learning_rate": 3.93e-06, "elapsed_time_per_iteration": 4.99759531, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 45s", "remaining_time": "1h 1m 31s", "loss_scale": 1.0, "consumed_samples": 3058176, "global_step/max_steps": "11946/12700"}
{"lm loss": 2.01053095, "grad_norm": 0.33041191, "learning_rate": 3.93e-06, "elapsed_time_per_iteration": 4.83415318, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 50s", "remaining_time": "1h 1m 26s", "loss_scale": 1.0, "consumed_samples": 3058432, "global_step/max_steps": "11947/12700"}
{"lm loss": 2.04772568, "grad_norm": 0.31756872, "learning_rate": 3.93e-06, "elapsed_time_per_iteration": 4.81992745, "memory(GiB)": 28.98, "elapsed_time": "16h 14m 55s", "remaining_time": "1h 1m 21s", "loss_scale": 1.0, "consumed_samples": 3058688, "global_step/max_steps": "11948/12700"}
{"lm loss": 2.03170872, "grad_norm": 0.30356467, "learning_rate": 3.92e-06, "elapsed_time_per_iteration": 4.89126253, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 0s", "remaining_time": "1h 1m 16s", "loss_scale": 1.0, "consumed_samples": 3058944, "global_step/max_steps": "11949/12700"}
{"lm loss": 2.02181935, "grad_norm": 0.31394252, "learning_rate": 3.92e-06, "elapsed_time_per_iteration": 4.8772223, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 5s", "remaining_time": "1h 1m 11s", "loss_scale": 1.0, "consumed_samples": 3059200, "global_step/max_steps": "11950/12700"}
{"lm loss": 2.0540235, "grad_norm": 0.31156296, "learning_rate": 3.92e-06, "elapsed_time_per_iteration": 4.89625978, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 10s", "remaining_time": "1h 1m 6s", "loss_scale": 1.0, "consumed_samples": 3059456, "global_step/max_steps": "11951/12700"}
{"lm loss": 2.03236651, "grad_norm": 0.31584355, "learning_rate": 3.92e-06, "elapsed_time_per_iteration": 4.83285904, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 14s", "remaining_time": "1h 1m 2s", "loss_scale": 1.0, "consumed_samples": 3059712, "global_step/max_steps": "11952/12700"}
{"lm loss": 2.03604627, "grad_norm": 0.3134158, "learning_rate": 3.91e-06, "elapsed_time_per_iteration": 4.94690561, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 19s", "remaining_time": "1h 0m 57s", "loss_scale": 1.0, "consumed_samples": 3059968, "global_step/max_steps": "11953/12700"}
{"lm loss": 2.01968765, "grad_norm": 0.31596005, "learning_rate": 3.91e-06, "elapsed_time_per_iteration": 4.855443, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 24s", "remaining_time": "1h 0m 52s", "loss_scale": 1.0, "consumed_samples": 3060224, "global_step/max_steps": "11954/12700"}
{"lm loss": 2.02161717, "grad_norm": 0.31478682, "learning_rate": 3.91e-06, "elapsed_time_per_iteration": 4.96527338, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 29s", "remaining_time": "1h 0m 47s", "loss_scale": 1.0, "consumed_samples": 3060480, "global_step/max_steps": "11955/12700"}
{"lm loss": 2.00952172, "grad_norm": 0.31058985, "learning_rate": 3.91e-06, "elapsed_time_per_iteration": 4.88874459, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 34s", "remaining_time": "1h 0m 42s", "loss_scale": 1.0, "consumed_samples": 3060736, "global_step/max_steps": "11956/12700"}
{"lm loss": 2.03603888, "grad_norm": 0.33488876, "learning_rate": 3.9e-06, "elapsed_time_per_iteration": 4.90895796, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 39s", "remaining_time": "1h 0m 37s", "loss_scale": 1.0, "consumed_samples": 3060992, "global_step/max_steps": "11957/12700"}
{"lm loss": 2.06733894, "grad_norm": 0.33306354, "learning_rate": 3.9e-06, "elapsed_time_per_iteration": 5.04556084, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 44s", "remaining_time": "1h 0m 32s", "loss_scale": 1.0, "consumed_samples": 3061248, "global_step/max_steps": "11958/12700"}
{"lm loss": 2.03481364, "grad_norm": 0.31253919, "learning_rate": 3.9e-06, "elapsed_time_per_iteration": 4.92004967, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 49s", "remaining_time": "1h 0m 27s", "loss_scale": 1.0, "consumed_samples": 3061504, "global_step/max_steps": "11959/12700"}
{"lm loss": 2.05011201, "grad_norm": 0.32575008, "learning_rate": 3.9e-06, "elapsed_time_per_iteration": 4.88042092, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 54s", "remaining_time": "1h 0m 22s", "loss_scale": 1.0, "consumed_samples": 3061760, "global_step/max_steps": "11960/12700"}
{"lm loss": 2.03303075, "grad_norm": 0.31575814, "learning_rate": 3.9e-06, "elapsed_time_per_iteration": 4.92141032, "memory(GiB)": 28.98, "elapsed_time": "16h 15m 59s", "remaining_time": "1h 0m 18s", "loss_scale": 1.0, "consumed_samples": 3062016, "global_step/max_steps": "11961/12700"}
{"lm loss": 2.00185084, "grad_norm": 0.30310535, "learning_rate": 3.89e-06, "elapsed_time_per_iteration": 4.99483752, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 4s", "remaining_time": "1h 0m 13s", "loss_scale": 1.0, "consumed_samples": 3062272, "global_step/max_steps": "11962/12700"}
{"lm loss": 2.04512239, "grad_norm": 0.31828627, "learning_rate": 3.89e-06, "elapsed_time_per_iteration": 4.87754393, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 9s", "remaining_time": "1h 0m 8s", "loss_scale": 1.0, "consumed_samples": 3062528, "global_step/max_steps": "11963/12700"}
{"lm loss": 2.06861567, "grad_norm": 0.31285349, "learning_rate": 3.89e-06, "elapsed_time_per_iteration": 4.8239882, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 13s", "remaining_time": "1h 0m 3s", "loss_scale": 1.0, "consumed_samples": 3062784, "global_step/max_steps": "11964/12700"}
{"lm loss": 2.02541375, "grad_norm": 0.30324009, "learning_rate": 3.89e-06, "elapsed_time_per_iteration": 4.86484337, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 18s", "remaining_time": "59m 58s", "loss_scale": 1.0, "consumed_samples": 3063040, "global_step/max_steps": "11965/12700"}
{"lm loss": 2.03051901, "grad_norm": 0.31114122, "learning_rate": 3.88e-06, "elapsed_time_per_iteration": 4.79982424, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 23s", "remaining_time": "59m 53s", "loss_scale": 1.0, "consumed_samples": 3063296, "global_step/max_steps": "11966/12700"}
{"lm loss": 2.01009846, "grad_norm": 0.34150586, "learning_rate": 3.88e-06, "elapsed_time_per_iteration": 4.86996984, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 28s", "remaining_time": "59m 48s", "loss_scale": 1.0, "consumed_samples": 3063552, "global_step/max_steps": "11967/12700"}
{"lm loss": 2.00458813, "grad_norm": 0.33295372, "learning_rate": 3.88e-06, "elapsed_time_per_iteration": 4.75592661, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 33s", "remaining_time": "59m 43s", "loss_scale": 1.0, "consumed_samples": 3063808, "global_step/max_steps": "11968/12700"}
{"lm loss": 2.03043103, "grad_norm": 0.31700027, "learning_rate": 3.88e-06, "elapsed_time_per_iteration": 4.86838317, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 38s", "remaining_time": "59m 38s", "loss_scale": 1.0, "consumed_samples": 3064064, "global_step/max_steps": "11969/12700"}
{"lm loss": 2.03893757, "grad_norm": 0.32527599, "learning_rate": 3.87e-06, "elapsed_time_per_iteration": 4.84041953, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 42s", "remaining_time": "59m 33s", "loss_scale": 1.0, "consumed_samples": 3064320, "global_step/max_steps": "11970/12700"}
{"lm loss": 2.06333303, "grad_norm": 0.30626824, "learning_rate": 3.87e-06, "elapsed_time_per_iteration": 4.8754437, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 47s", "remaining_time": "59m 29s", "loss_scale": 1.0, "consumed_samples": 3064576, "global_step/max_steps": "11971/12700"}
{"lm loss": 2.06830621, "grad_norm": 0.29762885, "learning_rate": 3.87e-06, "elapsed_time_per_iteration": 4.87063503, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 52s", "remaining_time": "59m 24s", "loss_scale": 1.0, "consumed_samples": 3064832, "global_step/max_steps": "11972/12700"}
{"lm loss": 2.03676009, "grad_norm": 0.3129237, "learning_rate": 3.87e-06, "elapsed_time_per_iteration": 4.97383237, "memory(GiB)": 28.98, "elapsed_time": "16h 16m 57s", "remaining_time": "59m 19s", "loss_scale": 1.0, "consumed_samples": 3065088, "global_step/max_steps": "11973/12700"}
{"lm loss": 2.00065851, "grad_norm": 0.31322476, "learning_rate": 3.86e-06, "elapsed_time_per_iteration": 4.85509229, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 2s", "remaining_time": "59m 14s", "loss_scale": 1.0, "consumed_samples": 3065344, "global_step/max_steps": "11974/12700"}
{"lm loss": 2.01963806, "grad_norm": 0.30499387, "learning_rate": 3.86e-06, "elapsed_time_per_iteration": 4.88154078, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 7s", "remaining_time": "59m 9s", "loss_scale": 1.0, "consumed_samples": 3065600, "global_step/max_steps": "11975/12700"}
{"lm loss": 2.01782203, "grad_norm": 0.32884759, "learning_rate": 3.86e-06, "elapsed_time_per_iteration": 4.84796977, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 12s", "remaining_time": "59m 4s", "loss_scale": 1.0, "consumed_samples": 3065856, "global_step/max_steps": "11976/12700"}
{"lm loss": 2.02678251, "grad_norm": 0.3295691, "learning_rate": 3.86e-06, "elapsed_time_per_iteration": 5.02379751, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 17s", "remaining_time": "58m 59s", "loss_scale": 1.0, "consumed_samples": 3066112, "global_step/max_steps": "11977/12700"}
{"lm loss": 2.0268743, "grad_norm": 0.32406756, "learning_rate": 3.85e-06, "elapsed_time_per_iteration": 4.8893435, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 22s", "remaining_time": "58m 54s", "loss_scale": 1.0, "consumed_samples": 3066368, "global_step/max_steps": "11978/12700"}
{"lm loss": 2.03273535, "grad_norm": 0.31955135, "learning_rate": 3.85e-06, "elapsed_time_per_iteration": 4.88348675, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 26s", "remaining_time": "58m 49s", "loss_scale": 1.0, "consumed_samples": 3066624, "global_step/max_steps": "11979/12700"}
{"lm loss": 2.02841759, "grad_norm": 0.30016521, "learning_rate": 3.85e-06, "elapsed_time_per_iteration": 4.96890354, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 31s", "remaining_time": "58m 44s", "loss_scale": 1.0, "consumed_samples": 3066880, "global_step/max_steps": "11980/12700"}
{"lm loss": 2.04059124, "grad_norm": 0.30287293, "learning_rate": 3.85e-06, "elapsed_time_per_iteration": 4.89065957, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 36s", "remaining_time": "58m 40s", "loss_scale": 1.0, "consumed_samples": 3067136, "global_step/max_steps": "11981/12700"}
{"lm loss": 2.04282236, "grad_norm": 0.32493091, "learning_rate": 3.85e-06, "elapsed_time_per_iteration": 4.91606975, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 41s", "remaining_time": "58m 35s", "loss_scale": 1.0, "consumed_samples": 3067392, "global_step/max_steps": "11982/12700"}
{"lm loss": 2.007303, "grad_norm": 0.32938766, "learning_rate": 3.84e-06, "elapsed_time_per_iteration": 4.87549353, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 46s", "remaining_time": "58m 30s", "loss_scale": 1.0, "consumed_samples": 3067648, "global_step/max_steps": "11983/12700"}
{"lm loss": 2.0327189, "grad_norm": 0.32462123, "learning_rate": 3.84e-06, "elapsed_time_per_iteration": 4.88505626, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 51s", "remaining_time": "58m 25s", "loss_scale": 1.0, "consumed_samples": 3067904, "global_step/max_steps": "11984/12700"}
{"lm loss": 2.02960253, "grad_norm": 0.33187598, "learning_rate": 3.84e-06, "elapsed_time_per_iteration": 4.93614316, "memory(GiB)": 28.98, "elapsed_time": "16h 17m 56s", "remaining_time": "58m 20s", "loss_scale": 1.0, "consumed_samples": 3068160, "global_step/max_steps": "11985/12700"}
{"lm loss": 2.04863119, "grad_norm": 0.31326833, "learning_rate": 3.84e-06, "elapsed_time_per_iteration": 4.88310122, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 1s", "remaining_time": "58m 15s", "loss_scale": 1.0, "consumed_samples": 3068416, "global_step/max_steps": "11986/12700"}
{"lm loss": 2.07295203, "grad_norm": 0.31818017, "learning_rate": 3.83e-06, "elapsed_time_per_iteration": 4.88644624, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 6s", "remaining_time": "58m 10s", "loss_scale": 1.0, "consumed_samples": 3068672, "global_step/max_steps": "11987/12700"}
{"lm loss": 2.04251575, "grad_norm": 0.32953554, "learning_rate": 3.83e-06, "elapsed_time_per_iteration": 4.8243866, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 11s", "remaining_time": "58m 5s", "loss_scale": 1.0, "consumed_samples": 3068928, "global_step/max_steps": "11988/12700"}
{"lm loss": 2.04071784, "grad_norm": 0.3080081, "learning_rate": 3.83e-06, "elapsed_time_per_iteration": 4.87507868, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 15s", "remaining_time": "58m 0s", "loss_scale": 1.0, "consumed_samples": 3069184, "global_step/max_steps": "11989/12700"}
{"lm loss": 2.0386014, "grad_norm": 0.32463902, "learning_rate": 3.83e-06, "elapsed_time_per_iteration": 4.88930845, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 20s", "remaining_time": "57m 56s", "loss_scale": 1.0, "consumed_samples": 3069440, "global_step/max_steps": "11990/12700"}
{"lm loss": 2.02120042, "grad_norm": 0.31363836, "learning_rate": 3.82e-06, "elapsed_time_per_iteration": 4.92405987, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 25s", "remaining_time": "57m 51s", "loss_scale": 1.0, "consumed_samples": 3069696, "global_step/max_steps": "11991/12700"}
{"lm loss": 2.04419422, "grad_norm": 0.32626247, "learning_rate": 3.82e-06, "elapsed_time_per_iteration": 4.99764919, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 30s", "remaining_time": "57m 46s", "loss_scale": 1.0, "consumed_samples": 3069952, "global_step/max_steps": "11992/12700"}
{"lm loss": 2.03948045, "grad_norm": 0.3116765, "learning_rate": 3.82e-06, "elapsed_time_per_iteration": 4.90099788, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 35s", "remaining_time": "57m 41s", "loss_scale": 1.0, "consumed_samples": 3070208, "global_step/max_steps": "11993/12700"}
{"lm loss": 2.00399423, "grad_norm": 0.30365589, "learning_rate": 3.82e-06, "elapsed_time_per_iteration": 4.90209675, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 40s", "remaining_time": "57m 36s", "loss_scale": 1.0, "consumed_samples": 3070464, "global_step/max_steps": "11994/12700"}
{"lm loss": 2.02361369, "grad_norm": 0.31267691, "learning_rate": 3.81e-06, "elapsed_time_per_iteration": 4.84612727, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 45s", "remaining_time": "57m 31s", "loss_scale": 1.0, "consumed_samples": 3070720, "global_step/max_steps": "11995/12700"}
{"lm loss": 2.00543618, "grad_norm": 0.29329216, "learning_rate": 3.81e-06, "elapsed_time_per_iteration": 4.78081274, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 50s", "remaining_time": "57m 26s", "loss_scale": 1.0, "consumed_samples": 3070976, "global_step/max_steps": "11996/12700"}
{"lm loss": 2.032197, "grad_norm": 0.30830982, "learning_rate": 3.81e-06, "elapsed_time_per_iteration": 4.90682983, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 55s", "remaining_time": "57m 21s", "loss_scale": 1.0, "consumed_samples": 3071232, "global_step/max_steps": "11997/12700"}
{"lm loss": 2.01360822, "grad_norm": 0.31246501, "learning_rate": 3.81e-06, "elapsed_time_per_iteration": 4.865839, "memory(GiB)": 28.98, "elapsed_time": "16h 18m 59s", "remaining_time": "57m 16s", "loss_scale": 1.0, "consumed_samples": 3071488, "global_step/max_steps": "11998/12700"}
{"lm loss": 2.04369855, "grad_norm": 0.31289321, "learning_rate": 3.81e-06, "elapsed_time_per_iteration": 4.86219239, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 4s", "remaining_time": "57m 11s", "loss_scale": 1.0, "consumed_samples": 3071744, "global_step/max_steps": "11999/12700"}
{"lm loss": 2.02490664, "grad_norm": 0.3108229, "learning_rate": 3.8e-06, "elapsed_time_per_iteration": 4.94041324, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 9s", "remaining_time": "57m 7s", "loss_scale": 1.0, "consumed_samples": 3072000, "global_step/max_steps": "12000/12700"}
{"lm loss": 2.00208998, "grad_norm": 0.31363893, "learning_rate": 3.8e-06, "elapsed_time_per_iteration": 4.94903493, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 14s", "remaining_time": "57m 2s", "loss_scale": 1.0, "consumed_samples": 3072256, "global_step/max_steps": "12001/12700"}
{"lm loss": 2.02997255, "grad_norm": 0.32265115, "learning_rate": 3.8e-06, "elapsed_time_per_iteration": 4.99886227, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 19s", "remaining_time": "56m 57s", "loss_scale": 1.0, "consumed_samples": 3072512, "global_step/max_steps": "12002/12700"}
{"lm loss": 2.02481961, "grad_norm": 0.3070249, "learning_rate": 3.8e-06, "elapsed_time_per_iteration": 4.87241554, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 24s", "remaining_time": "56m 52s", "loss_scale": 1.0, "consumed_samples": 3072768, "global_step/max_steps": "12003/12700"}
{"lm loss": 2.05083942, "grad_norm": 0.32981396, "learning_rate": 3.79e-06, "elapsed_time_per_iteration": 4.94126391, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 29s", "remaining_time": "56m 47s", "loss_scale": 1.0, "consumed_samples": 3073024, "global_step/max_steps": "12004/12700"}
{"lm loss": 2.05379653, "grad_norm": 0.30806956, "learning_rate": 3.79e-06, "elapsed_time_per_iteration": 4.83450508, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 34s", "remaining_time": "56m 42s", "loss_scale": 1.0, "consumed_samples": 3073280, "global_step/max_steps": "12005/12700"}
{"lm loss": 2.01479411, "grad_norm": 0.32964426, "learning_rate": 3.79e-06, "elapsed_time_per_iteration": 4.87391233, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 39s", "remaining_time": "56m 37s", "loss_scale": 1.0, "consumed_samples": 3073536, "global_step/max_steps": "12006/12700"}
{"lm loss": 2.01231217, "grad_norm": 0.30205658, "learning_rate": 3.79e-06, "elapsed_time_per_iteration": 4.93572903, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 44s", "remaining_time": "56m 32s", "loss_scale": 1.0, "consumed_samples": 3073792, "global_step/max_steps": "12007/12700"}
{"lm loss": 2.01660252, "grad_norm": 0.30133468, "learning_rate": 3.79e-06, "elapsed_time_per_iteration": 5.0314641, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 49s", "remaining_time": "56m 27s", "loss_scale": 1.0, "consumed_samples": 3074048, "global_step/max_steps": "12008/12700"}
{"lm loss": 2.07312751, "grad_norm": 0.305922, "learning_rate": 3.78e-06, "elapsed_time_per_iteration": 4.94896722, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 54s", "remaining_time": "56m 23s", "loss_scale": 1.0, "consumed_samples": 3074304, "global_step/max_steps": "12009/12700"}
{"lm loss": 2.01357102, "grad_norm": 0.30738583, "learning_rate": 3.78e-06, "elapsed_time_per_iteration": 4.96887183, "memory(GiB)": 28.98, "elapsed_time": "16h 19m 59s", "remaining_time": "56m 18s", "loss_scale": 1.0, "consumed_samples": 3074560, "global_step/max_steps": "12010/12700"}
{"lm loss": 2.05676818, "grad_norm": 0.31925604, "learning_rate": 3.78e-06, "elapsed_time_per_iteration": 5.05955362, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 4s", "remaining_time": "56m 13s", "loss_scale": 1.0, "consumed_samples": 3074816, "global_step/max_steps": "12011/12700"}
{"lm loss": 2.02572274, "grad_norm": 0.33309075, "learning_rate": 3.78e-06, "elapsed_time_per_iteration": 4.8974309, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 9s", "remaining_time": "56m 8s", "loss_scale": 1.0, "consumed_samples": 3075072, "global_step/max_steps": "12012/12700"}
{"lm loss": 2.02617335, "grad_norm": 0.33059922, "learning_rate": 3.77e-06, "elapsed_time_per_iteration": 4.87464857, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 13s", "remaining_time": "56m 3s", "loss_scale": 1.0, "consumed_samples": 3075328, "global_step/max_steps": "12013/12700"}
{"lm loss": 2.01888728, "grad_norm": 0.32742274, "learning_rate": 3.77e-06, "elapsed_time_per_iteration": 4.97075438, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 18s", "remaining_time": "55m 58s", "loss_scale": 1.0, "consumed_samples": 3075584, "global_step/max_steps": "12014/12700"}
{"lm loss": 2.04855275, "grad_norm": 0.31845668, "learning_rate": 3.77e-06, "elapsed_time_per_iteration": 4.79102397, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 23s", "remaining_time": "55m 53s", "loss_scale": 1.0, "consumed_samples": 3075840, "global_step/max_steps": "12015/12700"}
{"lm loss": 2.03907394, "grad_norm": 0.32091358, "learning_rate": 3.77e-06, "elapsed_time_per_iteration": 4.9285779, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 28s", "remaining_time": "55m 48s", "loss_scale": 1.0, "consumed_samples": 3076096, "global_step/max_steps": "12016/12700"}
{"lm loss": 2.00420308, "grad_norm": 0.30588022, "learning_rate": 3.76e-06, "elapsed_time_per_iteration": 4.79292822, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 33s", "remaining_time": "55m 43s", "loss_scale": 1.0, "consumed_samples": 3076352, "global_step/max_steps": "12017/12700"}
{"lm loss": 2.05808687, "grad_norm": 0.34024844, "learning_rate": 3.76e-06, "elapsed_time_per_iteration": 4.86632133, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 38s", "remaining_time": "55m 38s", "loss_scale": 1.0, "consumed_samples": 3076608, "global_step/max_steps": "12018/12700"}
{"lm loss": 1.98835135, "grad_norm": 0.31851584, "learning_rate": 3.76e-06, "elapsed_time_per_iteration": 4.93372989, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 43s", "remaining_time": "55m 34s", "loss_scale": 1.0, "consumed_samples": 3076864, "global_step/max_steps": "12019/12700"}
{"lm loss": 2.04682112, "grad_norm": 0.31118572, "learning_rate": 3.76e-06, "elapsed_time_per_iteration": 4.9234035, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 48s", "remaining_time": "55m 29s", "loss_scale": 1.0, "consumed_samples": 3077120, "global_step/max_steps": "12020/12700"}
{"lm loss": 2.03775811, "grad_norm": 0.30313727, "learning_rate": 3.76e-06, "elapsed_time_per_iteration": 4.95789552, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 53s", "remaining_time": "55m 24s", "loss_scale": 1.0, "consumed_samples": 3077376, "global_step/max_steps": "12021/12700"}
{"lm loss": 2.05311775, "grad_norm": 0.31814948, "learning_rate": 3.75e-06, "elapsed_time_per_iteration": 4.93083835, "memory(GiB)": 28.98, "elapsed_time": "16h 20m 58s", "remaining_time": "55m 19s", "loss_scale": 1.0, "consumed_samples": 3077632, "global_step/max_steps": "12022/12700"}
{"lm loss": 2.0455277, "grad_norm": 0.32349175, "learning_rate": 3.75e-06, "elapsed_time_per_iteration": 5.01671815, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 3s", "remaining_time": "55m 14s", "loss_scale": 1.0, "consumed_samples": 3077888, "global_step/max_steps": "12023/12700"}
{"lm loss": 2.04223251, "grad_norm": 0.30606037, "learning_rate": 3.75e-06, "elapsed_time_per_iteration": 4.88067389, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 7s", "remaining_time": "55m 9s", "loss_scale": 1.0, "consumed_samples": 3078144, "global_step/max_steps": "12024/12700"}
{"lm loss": 2.03753376, "grad_norm": 0.30047023, "learning_rate": 3.75e-06, "elapsed_time_per_iteration": 4.96811271, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 12s", "remaining_time": "55m 4s", "loss_scale": 1.0, "consumed_samples": 3078400, "global_step/max_steps": "12025/12700"}
{"lm loss": 2.07929325, "grad_norm": 0.3111521, "learning_rate": 3.75e-06, "elapsed_time_per_iteration": 4.85204983, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 17s", "remaining_time": "54m 59s", "loss_scale": 1.0, "consumed_samples": 3078656, "global_step/max_steps": "12026/12700"}
{"lm loss": 2.04009151, "grad_norm": 0.32788804, "learning_rate": 3.74e-06, "elapsed_time_per_iteration": 4.87389445, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 22s", "remaining_time": "54m 54s", "loss_scale": 1.0, "consumed_samples": 3078912, "global_step/max_steps": "12027/12700"}
{"lm loss": 2.02514195, "grad_norm": 0.30084908, "learning_rate": 3.74e-06, "elapsed_time_per_iteration": 4.86319566, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 27s", "remaining_time": "54m 50s", "loss_scale": 1.0, "consumed_samples": 3079168, "global_step/max_steps": "12028/12700"}
{"lm loss": 2.05093527, "grad_norm": 0.30534136, "learning_rate": 3.74e-06, "elapsed_time_per_iteration": 4.91419911, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 32s", "remaining_time": "54m 45s", "loss_scale": 1.0, "consumed_samples": 3079424, "global_step/max_steps": "12029/12700"}
{"lm loss": 2.06954718, "grad_norm": 0.31373364, "learning_rate": 3.74e-06, "elapsed_time_per_iteration": 4.89269209, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 37s", "remaining_time": "54m 40s", "loss_scale": 1.0, "consumed_samples": 3079680, "global_step/max_steps": "12030/12700"}
{"lm loss": 2.0273838, "grad_norm": 0.3063516, "learning_rate": 3.73e-06, "elapsed_time_per_iteration": 4.88559413, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 42s", "remaining_time": "54m 35s", "loss_scale": 1.0, "consumed_samples": 3079936, "global_step/max_steps": "12031/12700"}
{"lm loss": 2.00976467, "grad_norm": 0.31396523, "learning_rate": 3.73e-06, "elapsed_time_per_iteration": 4.94341493, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 47s", "remaining_time": "54m 30s", "loss_scale": 1.0, "consumed_samples": 3080192, "global_step/max_steps": "12032/12700"}
{"lm loss": 2.02570105, "grad_norm": 0.30064711, "learning_rate": 3.73e-06, "elapsed_time_per_iteration": 4.9411726, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 52s", "remaining_time": "54m 25s", "loss_scale": 1.0, "consumed_samples": 3080448, "global_step/max_steps": "12033/12700"}
{"lm loss": 2.02976751, "grad_norm": 0.29977041, "learning_rate": 3.73e-06, "elapsed_time_per_iteration": 4.90609455, "memory(GiB)": 28.98, "elapsed_time": "16h 21m 56s", "remaining_time": "54m 20s", "loss_scale": 1.0, "consumed_samples": 3080704, "global_step/max_steps": "12034/12700"}
{"lm loss": 2.06522274, "grad_norm": 0.29884678, "learning_rate": 3.73e-06, "elapsed_time_per_iteration": 4.87004662, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 1s", "remaining_time": "54m 15s", "loss_scale": 1.0, "consumed_samples": 3080960, "global_step/max_steps": "12035/12700"}
{"lm loss": 2.05102777, "grad_norm": 0.30850819, "learning_rate": 3.72e-06, "elapsed_time_per_iteration": 4.81310654, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 6s", "remaining_time": "54m 10s", "loss_scale": 1.0, "consumed_samples": 3081216, "global_step/max_steps": "12036/12700"}
{"lm loss": 2.01907229, "grad_norm": 0.29372606, "learning_rate": 3.72e-06, "elapsed_time_per_iteration": 5.05058575, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 11s", "remaining_time": "54m 5s", "loss_scale": 1.0, "consumed_samples": 3081472, "global_step/max_steps": "12037/12700"}
{"lm loss": 2.05555534, "grad_norm": 0.31570712, "learning_rate": 3.72e-06, "elapsed_time_per_iteration": 4.94273043, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 16s", "remaining_time": "54m 1s", "loss_scale": 1.0, "consumed_samples": 3081728, "global_step/max_steps": "12038/12700"}
{"lm loss": 1.98647976, "grad_norm": 0.30582151, "learning_rate": 3.72e-06, "elapsed_time_per_iteration": 4.89109826, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 21s", "remaining_time": "53m 56s", "loss_scale": 1.0, "consumed_samples": 3081984, "global_step/max_steps": "12039/12700"}
{"lm loss": 2.05608702, "grad_norm": 0.31522235, "learning_rate": 3.71e-06, "elapsed_time_per_iteration": 4.86727023, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 26s", "remaining_time": "53m 51s", "loss_scale": 1.0, "consumed_samples": 3082240, "global_step/max_steps": "12040/12700"}
{"lm loss": 2.03612185, "grad_norm": 0.29941303, "learning_rate": 3.71e-06, "elapsed_time_per_iteration": 4.95136714, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 31s", "remaining_time": "53m 46s", "loss_scale": 1.0, "consumed_samples": 3082496, "global_step/max_steps": "12041/12700"}
{"lm loss": 2.07191205, "grad_norm": 0.31965655, "learning_rate": 3.71e-06, "elapsed_time_per_iteration": 4.82599974, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 36s", "remaining_time": "53m 41s", "loss_scale": 1.0, "consumed_samples": 3082752, "global_step/max_steps": "12042/12700"}
{"lm loss": 2.08850741, "grad_norm": 0.31412235, "learning_rate": 3.71e-06, "elapsed_time_per_iteration": 4.9041841, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 41s", "remaining_time": "53m 36s", "loss_scale": 1.0, "consumed_samples": 3083008, "global_step/max_steps": "12043/12700"}
{"lm loss": 2.02134943, "grad_norm": 0.33280772, "learning_rate": 3.71e-06, "elapsed_time_per_iteration": 4.95121932, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 46s", "remaining_time": "53m 31s", "loss_scale": 1.0, "consumed_samples": 3083264, "global_step/max_steps": "12044/12700"}
{"lm loss": 2.05970716, "grad_norm": 0.31520623, "learning_rate": 3.7e-06, "elapsed_time_per_iteration": 4.91044188, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 50s", "remaining_time": "53m 26s", "loss_scale": 1.0, "consumed_samples": 3083520, "global_step/max_steps": "12045/12700"}
{"lm loss": 2.03043938, "grad_norm": 0.30869555, "learning_rate": 3.7e-06, "elapsed_time_per_iteration": 4.92397141, "memory(GiB)": 28.98, "elapsed_time": "16h 22m 55s", "remaining_time": "53m 21s", "loss_scale": 1.0, "consumed_samples": 3083776, "global_step/max_steps": "12046/12700"}
{"lm loss": 2.0382843, "grad_norm": 0.29753989, "learning_rate": 3.7e-06, "elapsed_time_per_iteration": 4.79566026, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 0s", "remaining_time": "53m 17s", "loss_scale": 1.0, "consumed_samples": 3084032, "global_step/max_steps": "12047/12700"}
{"lm loss": 2.04318309, "grad_norm": 0.31660628, "learning_rate": 3.7e-06, "elapsed_time_per_iteration": 4.85521483, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 5s", "remaining_time": "53m 12s", "loss_scale": 1.0, "consumed_samples": 3084288, "global_step/max_steps": "12048/12700"}
{"lm loss": 2.01001167, "grad_norm": 0.31009525, "learning_rate": 3.7e-06, "elapsed_time_per_iteration": 4.84839511, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 10s", "remaining_time": "53m 7s", "loss_scale": 1.0, "consumed_samples": 3084544, "global_step/max_steps": "12049/12700"}
{"lm loss": 2.03395295, "grad_norm": 0.30947751, "learning_rate": 3.69e-06, "elapsed_time_per_iteration": 4.86060786, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 15s", "remaining_time": "53m 2s", "loss_scale": 1.0, "consumed_samples": 3084800, "global_step/max_steps": "12050/12700"}
{"lm loss": 2.0145905, "grad_norm": 0.32498279, "learning_rate": 3.69e-06, "elapsed_time_per_iteration": 4.85625434, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 20s", "remaining_time": "52m 57s", "loss_scale": 1.0, "consumed_samples": 3085056, "global_step/max_steps": "12051/12700"}
{"lm loss": 2.01915383, "grad_norm": 0.32153848, "learning_rate": 3.69e-06, "elapsed_time_per_iteration": 4.82562518, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 24s", "remaining_time": "52m 52s", "loss_scale": 1.0, "consumed_samples": 3085312, "global_step/max_steps": "12052/12700"}
{"lm loss": 2.05128908, "grad_norm": 0.30731803, "learning_rate": 3.69e-06, "elapsed_time_per_iteration": 4.81703258, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 29s", "remaining_time": "52m 47s", "loss_scale": 1.0, "consumed_samples": 3085568, "global_step/max_steps": "12053/12700"}
{"lm loss": 2.04873371, "grad_norm": 0.31430882, "learning_rate": 3.68e-06, "elapsed_time_per_iteration": 4.83046579, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 34s", "remaining_time": "52m 42s", "loss_scale": 1.0, "consumed_samples": 3085824, "global_step/max_steps": "12054/12700"}
{"lm loss": 2.04935431, "grad_norm": 0.31532767, "learning_rate": 3.68e-06, "elapsed_time_per_iteration": 4.97601438, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 39s", "remaining_time": "52m 37s", "loss_scale": 1.0, "consumed_samples": 3086080, "global_step/max_steps": "12055/12700"}
{"lm loss": 1.99404371, "grad_norm": 0.32128099, "learning_rate": 3.68e-06, "elapsed_time_per_iteration": 4.81100917, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 44s", "remaining_time": "52m 32s", "loss_scale": 1.0, "consumed_samples": 3086336, "global_step/max_steps": "12056/12700"}
{"lm loss": 2.07908368, "grad_norm": 0.30476731, "learning_rate": 3.68e-06, "elapsed_time_per_iteration": 4.8426621, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 49s", "remaining_time": "52m 28s", "loss_scale": 1.0, "consumed_samples": 3086592, "global_step/max_steps": "12057/12700"}
{"lm loss": 2.01936793, "grad_norm": 0.350665, "learning_rate": 3.68e-06, "elapsed_time_per_iteration": 4.90531445, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 54s", "remaining_time": "52m 23s", "loss_scale": 1.0, "consumed_samples": 3086848, "global_step/max_steps": "12058/12700"}
{"lm loss": 2.0273478, "grad_norm": 0.29663995, "learning_rate": 3.67e-06, "elapsed_time_per_iteration": 4.94246745, "memory(GiB)": 28.98, "elapsed_time": "16h 23m 59s", "remaining_time": "52m 18s", "loss_scale": 1.0, "consumed_samples": 3087104, "global_step/max_steps": "12059/12700"}
{"lm loss": 2.00703096, "grad_norm": 0.30974254, "learning_rate": 3.67e-06, "elapsed_time_per_iteration": 4.92258692, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 3s", "remaining_time": "52m 13s", "loss_scale": 1.0, "consumed_samples": 3087360, "global_step/max_steps": "12060/12700"}
{"lm loss": 2.02937293, "grad_norm": 0.32327998, "learning_rate": 3.67e-06, "elapsed_time_per_iteration": 4.86254597, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 8s", "remaining_time": "52m 8s", "loss_scale": 1.0, "consumed_samples": 3087616, "global_step/max_steps": "12061/12700"}
{"lm loss": 2.01483703, "grad_norm": 0.31033385, "learning_rate": 3.67e-06, "elapsed_time_per_iteration": 5.02975225, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 13s", "remaining_time": "52m 3s", "loss_scale": 1.0, "consumed_samples": 3087872, "global_step/max_steps": "12062/12700"}
{"lm loss": 2.03653193, "grad_norm": 0.3142646, "learning_rate": 3.67e-06, "elapsed_time_per_iteration": 4.92449713, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 18s", "remaining_time": "51m 58s", "loss_scale": 1.0, "consumed_samples": 3088128, "global_step/max_steps": "12063/12700"}
{"lm loss": 2.03130579, "grad_norm": 0.33684841, "learning_rate": 3.66e-06, "elapsed_time_per_iteration": 4.89543509, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 23s", "remaining_time": "51m 53s", "loss_scale": 1.0, "consumed_samples": 3088384, "global_step/max_steps": "12064/12700"}
{"lm loss": 2.05155563, "grad_norm": 0.31964332, "learning_rate": 3.66e-06, "elapsed_time_per_iteration": 4.98056841, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 28s", "remaining_time": "51m 48s", "loss_scale": 1.0, "consumed_samples": 3088640, "global_step/max_steps": "12065/12700"}
{"lm loss": 2.02611089, "grad_norm": 0.31718925, "learning_rate": 3.66e-06, "elapsed_time_per_iteration": 4.9674716, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 33s", "remaining_time": "51m 43s", "loss_scale": 1.0, "consumed_samples": 3088896, "global_step/max_steps": "12066/12700"}
{"lm loss": 1.9915669, "grad_norm": 0.31100503, "learning_rate": 3.66e-06, "elapsed_time_per_iteration": 4.96060205, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 38s", "remaining_time": "51m 39s", "loss_scale": 1.0, "consumed_samples": 3089152, "global_step/max_steps": "12067/12700"}
{"lm loss": 2.01279736, "grad_norm": 0.31052601, "learning_rate": 3.66e-06, "elapsed_time_per_iteration": 4.86714268, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 43s", "remaining_time": "51m 34s", "loss_scale": 1.0, "consumed_samples": 3089408, "global_step/max_steps": "12068/12700"}
{"lm loss": 1.99718726, "grad_norm": 0.29949662, "learning_rate": 3.65e-06, "elapsed_time_per_iteration": 4.89313531, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 48s", "remaining_time": "51m 29s", "loss_scale": 1.0, "consumed_samples": 3089664, "global_step/max_steps": "12069/12700"}
{"lm loss": 2.0503664, "grad_norm": 0.31583399, "learning_rate": 3.65e-06, "elapsed_time_per_iteration": 5.01103234, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 53s", "remaining_time": "51m 24s", "loss_scale": 1.0, "consumed_samples": 3089920, "global_step/max_steps": "12070/12700"}
{"lm loss": 1.99956024, "grad_norm": 0.3169094, "learning_rate": 3.65e-06, "elapsed_time_per_iteration": 4.89645624, "memory(GiB)": 28.98, "elapsed_time": "16h 24m 58s", "remaining_time": "51m 19s", "loss_scale": 1.0, "consumed_samples": 3090176, "global_step/max_steps": "12071/12700"}
{"lm loss": 2.01555729, "grad_norm": 0.32093829, "learning_rate": 3.65e-06, "elapsed_time_per_iteration": 4.98588705, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 3s", "remaining_time": "51m 14s", "loss_scale": 1.0, "consumed_samples": 3090432, "global_step/max_steps": "12072/12700"}
{"lm loss": 1.99601364, "grad_norm": 0.32645613, "learning_rate": 3.64e-06, "elapsed_time_per_iteration": 4.88583183, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 8s", "remaining_time": "51m 9s", "loss_scale": 1.0, "consumed_samples": 3090688, "global_step/max_steps": "12073/12700"}
{"lm loss": 2.03749728, "grad_norm": 0.30051032, "learning_rate": 3.64e-06, "elapsed_time_per_iteration": 4.84083295, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 12s", "remaining_time": "51m 4s", "loss_scale": 1.0, "consumed_samples": 3090944, "global_step/max_steps": "12074/12700"}
{"lm loss": 2.03617239, "grad_norm": 0.33957136, "learning_rate": 3.64e-06, "elapsed_time_per_iteration": 4.8389554, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 17s", "remaining_time": "50m 59s", "loss_scale": 1.0, "consumed_samples": 3091200, "global_step/max_steps": "12075/12700"}
{"lm loss": 2.09357548, "grad_norm": 0.33386829, "learning_rate": 3.64e-06, "elapsed_time_per_iteration": 4.88474154, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 22s", "remaining_time": "50m 55s", "loss_scale": 1.0, "consumed_samples": 3091456, "global_step/max_steps": "12076/12700"}
{"lm loss": 2.04058433, "grad_norm": 0.29773241, "learning_rate": 3.64e-06, "elapsed_time_per_iteration": 4.84376144, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 27s", "remaining_time": "50m 50s", "loss_scale": 1.0, "consumed_samples": 3091712, "global_step/max_steps": "12077/12700"}
{"lm loss": 2.0426929, "grad_norm": 0.31665531, "learning_rate": 3.63e-06, "elapsed_time_per_iteration": 4.86267614, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 32s", "remaining_time": "50m 45s", "loss_scale": 1.0, "consumed_samples": 3091968, "global_step/max_steps": "12078/12700"}
{"lm loss": 2.0138526, "grad_norm": 0.31991014, "learning_rate": 3.63e-06, "elapsed_time_per_iteration": 4.8463552, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 37s", "remaining_time": "50m 40s", "loss_scale": 1.0, "consumed_samples": 3092224, "global_step/max_steps": "12079/12700"}
{"lm loss": 2.04474425, "grad_norm": 0.31360814, "learning_rate": 3.63e-06, "elapsed_time_per_iteration": 4.7723031, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 41s", "remaining_time": "50m 35s", "loss_scale": 1.0, "consumed_samples": 3092480, "global_step/max_steps": "12080/12700"}
{"lm loss": 2.02289939, "grad_norm": 0.30480364, "learning_rate": 3.63e-06, "elapsed_time_per_iteration": 4.86560774, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 46s", "remaining_time": "50m 30s", "loss_scale": 1.0, "consumed_samples": 3092736, "global_step/max_steps": "12081/12700"}
{"lm loss": 2.0294764, "grad_norm": 0.31210512, "learning_rate": 3.63e-06, "elapsed_time_per_iteration": 4.85836196, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 51s", "remaining_time": "50m 25s", "loss_scale": 1.0, "consumed_samples": 3092992, "global_step/max_steps": "12082/12700"}
{"lm loss": 2.04001784, "grad_norm": 0.29640314, "learning_rate": 3.62e-06, "elapsed_time_per_iteration": 4.84642005, "memory(GiB)": 28.98, "elapsed_time": "16h 25m 56s", "remaining_time": "50m 20s", "loss_scale": 1.0, "consumed_samples": 3093248, "global_step/max_steps": "12083/12700"}
{"lm loss": 2.01252818, "grad_norm": 0.32835785, "learning_rate": 3.62e-06, "elapsed_time_per_iteration": 4.93778634, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 1s", "remaining_time": "50m 15s", "loss_scale": 1.0, "consumed_samples": 3093504, "global_step/max_steps": "12084/12700"}
{"lm loss": 2.01321125, "grad_norm": 0.32722938, "learning_rate": 3.62e-06, "elapsed_time_per_iteration": 4.89633536, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 6s", "remaining_time": "50m 10s", "loss_scale": 1.0, "consumed_samples": 3093760, "global_step/max_steps": "12085/12700"}
{"lm loss": 2.06520939, "grad_norm": 0.29932535, "learning_rate": 3.62e-06, "elapsed_time_per_iteration": 4.88156343, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 11s", "remaining_time": "50m 6s", "loss_scale": 1.0, "consumed_samples": 3094016, "global_step/max_steps": "12086/12700"}
{"lm loss": 2.00843644, "grad_norm": 0.31114268, "learning_rate": 3.62e-06, "elapsed_time_per_iteration": 4.7660315, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 16s", "remaining_time": "50m 1s", "loss_scale": 1.0, "consumed_samples": 3094272, "global_step/max_steps": "12087/12700"}
{"lm loss": 2.02230811, "grad_norm": 0.31450126, "learning_rate": 3.61e-06, "elapsed_time_per_iteration": 4.87103248, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 20s", "remaining_time": "49m 56s", "loss_scale": 1.0, "consumed_samples": 3094528, "global_step/max_steps": "12088/12700"}
{"lm loss": 2.04910064, "grad_norm": 0.34400845, "learning_rate": 3.61e-06, "elapsed_time_per_iteration": 4.95965195, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 25s", "remaining_time": "49m 51s", "loss_scale": 1.0, "consumed_samples": 3094784, "global_step/max_steps": "12089/12700"}
{"lm loss": 2.02576017, "grad_norm": 0.30696428, "learning_rate": 3.61e-06, "elapsed_time_per_iteration": 4.87776184, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 30s", "remaining_time": "49m 46s", "loss_scale": 1.0, "consumed_samples": 3095040, "global_step/max_steps": "12090/12700"}
{"lm loss": 2.03082013, "grad_norm": 0.30106652, "learning_rate": 3.61e-06, "elapsed_time_per_iteration": 4.966712, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 35s", "remaining_time": "49m 41s", "loss_scale": 1.0, "consumed_samples": 3095296, "global_step/max_steps": "12091/12700"}
{"lm loss": 1.99921036, "grad_norm": 0.30928531, "learning_rate": 3.61e-06, "elapsed_time_per_iteration": 4.8243525, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 40s", "remaining_time": "49m 36s", "loss_scale": 1.0, "consumed_samples": 3095552, "global_step/max_steps": "12092/12700"}
{"lm loss": 2.04806542, "grad_norm": 0.31542861, "learning_rate": 3.6e-06, "elapsed_time_per_iteration": 4.97733092, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 45s", "remaining_time": "49m 31s", "loss_scale": 1.0, "consumed_samples": 3095808, "global_step/max_steps": "12093/12700"}
{"lm loss": 2.01037049, "grad_norm": 0.32344434, "learning_rate": 3.6e-06, "elapsed_time_per_iteration": 4.92216468, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 50s", "remaining_time": "49m 26s", "loss_scale": 1.0, "consumed_samples": 3096064, "global_step/max_steps": "12094/12700"}
{"lm loss": 2.05545259, "grad_norm": 0.29635951, "learning_rate": 3.6e-06, "elapsed_time_per_iteration": 4.79888129, "memory(GiB)": 28.98, "elapsed_time": "16h 26m 55s", "remaining_time": "49m 21s", "loss_scale": 1.0, "consumed_samples": 3096320, "global_step/max_steps": "12095/12700"}
{"lm loss": 2.04965305, "grad_norm": 0.32585904, "learning_rate": 3.6e-06, "elapsed_time_per_iteration": 4.82279015, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 0s", "remaining_time": "49m 17s", "loss_scale": 1.0, "consumed_samples": 3096576, "global_step/max_steps": "12096/12700"}
{"lm loss": 2.03173256, "grad_norm": 0.30182385, "learning_rate": 3.6e-06, "elapsed_time_per_iteration": 4.85258627, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 4s", "remaining_time": "49m 12s", "loss_scale": 1.0, "consumed_samples": 3096832, "global_step/max_steps": "12097/12700"}
{"lm loss": 2.06016564, "grad_norm": 0.35087368, "learning_rate": 3.59e-06, "elapsed_time_per_iteration": 4.95796514, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 9s", "remaining_time": "49m 7s", "loss_scale": 1.0, "consumed_samples": 3097088, "global_step/max_steps": "12098/12700"}
{"lm loss": 2.02363086, "grad_norm": 0.30647299, "learning_rate": 3.59e-06, "elapsed_time_per_iteration": 4.83952451, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 14s", "remaining_time": "49m 2s", "loss_scale": 1.0, "consumed_samples": 3097344, "global_step/max_steps": "12099/12700"}
{"lm loss": 1.99974346, "grad_norm": 0.29299966, "learning_rate": 3.59e-06, "elapsed_time_per_iteration": 4.98867917, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 19s", "remaining_time": "48m 57s", "loss_scale": 1.0, "consumed_samples": 3097600, "global_step/max_steps": "12100/12700"}
{"lm loss": 2.0273056, "grad_norm": 0.30423191, "learning_rate": 3.59e-06, "elapsed_time_per_iteration": 4.9448576, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 24s", "remaining_time": "48m 52s", "loss_scale": 1.0, "consumed_samples": 3097856, "global_step/max_steps": "12101/12700"}
{"lm loss": 2.02779841, "grad_norm": 0.31453428, "learning_rate": 3.59e-06, "elapsed_time_per_iteration": 4.8817203, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 29s", "remaining_time": "48m 47s", "loss_scale": 1.0, "consumed_samples": 3098112, "global_step/max_steps": "12102/12700"}
{"lm loss": 2.08584046, "grad_norm": 0.33824509, "learning_rate": 3.58e-06, "elapsed_time_per_iteration": 4.86693621, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 34s", "remaining_time": "48m 42s", "loss_scale": 1.0, "consumed_samples": 3098368, "global_step/max_steps": "12103/12700"}
{"lm loss": 2.01721478, "grad_norm": 0.29993716, "learning_rate": 3.58e-06, "elapsed_time_per_iteration": 4.8108573, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 39s", "remaining_time": "48m 37s", "loss_scale": 1.0, "consumed_samples": 3098624, "global_step/max_steps": "12104/12700"}
{"lm loss": 2.02676821, "grad_norm": 0.31396618, "learning_rate": 3.58e-06, "elapsed_time_per_iteration": 4.84280872, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 44s", "remaining_time": "48m 33s", "loss_scale": 1.0, "consumed_samples": 3098880, "global_step/max_steps": "12105/12700"}
{"lm loss": 2.04831076, "grad_norm": 0.31236067, "learning_rate": 3.58e-06, "elapsed_time_per_iteration": 4.92300105, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 48s", "remaining_time": "48m 28s", "loss_scale": 1.0, "consumed_samples": 3099136, "global_step/max_steps": "12106/12700"}
{"lm loss": 2.05213857, "grad_norm": 0.32932088, "learning_rate": 3.58e-06, "elapsed_time_per_iteration": 5.02391243, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 53s", "remaining_time": "48m 23s", "loss_scale": 1.0, "consumed_samples": 3099392, "global_step/max_steps": "12107/12700"}
{"lm loss": 2.02509975, "grad_norm": 0.29266575, "learning_rate": 3.58e-06, "elapsed_time_per_iteration": 4.85837698, "memory(GiB)": 28.98, "elapsed_time": "16h 27m 58s", "remaining_time": "48m 18s", "loss_scale": 1.0, "consumed_samples": 3099648, "global_step/max_steps": "12108/12700"}
{"lm loss": 2.01393056, "grad_norm": 0.29643461, "learning_rate": 3.57e-06, "elapsed_time_per_iteration": 4.9332273, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 3s", "remaining_time": "48m 13s", "loss_scale": 1.0, "consumed_samples": 3099904, "global_step/max_steps": "12109/12700"}
{"lm loss": 2.0546236, "grad_norm": 0.29741392, "learning_rate": 3.57e-06, "elapsed_time_per_iteration": 4.95417833, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 8s", "remaining_time": "48m 8s", "loss_scale": 1.0, "consumed_samples": 3100160, "global_step/max_steps": "12110/12700"}
{"lm loss": 2.02987075, "grad_norm": 0.32435578, "learning_rate": 3.57e-06, "elapsed_time_per_iteration": 4.80050135, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 13s", "remaining_time": "48m 3s", "loss_scale": 1.0, "consumed_samples": 3100416, "global_step/max_steps": "12111/12700"}
{"lm loss": 2.01262712, "grad_norm": 0.30966753, "learning_rate": 3.57e-06, "elapsed_time_per_iteration": 4.87010598, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 18s", "remaining_time": "47m 58s", "loss_scale": 1.0, "consumed_samples": 3100672, "global_step/max_steps": "12112/12700"}
{"lm loss": 2.00105405, "grad_norm": 0.30674163, "learning_rate": 3.57e-06, "elapsed_time_per_iteration": 4.81547809, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 23s", "remaining_time": "47m 53s", "loss_scale": 1.0, "consumed_samples": 3100928, "global_step/max_steps": "12113/12700"}
{"lm loss": 2.00874376, "grad_norm": 0.30826783, "learning_rate": 3.56e-06, "elapsed_time_per_iteration": 5.03911018, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 28s", "remaining_time": "47m 48s", "loss_scale": 1.0, "consumed_samples": 3101184, "global_step/max_steps": "12114/12700"}
{"lm loss": 2.03174543, "grad_norm": 0.33639798, "learning_rate": 3.56e-06, "elapsed_time_per_iteration": 4.83990312, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 33s", "remaining_time": "47m 44s", "loss_scale": 1.0, "consumed_samples": 3101440, "global_step/max_steps": "12115/12700"}
{"lm loss": 2.0135448, "grad_norm": 0.33833805, "learning_rate": 3.56e-06, "elapsed_time_per_iteration": 4.89176393, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 37s", "remaining_time": "47m 39s", "loss_scale": 1.0, "consumed_samples": 3101696, "global_step/max_steps": "12116/12700"}
{"lm loss": 2.02022099, "grad_norm": 0.32180271, "learning_rate": 3.56e-06, "elapsed_time_per_iteration": 4.90365076, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 42s", "remaining_time": "47m 34s", "loss_scale": 1.0, "consumed_samples": 3101952, "global_step/max_steps": "12117/12700"}
{"lm loss": 2.01636434, "grad_norm": 0.31519693, "learning_rate": 3.56e-06, "elapsed_time_per_iteration": 4.95253968, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 47s", "remaining_time": "47m 29s", "loss_scale": 1.0, "consumed_samples": 3102208, "global_step/max_steps": "12118/12700"}
{"lm loss": 2.03751445, "grad_norm": 0.31327531, "learning_rate": 3.55e-06, "elapsed_time_per_iteration": 4.92463231, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 52s", "remaining_time": "47m 24s", "loss_scale": 1.0, "consumed_samples": 3102464, "global_step/max_steps": "12119/12700"}
{"lm loss": 2.06223106, "grad_norm": 0.31209728, "learning_rate": 3.55e-06, "elapsed_time_per_iteration": 4.91537333, "memory(GiB)": 28.98, "elapsed_time": "16h 28m 57s", "remaining_time": "47m 19s", "loss_scale": 1.0, "consumed_samples": 3102720, "global_step/max_steps": "12120/12700"}
{"lm loss": 2.04299688, "grad_norm": 0.30596304, "learning_rate": 3.55e-06, "elapsed_time_per_iteration": 4.87781334, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 2s", "remaining_time": "47m 14s", "loss_scale": 1.0, "consumed_samples": 3102976, "global_step/max_steps": "12121/12700"}
{"lm loss": 2.03217387, "grad_norm": 0.31684411, "learning_rate": 3.55e-06, "elapsed_time_per_iteration": 4.87137365, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 7s", "remaining_time": "47m 9s", "loss_scale": 1.0, "consumed_samples": 3103232, "global_step/max_steps": "12122/12700"}
{"lm loss": 2.06488299, "grad_norm": 0.29899028, "learning_rate": 3.55e-06, "elapsed_time_per_iteration": 4.96047997, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 12s", "remaining_time": "47m 4s", "loss_scale": 1.0, "consumed_samples": 3103488, "global_step/max_steps": "12123/12700"}
{"lm loss": 2.07705927, "grad_norm": 0.33026063, "learning_rate": 3.54e-06, "elapsed_time_per_iteration": 4.86995173, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 17s", "remaining_time": "47m 0s", "loss_scale": 1.0, "consumed_samples": 3103744, "global_step/max_steps": "12124/12700"}
{"lm loss": 2.02659559, "grad_norm": 0.29994142, "learning_rate": 3.54e-06, "elapsed_time_per_iteration": 4.81701517, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 22s", "remaining_time": "46m 55s", "loss_scale": 1.0, "consumed_samples": 3104000, "global_step/max_steps": "12125/12700"}
{"lm loss": 2.04197907, "grad_norm": 0.30754337, "learning_rate": 3.54e-06, "elapsed_time_per_iteration": 4.83323717, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 26s", "remaining_time": "46m 50s", "loss_scale": 1.0, "consumed_samples": 3104256, "global_step/max_steps": "12126/12700"}
{"lm loss": 2.03090334, "grad_norm": 0.3382768, "learning_rate": 3.54e-06, "elapsed_time_per_iteration": 4.89557552, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 31s", "remaining_time": "46m 45s", "loss_scale": 1.0, "consumed_samples": 3104512, "global_step/max_steps": "12127/12700"}
{"lm loss": 2.04854512, "grad_norm": 0.31820768, "learning_rate": 3.54e-06, "elapsed_time_per_iteration": 4.87209105, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 36s", "remaining_time": "46m 40s", "loss_scale": 1.0, "consumed_samples": 3104768, "global_step/max_steps": "12128/12700"}
{"lm loss": 2.02769828, "grad_norm": 0.31172553, "learning_rate": 3.54e-06, "elapsed_time_per_iteration": 4.91615224, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 41s", "remaining_time": "46m 35s", "loss_scale": 1.0, "consumed_samples": 3105024, "global_step/max_steps": "12129/12700"}
{"lm loss": 2.04289389, "grad_norm": 0.30555737, "learning_rate": 3.53e-06, "elapsed_time_per_iteration": 4.9039278, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 46s", "remaining_time": "46m 30s", "loss_scale": 1.0, "consumed_samples": 3105280, "global_step/max_steps": "12130/12700"}
{"lm loss": 2.05075097, "grad_norm": 0.31699464, "learning_rate": 3.53e-06, "elapsed_time_per_iteration": 4.89311647, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 51s", "remaining_time": "46m 25s", "loss_scale": 1.0, "consumed_samples": 3105536, "global_step/max_steps": "12131/12700"}
{"lm loss": 2.05701995, "grad_norm": 0.33633986, "learning_rate": 3.53e-06, "elapsed_time_per_iteration": 4.95596218, "memory(GiB)": 28.98, "elapsed_time": "16h 29m 56s", "remaining_time": "46m 20s", "loss_scale": 1.0, "consumed_samples": 3105792, "global_step/max_steps": "12132/12700"}
{"lm loss": 2.02000308, "grad_norm": 0.33016738, "learning_rate": 3.53e-06, "elapsed_time_per_iteration": 4.92963743, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 1s", "remaining_time": "46m 15s", "loss_scale": 1.0, "consumed_samples": 3106048, "global_step/max_steps": "12133/12700"}
{"lm loss": 2.02194023, "grad_norm": 0.29554415, "learning_rate": 3.53e-06, "elapsed_time_per_iteration": 5.00652194, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 6s", "remaining_time": "46m 11s", "loss_scale": 1.0, "consumed_samples": 3106304, "global_step/max_steps": "12134/12700"}
{"lm loss": 2.04995251, "grad_norm": 0.33527043, "learning_rate": 3.52e-06, "elapsed_time_per_iteration": 4.80602074, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 11s", "remaining_time": "46m 6s", "loss_scale": 1.0, "consumed_samples": 3106560, "global_step/max_steps": "12135/12700"}
{"lm loss": 2.05455661, "grad_norm": 0.30398381, "learning_rate": 3.52e-06, "elapsed_time_per_iteration": 4.89256668, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 15s", "remaining_time": "46m 1s", "loss_scale": 1.0, "consumed_samples": 3106816, "global_step/max_steps": "12136/12700"}
{"lm loss": 2.05116367, "grad_norm": 0.30840927, "learning_rate": 3.52e-06, "elapsed_time_per_iteration": 4.89736557, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 20s", "remaining_time": "45m 56s", "loss_scale": 1.0, "consumed_samples": 3107072, "global_step/max_steps": "12137/12700"}
{"lm loss": 2.05997658, "grad_norm": 0.32320479, "learning_rate": 3.52e-06, "elapsed_time_per_iteration": 4.90906882, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 25s", "remaining_time": "45m 51s", "loss_scale": 1.0, "consumed_samples": 3107328, "global_step/max_steps": "12138/12700"}
{"lm loss": 2.03170967, "grad_norm": 0.30631849, "learning_rate": 3.52e-06, "elapsed_time_per_iteration": 4.97976828, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 30s", "remaining_time": "45m 46s", "loss_scale": 1.0, "consumed_samples": 3107584, "global_step/max_steps": "12139/12700"}
{"lm loss": 2.02465177, "grad_norm": 0.31516325, "learning_rate": 3.51e-06, "elapsed_time_per_iteration": 4.79377842, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 35s", "remaining_time": "45m 41s", "loss_scale": 1.0, "consumed_samples": 3107840, "global_step/max_steps": "12140/12700"}
{"lm loss": 2.05731297, "grad_norm": 0.31986895, "learning_rate": 3.51e-06, "elapsed_time_per_iteration": 4.97223496, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 40s", "remaining_time": "45m 36s", "loss_scale": 1.0, "consumed_samples": 3108096, "global_step/max_steps": "12141/12700"}
{"lm loss": 2.0454967, "grad_norm": 0.30339283, "learning_rate": 3.51e-06, "elapsed_time_per_iteration": 4.88418078, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 45s", "remaining_time": "45m 31s", "loss_scale": 1.0, "consumed_samples": 3108352, "global_step/max_steps": "12142/12700"}
{"lm loss": 2.04526186, "grad_norm": 0.30748293, "learning_rate": 3.51e-06, "elapsed_time_per_iteration": 4.94571662, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 50s", "remaining_time": "45m 26s", "loss_scale": 1.0, "consumed_samples": 3108608, "global_step/max_steps": "12143/12700"}
{"lm loss": 2.0379312, "grad_norm": 0.30685431, "learning_rate": 3.51e-06, "elapsed_time_per_iteration": 4.84046245, "memory(GiB)": 28.98, "elapsed_time": "16h 30m 55s", "remaining_time": "45m 22s", "loss_scale": 1.0, "consumed_samples": 3108864, "global_step/max_steps": "12144/12700"}
{"lm loss": 2.03500295, "grad_norm": 0.30308831, "learning_rate": 3.51e-06, "elapsed_time_per_iteration": 4.84045959, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 0s", "remaining_time": "45m 17s", "loss_scale": 1.0, "consumed_samples": 3109120, "global_step/max_steps": "12145/12700"}
{"lm loss": 2.02196121, "grad_norm": 0.30887324, "learning_rate": 3.5e-06, "elapsed_time_per_iteration": 4.93313813, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 4s", "remaining_time": "45m 12s", "loss_scale": 1.0, "consumed_samples": 3109376, "global_step/max_steps": "12146/12700"}
{"lm loss": 2.0479753, "grad_norm": 0.3116487, "learning_rate": 3.5e-06, "elapsed_time_per_iteration": 4.88531303, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 9s", "remaining_time": "45m 7s", "loss_scale": 1.0, "consumed_samples": 3109632, "global_step/max_steps": "12147/12700"}
{"lm loss": 2.03256917, "grad_norm": 0.3332127, "learning_rate": 3.5e-06, "elapsed_time_per_iteration": 4.89500213, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 14s", "remaining_time": "45m 2s", "loss_scale": 1.0, "consumed_samples": 3109888, "global_step/max_steps": "12148/12700"}
{"lm loss": 2.04800749, "grad_norm": 0.31245366, "learning_rate": 3.5e-06, "elapsed_time_per_iteration": 4.95658731, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 19s", "remaining_time": "44m 57s", "loss_scale": 1.0, "consumed_samples": 3110144, "global_step/max_steps": "12149/12700"}
{"lm loss": 2.06129408, "grad_norm": 0.32558215, "learning_rate": 3.5e-06, "elapsed_time_per_iteration": 4.82487226, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 24s", "remaining_time": "44m 52s", "loss_scale": 1.0, "consumed_samples": 3110400, "global_step/max_steps": "12150/12700"}
{"lm loss": 2.01810431, "grad_norm": 0.31003612, "learning_rate": 3.49e-06, "elapsed_time_per_iteration": 4.93232608, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 29s", "remaining_time": "44m 47s", "loss_scale": 1.0, "consumed_samples": 3110656, "global_step/max_steps": "12151/12700"}
{"lm loss": 2.03450847, "grad_norm": 0.32640895, "learning_rate": 3.49e-06, "elapsed_time_per_iteration": 4.94477701, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 34s", "remaining_time": "44m 42s", "loss_scale": 1.0, "consumed_samples": 3110912, "global_step/max_steps": "12152/12700"}
{"lm loss": 2.01686001, "grad_norm": 0.29988861, "learning_rate": 3.49e-06, "elapsed_time_per_iteration": 4.87400246, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 39s", "remaining_time": "44m 38s", "loss_scale": 1.0, "consumed_samples": 3111168, "global_step/max_steps": "12153/12700"}
{"lm loss": 2.05087161, "grad_norm": 0.30669975, "learning_rate": 3.49e-06, "elapsed_time_per_iteration": 4.89191222, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 44s", "remaining_time": "44m 33s", "loss_scale": 1.0, "consumed_samples": 3111424, "global_step/max_steps": "12154/12700"}
{"lm loss": 2.0611403, "grad_norm": 0.31534442, "learning_rate": 3.49e-06, "elapsed_time_per_iteration": 4.88411784, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 49s", "remaining_time": "44m 28s", "loss_scale": 1.0, "consumed_samples": 3111680, "global_step/max_steps": "12155/12700"}
{"lm loss": 2.03566432, "grad_norm": 0.32525077, "learning_rate": 3.49e-06, "elapsed_time_per_iteration": 4.86144304, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 53s", "remaining_time": "44m 23s", "loss_scale": 1.0, "consumed_samples": 3111936, "global_step/max_steps": "12156/12700"}
{"lm loss": 2.02627277, "grad_norm": 0.33307323, "learning_rate": 3.48e-06, "elapsed_time_per_iteration": 4.8798399, "memory(GiB)": 28.98, "elapsed_time": "16h 31m 58s", "remaining_time": "44m 18s", "loss_scale": 1.0, "consumed_samples": 3112192, "global_step/max_steps": "12157/12700"}
{"lm loss": 2.03798485, "grad_norm": 0.31339651, "learning_rate": 3.48e-06, "elapsed_time_per_iteration": 4.95131016, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 3s", "remaining_time": "44m 13s", "loss_scale": 1.0, "consumed_samples": 3112448, "global_step/max_steps": "12158/12700"}
{"lm loss": 2.05895281, "grad_norm": 0.31668934, "learning_rate": 3.48e-06, "elapsed_time_per_iteration": 4.89447021, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 8s", "remaining_time": "44m 8s", "loss_scale": 1.0, "consumed_samples": 3112704, "global_step/max_steps": "12159/12700"}
{"lm loss": 2.05664587, "grad_norm": 0.31240532, "learning_rate": 3.48e-06, "elapsed_time_per_iteration": 4.88921547, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 13s", "remaining_time": "44m 3s", "loss_scale": 1.0, "consumed_samples": 3112960, "global_step/max_steps": "12160/12700"}
{"lm loss": 1.96243131, "grad_norm": 0.29590896, "learning_rate": 3.48e-06, "elapsed_time_per_iteration": 4.93103313, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 18s", "remaining_time": "43m 58s", "loss_scale": 1.0, "consumed_samples": 3113216, "global_step/max_steps": "12161/12700"}
{"lm loss": 2.06794834, "grad_norm": 0.3093802, "learning_rate": 3.48e-06, "elapsed_time_per_iteration": 4.94854784, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 23s", "remaining_time": "43m 53s", "loss_scale": 1.0, "consumed_samples": 3113472, "global_step/max_steps": "12162/12700"}
{"lm loss": 2.01346254, "grad_norm": 0.32879165, "learning_rate": 3.47e-06, "elapsed_time_per_iteration": 4.8718226, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 28s", "remaining_time": "43m 49s", "loss_scale": 1.0, "consumed_samples": 3113728, "global_step/max_steps": "12163/12700"}
{"lm loss": 2.05305195, "grad_norm": 0.31575251, "learning_rate": 3.47e-06, "elapsed_time_per_iteration": 4.84345818, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 33s", "remaining_time": "43m 44s", "loss_scale": 1.0, "consumed_samples": 3113984, "global_step/max_steps": "12164/12700"}
{"lm loss": 2.04474616, "grad_norm": 0.31206146, "learning_rate": 3.47e-06, "elapsed_time_per_iteration": 4.88693094, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 38s", "remaining_time": "43m 39s", "loss_scale": 1.0, "consumed_samples": 3114240, "global_step/max_steps": "12165/12700"}
{"lm loss": 2.02510834, "grad_norm": 0.29842964, "learning_rate": 3.47e-06, "elapsed_time_per_iteration": 4.91160059, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 42s", "remaining_time": "43m 34s", "loss_scale": 1.0, "consumed_samples": 3114496, "global_step/max_steps": "12166/12700"}
{"lm loss": 2.01583934, "grad_norm": 0.31549984, "learning_rate": 3.47e-06, "elapsed_time_per_iteration": 4.84707713, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 47s", "remaining_time": "43m 29s", "loss_scale": 1.0, "consumed_samples": 3114752, "global_step/max_steps": "12167/12700"}
{"lm loss": 2.03717422, "grad_norm": 0.30844504, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 4.98432994, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 52s", "remaining_time": "43m 24s", "loss_scale": 1.0, "consumed_samples": 3115008, "global_step/max_steps": "12168/12700"}
{"lm loss": 2.00595021, "grad_norm": 0.32307577, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 4.93994474, "memory(GiB)": 28.98, "elapsed_time": "16h 32m 57s", "remaining_time": "43m 19s", "loss_scale": 1.0, "consumed_samples": 3115264, "global_step/max_steps": "12169/12700"}
{"lm loss": 2.02602339, "grad_norm": 0.33337563, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 4.85270286, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 2s", "remaining_time": "43m 14s", "loss_scale": 1.0, "consumed_samples": 3115520, "global_step/max_steps": "12170/12700"}
{"lm loss": 2.01600718, "grad_norm": 0.30076367, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 4.8164134, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 7s", "remaining_time": "43m 9s", "loss_scale": 1.0, "consumed_samples": 3115776, "global_step/max_steps": "12171/12700"}
{"lm loss": 2.04447246, "grad_norm": 0.29651263, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 4.89302754, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 12s", "remaining_time": "43m 5s", "loss_scale": 1.0, "consumed_samples": 3116032, "global_step/max_steps": "12172/12700"}
{"lm loss": 2.05415606, "grad_norm": 0.33619252, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 4.83701754, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 17s", "remaining_time": "43m 0s", "loss_scale": 1.0, "consumed_samples": 3116288, "global_step/max_steps": "12173/12700"}
{"lm loss": 2.04876733, "grad_norm": 0.31285962, "learning_rate": 3.45e-06, "elapsed_time_per_iteration": 4.91363835, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 22s", "remaining_time": "42m 55s", "loss_scale": 1.0, "consumed_samples": 3116544, "global_step/max_steps": "12174/12700"}
{"lm loss": 2.03706646, "grad_norm": 0.30779985, "learning_rate": 3.45e-06, "elapsed_time_per_iteration": 4.86445308, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 26s", "remaining_time": "42m 50s", "loss_scale": 1.0, "consumed_samples": 3116800, "global_step/max_steps": "12175/12700"}
{"lm loss": 2.04865003, "grad_norm": 0.31338039, "learning_rate": 3.45e-06, "elapsed_time_per_iteration": 4.88398027, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 31s", "remaining_time": "42m 45s", "loss_scale": 1.0, "consumed_samples": 3117056, "global_step/max_steps": "12176/12700"}
{"lm loss": 2.00802732, "grad_norm": 0.32027826, "learning_rate": 3.45e-06, "elapsed_time_per_iteration": 4.88884425, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 36s", "remaining_time": "42m 40s", "loss_scale": 1.0, "consumed_samples": 3117312, "global_step/max_steps": "12177/12700"}
{"lm loss": 2.03447795, "grad_norm": 0.30911651, "learning_rate": 3.45e-06, "elapsed_time_per_iteration": 4.93677354, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 41s", "remaining_time": "42m 35s", "loss_scale": 1.0, "consumed_samples": 3117568, "global_step/max_steps": "12178/12700"}
{"lm loss": 2.01002026, "grad_norm": 0.30295607, "learning_rate": 3.45e-06, "elapsed_time_per_iteration": 4.931952, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 46s", "remaining_time": "42m 30s", "loss_scale": 1.0, "consumed_samples": 3117824, "global_step/max_steps": "12179/12700"}
{"lm loss": 2.05064011, "grad_norm": 0.31480113, "learning_rate": 3.44e-06, "elapsed_time_per_iteration": 4.79584599, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 51s", "remaining_time": "42m 25s", "loss_scale": 1.0, "consumed_samples": 3118080, "global_step/max_steps": "12180/12700"}
{"lm loss": 2.02605319, "grad_norm": 0.31818411, "learning_rate": 3.44e-06, "elapsed_time_per_iteration": 4.91661978, "memory(GiB)": 28.98, "elapsed_time": "16h 33m 56s", "remaining_time": "42m 20s", "loss_scale": 1.0, "consumed_samples": 3118336, "global_step/max_steps": "12181/12700"}
{"lm loss": 2.01024508, "grad_norm": 0.32403028, "learning_rate": 3.44e-06, "elapsed_time_per_iteration": 4.95377564, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 1s", "remaining_time": "42m 16s", "loss_scale": 1.0, "consumed_samples": 3118592, "global_step/max_steps": "12182/12700"}
{"lm loss": 2.05432582, "grad_norm": 0.31975409, "learning_rate": 3.44e-06, "elapsed_time_per_iteration": 4.8486526, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 6s", "remaining_time": "42m 11s", "loss_scale": 1.0, "consumed_samples": 3118848, "global_step/max_steps": "12183/12700"}
{"lm loss": 2.03647876, "grad_norm": 0.29058582, "learning_rate": 3.44e-06, "elapsed_time_per_iteration": 4.81012368, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 10s", "remaining_time": "42m 6s", "loss_scale": 1.0, "consumed_samples": 3119104, "global_step/max_steps": "12184/12700"}
{"lm loss": 2.03224587, "grad_norm": 0.30295628, "learning_rate": 3.44e-06, "elapsed_time_per_iteration": 4.90132952, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 15s", "remaining_time": "42m 1s", "loss_scale": 1.0, "consumed_samples": 3119360, "global_step/max_steps": "12185/12700"}
{"lm loss": 2.07127976, "grad_norm": 0.30470398, "learning_rate": 3.43e-06, "elapsed_time_per_iteration": 4.9368372, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 20s", "remaining_time": "41m 56s", "loss_scale": 1.0, "consumed_samples": 3119616, "global_step/max_steps": "12186/12700"}
{"lm loss": 2.04439354, "grad_norm": 0.33344355, "learning_rate": 3.43e-06, "elapsed_time_per_iteration": 4.85037303, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 25s", "remaining_time": "41m 51s", "loss_scale": 1.0, "consumed_samples": 3119872, "global_step/max_steps": "12187/12700"}
{"lm loss": 2.05309868, "grad_norm": 0.29646131, "learning_rate": 3.43e-06, "elapsed_time_per_iteration": 5.00574827, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 30s", "remaining_time": "41m 46s", "loss_scale": 1.0, "consumed_samples": 3120128, "global_step/max_steps": "12188/12700"}
{"lm loss": 2.04445481, "grad_norm": 0.31127, "learning_rate": 3.43e-06, "elapsed_time_per_iteration": 4.92446208, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 35s", "remaining_time": "41m 41s", "loss_scale": 1.0, "consumed_samples": 3120384, "global_step/max_steps": "12189/12700"}
{"lm loss": 2.04534268, "grad_norm": 0.30841699, "learning_rate": 3.43e-06, "elapsed_time_per_iteration": 4.92958522, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 40s", "remaining_time": "41m 36s", "loss_scale": 1.0, "consumed_samples": 3120640, "global_step/max_steps": "12190/12700"}
{"lm loss": 2.01385093, "grad_norm": 0.31673697, "learning_rate": 3.43e-06, "elapsed_time_per_iteration": 4.88768482, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 45s", "remaining_time": "41m 31s", "loss_scale": 1.0, "consumed_samples": 3120896, "global_step/max_steps": "12191/12700"}
{"lm loss": 2.02481723, "grad_norm": 0.29074255, "learning_rate": 3.42e-06, "elapsed_time_per_iteration": 4.85080791, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 50s", "remaining_time": "41m 27s", "loss_scale": 1.0, "consumed_samples": 3121152, "global_step/max_steps": "12192/12700"}
{"lm loss": 2.00871563, "grad_norm": 0.30652323, "learning_rate": 3.42e-06, "elapsed_time_per_iteration": 4.87028408, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 55s", "remaining_time": "41m 22s", "loss_scale": 1.0, "consumed_samples": 3121408, "global_step/max_steps": "12193/12700"}
{"lm loss": 2.05547214, "grad_norm": 0.32231784, "learning_rate": 3.42e-06, "elapsed_time_per_iteration": 4.92333245, "memory(GiB)": 28.98, "elapsed_time": "16h 34m 59s", "remaining_time": "41m 17s", "loss_scale": 1.0, "consumed_samples": 3121664, "global_step/max_steps": "12194/12700"}
{"lm loss": 2.02258849, "grad_norm": 0.30805391, "learning_rate": 3.42e-06, "elapsed_time_per_iteration": 4.95646429, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 4s", "remaining_time": "41m 12s", "loss_scale": 1.0, "consumed_samples": 3121920, "global_step/max_steps": "12195/12700"}
{"lm loss": 2.03699613, "grad_norm": 0.30646944, "learning_rate": 3.42e-06, "elapsed_time_per_iteration": 4.92929268, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 9s", "remaining_time": "41m 7s", "loss_scale": 1.0, "consumed_samples": 3122176, "global_step/max_steps": "12196/12700"}
{"lm loss": 2.02351952, "grad_norm": 0.31333429, "learning_rate": 3.42e-06, "elapsed_time_per_iteration": 4.93414974, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 14s", "remaining_time": "41m 2s", "loss_scale": 1.0, "consumed_samples": 3122432, "global_step/max_steps": "12197/12700"}
{"lm loss": 2.02149725, "grad_norm": 0.31344071, "learning_rate": 3.41e-06, "elapsed_time_per_iteration": 4.97188926, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 19s", "remaining_time": "40m 57s", "loss_scale": 1.0, "consumed_samples": 3122688, "global_step/max_steps": "12198/12700"}
{"lm loss": 2.03946781, "grad_norm": 0.31843719, "learning_rate": 3.41e-06, "elapsed_time_per_iteration": 4.82480121, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 24s", "remaining_time": "40m 52s", "loss_scale": 1.0, "consumed_samples": 3122944, "global_step/max_steps": "12199/12700"}
{"lm loss": 2.02871919, "grad_norm": 0.32332242, "learning_rate": 3.41e-06, "elapsed_time_per_iteration": 4.92793107, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 29s", "remaining_time": "40m 47s", "loss_scale": 1.0, "consumed_samples": 3123200, "global_step/max_steps": "12200/12700"}
{"lm loss": 2.03329587, "grad_norm": 0.3035638, "learning_rate": 3.41e-06, "elapsed_time_per_iteration": 4.82656884, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 34s", "remaining_time": "40m 43s", "loss_scale": 1.0, "consumed_samples": 3123456, "global_step/max_steps": "12201/12700"}
{"lm loss": 2.00664139, "grad_norm": 0.3203783, "learning_rate": 3.41e-06, "elapsed_time_per_iteration": 4.94976377, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 39s", "remaining_time": "40m 38s", "loss_scale": 1.0, "consumed_samples": 3123712, "global_step/max_steps": "12202/12700"}
{"lm loss": 2.03550768, "grad_norm": 0.30003229, "learning_rate": 3.41e-06, "elapsed_time_per_iteration": 4.92831349, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 44s", "remaining_time": "40m 33s", "loss_scale": 1.0, "consumed_samples": 3123968, "global_step/max_steps": "12203/12700"}
{"lm loss": 2.04050446, "grad_norm": 0.30796191, "learning_rate": 3.4e-06, "elapsed_time_per_iteration": 5.02592349, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 49s", "remaining_time": "40m 28s", "loss_scale": 1.0, "consumed_samples": 3124224, "global_step/max_steps": "12204/12700"}
{"lm loss": 2.00125194, "grad_norm": 0.30106765, "learning_rate": 3.4e-06, "elapsed_time_per_iteration": 5.04770637, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 54s", "remaining_time": "40m 23s", "loss_scale": 1.0, "consumed_samples": 3124480, "global_step/max_steps": "12205/12700"}
{"lm loss": 2.03340816, "grad_norm": 0.30449492, "learning_rate": 3.4e-06, "elapsed_time_per_iteration": 4.87654305, "memory(GiB)": 28.98, "elapsed_time": "16h 35m 59s", "remaining_time": "40m 18s", "loss_scale": 1.0, "consumed_samples": 3124736, "global_step/max_steps": "12206/12700"}
{"lm loss": 2.01650572, "grad_norm": 0.3072983, "learning_rate": 3.4e-06, "elapsed_time_per_iteration": 4.8693068, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 4s", "remaining_time": "40m 13s", "loss_scale": 1.0, "consumed_samples": 3124992, "global_step/max_steps": "12207/12700"}
{"lm loss": 2.03280306, "grad_norm": 0.31665915, "learning_rate": 3.4e-06, "elapsed_time_per_iteration": 4.82027173, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 8s", "remaining_time": "40m 8s", "loss_scale": 1.0, "consumed_samples": 3125248, "global_step/max_steps": "12208/12700"}
{"lm loss": 2.01820755, "grad_norm": 0.31529301, "learning_rate": 3.4e-06, "elapsed_time_per_iteration": 4.82370949, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 13s", "remaining_time": "40m 3s", "loss_scale": 1.0, "consumed_samples": 3125504, "global_step/max_steps": "12209/12700"}
{"lm loss": 2.05054879, "grad_norm": 0.30825415, "learning_rate": 3.39e-06, "elapsed_time_per_iteration": 4.82399011, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 18s", "remaining_time": "39m 58s", "loss_scale": 1.0, "consumed_samples": 3125760, "global_step/max_steps": "12210/12700"}
{"lm loss": 2.02929926, "grad_norm": 0.29875597, "learning_rate": 3.39e-06, "elapsed_time_per_iteration": 4.79335475, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 23s", "remaining_time": "39m 54s", "loss_scale": 1.0, "consumed_samples": 3126016, "global_step/max_steps": "12211/12700"}
{"lm loss": 2.02667284, "grad_norm": 0.30460733, "learning_rate": 3.39e-06, "elapsed_time_per_iteration": 4.79733157, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 28s", "remaining_time": "39m 49s", "loss_scale": 1.0, "consumed_samples": 3126272, "global_step/max_steps": "12212/12700"}
{"lm loss": 1.99743342, "grad_norm": 0.43132681, "learning_rate": 3.39e-06, "elapsed_time_per_iteration": 5.00353646, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 33s", "remaining_time": "39m 44s", "loss_scale": 1.0, "consumed_samples": 3126528, "global_step/max_steps": "12213/12700"}
{"lm loss": 2.05205154, "grad_norm": 0.30227539, "learning_rate": 3.39e-06, "elapsed_time_per_iteration": 4.83782172, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 37s", "remaining_time": "39m 39s", "loss_scale": 1.0, "consumed_samples": 3126784, "global_step/max_steps": "12214/12700"}
{"lm loss": 2.03141785, "grad_norm": 0.3044554, "learning_rate": 3.39e-06, "elapsed_time_per_iteration": 4.979877, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 42s", "remaining_time": "39m 34s", "loss_scale": 1.0, "consumed_samples": 3127040, "global_step/max_steps": "12215/12700"}
{"lm loss": 2.04218626, "grad_norm": 0.30649051, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.91016054, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 47s", "remaining_time": "39m 29s", "loss_scale": 1.0, "consumed_samples": 3127296, "global_step/max_steps": "12216/12700"}
{"lm loss": 2.00317192, "grad_norm": 0.31781057, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.99704099, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 52s", "remaining_time": "39m 24s", "loss_scale": 1.0, "consumed_samples": 3127552, "global_step/max_steps": "12217/12700"}
{"lm loss": 2.06750655, "grad_norm": 0.30880359, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.82870603, "memory(GiB)": 28.98, "elapsed_time": "16h 36m 57s", "remaining_time": "39m 19s", "loss_scale": 1.0, "consumed_samples": 3127808, "global_step/max_steps": "12218/12700"}
{"lm loss": 2.03311205, "grad_norm": 0.31989759, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.85940337, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 2s", "remaining_time": "39m 14s", "loss_scale": 1.0, "consumed_samples": 3128064, "global_step/max_steps": "12219/12700"}
{"lm loss": 2.0588212, "grad_norm": 0.31401461, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.83992815, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 7s", "remaining_time": "39m 10s", "loss_scale": 1.0, "consumed_samples": 3128320, "global_step/max_steps": "12220/12700"}
{"lm loss": 2.00623131, "grad_norm": 0.33592555, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.80388284, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 12s", "remaining_time": "39m 5s", "loss_scale": 1.0, "consumed_samples": 3128576, "global_step/max_steps": "12221/12700"}
{"lm loss": 1.98028266, "grad_norm": 0.28856426, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.76150465, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 16s", "remaining_time": "39m 0s", "loss_scale": 1.0, "consumed_samples": 3128832, "global_step/max_steps": "12222/12700"}
{"lm loss": 1.9995327, "grad_norm": 0.30452216, "learning_rate": 3.37e-06, "elapsed_time_per_iteration": 4.85025859, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 21s", "remaining_time": "38m 55s", "loss_scale": 1.0, "consumed_samples": 3129088, "global_step/max_steps": "12223/12700"}
{"lm loss": 2.01045156, "grad_norm": 0.30466133, "learning_rate": 3.37e-06, "elapsed_time_per_iteration": 5.02122164, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 26s", "remaining_time": "38m 50s", "loss_scale": 1.0, "consumed_samples": 3129344, "global_step/max_steps": "12224/12700"}
{"lm loss": 2.0038631, "grad_norm": 0.30254078, "learning_rate": 3.37e-06, "elapsed_time_per_iteration": 5.07569742, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 31s", "remaining_time": "38m 45s", "loss_scale": 1.0, "consumed_samples": 3129600, "global_step/max_steps": "12225/12700"}
{"lm loss": 1.99687219, "grad_norm": 0.29733706, "learning_rate": 3.37e-06, "elapsed_time_per_iteration": 4.95434451, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 36s", "remaining_time": "38m 40s", "loss_scale": 1.0, "consumed_samples": 3129856, "global_step/max_steps": "12226/12700"}
{"lm loss": 2.05538702, "grad_norm": 0.3020032, "learning_rate": 3.37e-06, "elapsed_time_per_iteration": 4.79529786, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 41s", "remaining_time": "38m 35s", "loss_scale": 1.0, "consumed_samples": 3130112, "global_step/max_steps": "12227/12700"}
{"lm loss": 1.98963404, "grad_norm": 0.29937187, "learning_rate": 3.37e-06, "elapsed_time_per_iteration": 4.86161828, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 46s", "remaining_time": "38m 30s", "loss_scale": 1.0, "consumed_samples": 3130368, "global_step/max_steps": "12228/12700"}
{"lm loss": 2.04899359, "grad_norm": 0.30380204, "learning_rate": 3.36e-06, "elapsed_time_per_iteration": 4.88651848, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 51s", "remaining_time": "38m 25s", "loss_scale": 1.0, "consumed_samples": 3130624, "global_step/max_steps": "12229/12700"}
{"lm loss": 2.06684494, "grad_norm": 0.29505482, "learning_rate": 3.36e-06, "elapsed_time_per_iteration": 4.92628336, "memory(GiB)": 28.98, "elapsed_time": "16h 37m 56s", "remaining_time": "38m 21s", "loss_scale": 1.0, "consumed_samples": 3130880, "global_step/max_steps": "12230/12700"}
{"lm loss": 2.05250955, "grad_norm": 0.30715427, "learning_rate": 3.36e-06, "elapsed_time_per_iteration": 4.86506462, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 1s", "remaining_time": "38m 16s", "loss_scale": 1.0, "consumed_samples": 3131136, "global_step/max_steps": "12231/12700"}
{"lm loss": 2.02962399, "grad_norm": 0.31083116, "learning_rate": 3.36e-06, "elapsed_time_per_iteration": 4.78940654, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 5s", "remaining_time": "38m 11s", "loss_scale": 1.0, "consumed_samples": 3131392, "global_step/max_steps": "12232/12700"}
{"lm loss": 2.0121665, "grad_norm": 0.30195594, "learning_rate": 3.36e-06, "elapsed_time_per_iteration": 4.80968451, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 10s", "remaining_time": "38m 6s", "loss_scale": 1.0, "consumed_samples": 3131648, "global_step/max_steps": "12233/12700"}
{"lm loss": 2.06357551, "grad_norm": 0.29289576, "learning_rate": 3.36e-06, "elapsed_time_per_iteration": 4.84555197, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 15s", "remaining_time": "38m 1s", "loss_scale": 1.0, "consumed_samples": 3131904, "global_step/max_steps": "12234/12700"}
{"lm loss": 2.06088781, "grad_norm": 0.30865651, "learning_rate": 3.36e-06, "elapsed_time_per_iteration": 4.83756065, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 20s", "remaining_time": "37m 56s", "loss_scale": 1.0, "consumed_samples": 3132160, "global_step/max_steps": "12235/12700"}
{"lm loss": 2.02749968, "grad_norm": 0.30771318, "learning_rate": 3.35e-06, "elapsed_time_per_iteration": 4.87601304, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 25s", "remaining_time": "37m 51s", "loss_scale": 1.0, "consumed_samples": 3132416, "global_step/max_steps": "12236/12700"}
{"lm loss": 2.01516938, "grad_norm": 0.30710733, "learning_rate": 3.35e-06, "elapsed_time_per_iteration": 4.89948225, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 30s", "remaining_time": "37m 46s", "loss_scale": 1.0, "consumed_samples": 3132672, "global_step/max_steps": "12237/12700"}
{"lm loss": 2.00653625, "grad_norm": 0.30379727, "learning_rate": 3.35e-06, "elapsed_time_per_iteration": 4.88121939, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 35s", "remaining_time": "37m 41s", "loss_scale": 1.0, "consumed_samples": 3132928, "global_step/max_steps": "12238/12700"}
{"lm loss": 2.04280949, "grad_norm": 0.29974911, "learning_rate": 3.35e-06, "elapsed_time_per_iteration": 4.89575696, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 39s", "remaining_time": "37m 36s", "loss_scale": 1.0, "consumed_samples": 3133184, "global_step/max_steps": "12239/12700"}
{"lm loss": 2.02322197, "grad_norm": 0.29831064, "learning_rate": 3.35e-06, "elapsed_time_per_iteration": 4.98493862, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 44s", "remaining_time": "37m 32s", "loss_scale": 1.0, "consumed_samples": 3133440, "global_step/max_steps": "12240/12700"}
{"lm loss": 2.013556, "grad_norm": 0.31363192, "learning_rate": 3.35e-06, "elapsed_time_per_iteration": 4.80659056, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 49s", "remaining_time": "37m 27s", "loss_scale": 1.0, "consumed_samples": 3133696, "global_step/max_steps": "12241/12700"}
{"lm loss": 2.01700926, "grad_norm": 0.30534911, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 4.80057383, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 54s", "remaining_time": "37m 22s", "loss_scale": 1.0, "consumed_samples": 3133952, "global_step/max_steps": "12242/12700"}
{"lm loss": 2.03656793, "grad_norm": 0.29821157, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 4.9259541, "memory(GiB)": 28.98, "elapsed_time": "16h 38m 59s", "remaining_time": "37m 17s", "loss_scale": 1.0, "consumed_samples": 3134208, "global_step/max_steps": "12243/12700"}
{"lm loss": 2.03046179, "grad_norm": 0.30637059, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 4.90253949, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 4s", "remaining_time": "37m 12s", "loss_scale": 1.0, "consumed_samples": 3134464, "global_step/max_steps": "12244/12700"}
{"lm loss": 2.01660728, "grad_norm": 0.32540432, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 4.95313168, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 9s", "remaining_time": "37m 7s", "loss_scale": 1.0, "consumed_samples": 3134720, "global_step/max_steps": "12245/12700"}
{"lm loss": 2.05772805, "grad_norm": 0.32677317, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 4.9548955, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 14s", "remaining_time": "37m 2s", "loss_scale": 1.0, "consumed_samples": 3134976, "global_step/max_steps": "12246/12700"}
{"lm loss": 2.03383279, "grad_norm": 0.29819211, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 4.98279524, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 19s", "remaining_time": "36m 57s", "loss_scale": 1.0, "consumed_samples": 3135232, "global_step/max_steps": "12247/12700"}
{"lm loss": 2.02507138, "grad_norm": 0.3264032, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 5.01914167, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 24s", "remaining_time": "36m 52s", "loss_scale": 1.0, "consumed_samples": 3135488, "global_step/max_steps": "12248/12700"}
{"lm loss": 2.04927921, "grad_norm": 0.33537936, "learning_rate": 3.33e-06, "elapsed_time_per_iteration": 4.88167667, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 29s", "remaining_time": "36m 48s", "loss_scale": 1.0, "consumed_samples": 3135744, "global_step/max_steps": "12249/12700"}
{"lm loss": 2.03532434, "grad_norm": 0.30912217, "learning_rate": 3.33e-06, "elapsed_time_per_iteration": 4.87857056, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 34s", "remaining_time": "36m 43s", "loss_scale": 1.0, "consumed_samples": 3136000, "global_step/max_steps": "12250/12700"}
{"lm loss": 2.02714324, "grad_norm": 0.32738516, "learning_rate": 3.33e-06, "elapsed_time_per_iteration": 4.820714, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 38s", "remaining_time": "36m 38s", "loss_scale": 1.0, "consumed_samples": 3136256, "global_step/max_steps": "12251/12700"}
{"lm loss": 2.05840087, "grad_norm": 0.31012782, "learning_rate": 3.33e-06, "elapsed_time_per_iteration": 4.85079288, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 43s", "remaining_time": "36m 33s", "loss_scale": 1.0, "consumed_samples": 3136512, "global_step/max_steps": "12252/12700"}
{"lm loss": 2.01016426, "grad_norm": 0.29444176, "learning_rate": 3.33e-06, "elapsed_time_per_iteration": 4.88573647, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 48s", "remaining_time": "36m 28s", "loss_scale": 1.0, "consumed_samples": 3136768, "global_step/max_steps": "12253/12700"}
{"lm loss": 2.00207949, "grad_norm": 0.31842908, "learning_rate": 3.33e-06, "elapsed_time_per_iteration": 4.90687227, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 53s", "remaining_time": "36m 23s", "loss_scale": 1.0, "consumed_samples": 3137024, "global_step/max_steps": "12254/12700"}
{"lm loss": 2.05519032, "grad_norm": 0.30182377, "learning_rate": 3.33e-06, "elapsed_time_per_iteration": 4.96148348, "memory(GiB)": 28.98, "elapsed_time": "16h 39m 58s", "remaining_time": "36m 18s", "loss_scale": 1.0, "consumed_samples": 3137280, "global_step/max_steps": "12255/12700"}
{"lm loss": 2.0521996, "grad_norm": 0.31016585, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.98977232, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 3s", "remaining_time": "36m 13s", "loss_scale": 1.0, "consumed_samples": 3137536, "global_step/max_steps": "12256/12700"}
{"lm loss": 2.02792883, "grad_norm": 0.31692526, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.83855915, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 8s", "remaining_time": "36m 8s", "loss_scale": 1.0, "consumed_samples": 3137792, "global_step/max_steps": "12257/12700"}
{"lm loss": 2.02449346, "grad_norm": 0.31347853, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.9574008, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 13s", "remaining_time": "36m 3s", "loss_scale": 1.0, "consumed_samples": 3138048, "global_step/max_steps": "12258/12700"}
{"lm loss": 2.01878762, "grad_norm": 0.30713564, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.82492733, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 18s", "remaining_time": "35m 59s", "loss_scale": 1.0, "consumed_samples": 3138304, "global_step/max_steps": "12259/12700"}
{"lm loss": 2.01322603, "grad_norm": 0.31994554, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.83510351, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 22s", "remaining_time": "35m 54s", "loss_scale": 1.0, "consumed_samples": 3138560, "global_step/max_steps": "12260/12700"}
{"lm loss": 2.02695274, "grad_norm": 0.31147596, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.93067002, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 27s", "remaining_time": "35m 49s", "loss_scale": 1.0, "consumed_samples": 3138816, "global_step/max_steps": "12261/12700"}
{"lm loss": 2.04478765, "grad_norm": 0.30089056, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.91673803, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 32s", "remaining_time": "35m 44s", "loss_scale": 1.0, "consumed_samples": 3139072, "global_step/max_steps": "12262/12700"}
{"lm loss": 2.05330706, "grad_norm": 0.30963159, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 4.92962885, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 37s", "remaining_time": "35m 39s", "loss_scale": 1.0, "consumed_samples": 3139328, "global_step/max_steps": "12263/12700"}
{"lm loss": 2.0241406, "grad_norm": 0.31353906, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 4.97822237, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 42s", "remaining_time": "35m 34s", "loss_scale": 1.0, "consumed_samples": 3139584, "global_step/max_steps": "12264/12700"}
{"lm loss": 2.02497458, "grad_norm": 0.30338693, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 5.05845642, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 47s", "remaining_time": "35m 29s", "loss_scale": 1.0, "consumed_samples": 3139840, "global_step/max_steps": "12265/12700"}
{"lm loss": 2.0430634, "grad_norm": 0.31758687, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 4.88682342, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 52s", "remaining_time": "35m 24s", "loss_scale": 1.0, "consumed_samples": 3140096, "global_step/max_steps": "12266/12700"}
{"lm loss": 2.03493786, "grad_norm": 0.30578583, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 4.86987877, "memory(GiB)": 28.98, "elapsed_time": "16h 40m 57s", "remaining_time": "35m 19s", "loss_scale": 1.0, "consumed_samples": 3140352, "global_step/max_steps": "12267/12700"}
{"lm loss": 2.0796175, "grad_norm": 0.32174346, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 4.88308573, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 2s", "remaining_time": "35m 15s", "loss_scale": 1.0, "consumed_samples": 3140608, "global_step/max_steps": "12268/12700"}
{"lm loss": 2.05376601, "grad_norm": 0.29708141, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 4.85571241, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 7s", "remaining_time": "35m 10s", "loss_scale": 1.0, "consumed_samples": 3140864, "global_step/max_steps": "12269/12700"}
{"lm loss": 2.05128384, "grad_norm": 0.2986961, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 5.05525351, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 12s", "remaining_time": "35m 5s", "loss_scale": 1.0, "consumed_samples": 3141120, "global_step/max_steps": "12270/12700"}
{"lm loss": 2.00495958, "grad_norm": 0.31135634, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 4.92585897, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 17s", "remaining_time": "35m 0s", "loss_scale": 1.0, "consumed_samples": 3141376, "global_step/max_steps": "12271/12700"}
{"lm loss": 2.03147388, "grad_norm": 0.29754022, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 4.80485964, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 22s", "remaining_time": "34m 55s", "loss_scale": 1.0, "consumed_samples": 3141632, "global_step/max_steps": "12272/12700"}
{"lm loss": 1.98464274, "grad_norm": 0.30297303, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 4.96653414, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 26s", "remaining_time": "34m 50s", "loss_scale": 1.0, "consumed_samples": 3141888, "global_step/max_steps": "12273/12700"}
{"lm loss": 2.04682612, "grad_norm": 0.30956349, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 4.80590677, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 31s", "remaining_time": "34m 45s", "loss_scale": 1.0, "consumed_samples": 3142144, "global_step/max_steps": "12274/12700"}
{"lm loss": 2.01830626, "grad_norm": 0.30356801, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 4.96095657, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 36s", "remaining_time": "34m 40s", "loss_scale": 1.0, "consumed_samples": 3142400, "global_step/max_steps": "12275/12700"}
{"lm loss": 2.05648589, "grad_norm": 0.2966871, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 4.90325856, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 41s", "remaining_time": "34m 35s", "loss_scale": 1.0, "consumed_samples": 3142656, "global_step/max_steps": "12276/12700"}
{"lm loss": 2.03693008, "grad_norm": 0.29670209, "learning_rate": 3.29e-06, "elapsed_time_per_iteration": 4.90123343, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 46s", "remaining_time": "34m 30s", "loss_scale": 1.0, "consumed_samples": 3142912, "global_step/max_steps": "12277/12700"}
{"lm loss": 2.03244495, "grad_norm": 0.30008274, "learning_rate": 3.29e-06, "elapsed_time_per_iteration": 4.79954886, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 51s", "remaining_time": "34m 26s", "loss_scale": 1.0, "consumed_samples": 3143168, "global_step/max_steps": "12278/12700"}
{"lm loss": 2.02835798, "grad_norm": 0.30457366, "learning_rate": 3.29e-06, "elapsed_time_per_iteration": 4.86338401, "memory(GiB)": 28.98, "elapsed_time": "16h 41m 56s", "remaining_time": "34m 21s", "loss_scale": 1.0, "consumed_samples": 3143424, "global_step/max_steps": "12279/12700"}
{"lm loss": 2.05434537, "grad_norm": 0.31411737, "learning_rate": 3.29e-06, "elapsed_time_per_iteration": 4.88803148, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 1s", "remaining_time": "34m 16s", "loss_scale": 1.0, "consumed_samples": 3143680, "global_step/max_steps": "12280/12700"}
{"lm loss": 2.03683949, "grad_norm": 0.30741495, "learning_rate": 3.29e-06, "elapsed_time_per_iteration": 4.94774461, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 6s", "remaining_time": "34m 11s", "loss_scale": 1.0, "consumed_samples": 3143936, "global_step/max_steps": "12281/12700"}
{"lm loss": 2.03832459, "grad_norm": 0.31090307, "learning_rate": 3.29e-06, "elapsed_time_per_iteration": 4.87637901, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 10s", "remaining_time": "34m 6s", "loss_scale": 1.0, "consumed_samples": 3144192, "global_step/max_steps": "12282/12700"}
{"lm loss": 1.99610972, "grad_norm": 0.3142713, "learning_rate": 3.29e-06, "elapsed_time_per_iteration": 5.04480791, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 15s", "remaining_time": "34m 1s", "loss_scale": 1.0, "consumed_samples": 3144448, "global_step/max_steps": "12283/12700"}
{"lm loss": 2.02837014, "grad_norm": 0.31267986, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 4.90198183, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 20s", "remaining_time": "33m 56s", "loss_scale": 1.0, "consumed_samples": 3144704, "global_step/max_steps": "12284/12700"}
{"lm loss": 2.03008628, "grad_norm": 0.29861462, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 5.07833719, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 25s", "remaining_time": "33m 51s", "loss_scale": 1.0, "consumed_samples": 3144960, "global_step/max_steps": "12285/12700"}
{"lm loss": 2.05562854, "grad_norm": 0.30342656, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 4.91381049, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 30s", "remaining_time": "33m 46s", "loss_scale": 1.0, "consumed_samples": 3145216, "global_step/max_steps": "12286/12700"}
{"lm loss": 2.01669121, "grad_norm": 0.30750957, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 4.91243029, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 35s", "remaining_time": "33m 42s", "loss_scale": 1.0, "consumed_samples": 3145472, "global_step/max_steps": "12287/12700"}
{"lm loss": 1.9952122, "grad_norm": 0.31538388, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 4.85676265, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 40s", "remaining_time": "33m 37s", "loss_scale": 1.0, "consumed_samples": 3145728, "global_step/max_steps": "12288/12700"}
{"lm loss": 2.0427413, "grad_norm": 0.34426579, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 4.86972404, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 45s", "remaining_time": "33m 32s", "loss_scale": 1.0, "consumed_samples": 3145984, "global_step/max_steps": "12289/12700"}
{"lm loss": 2.04192805, "grad_norm": 0.30212605, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 4.78901315, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 50s", "remaining_time": "33m 27s", "loss_scale": 1.0, "consumed_samples": 3146240, "global_step/max_steps": "12290/12700"}
{"lm loss": 2.01238942, "grad_norm": 0.31271321, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.88999963, "memory(GiB)": 28.98, "elapsed_time": "16h 42m 55s", "remaining_time": "33m 22s", "loss_scale": 1.0, "consumed_samples": 3146496, "global_step/max_steps": "12291/12700"}
{"lm loss": 2.03296423, "grad_norm": 0.30643216, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.98552632, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 0s", "remaining_time": "33m 17s", "loss_scale": 1.0, "consumed_samples": 3146752, "global_step/max_steps": "12292/12700"}
{"lm loss": 2.07380319, "grad_norm": 0.30614817, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.95565081, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 5s", "remaining_time": "33m 12s", "loss_scale": 1.0, "consumed_samples": 3147008, "global_step/max_steps": "12293/12700"}
{"lm loss": 1.99703979, "grad_norm": 0.31294379, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.92944908, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 10s", "remaining_time": "33m 7s", "loss_scale": 1.0, "consumed_samples": 3147264, "global_step/max_steps": "12294/12700"}
{"lm loss": 2.05283761, "grad_norm": 0.31883746, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.84899974, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 14s", "remaining_time": "33m 2s", "loss_scale": 1.0, "consumed_samples": 3147520, "global_step/max_steps": "12295/12700"}
{"lm loss": 2.0405035, "grad_norm": 0.31922126, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.85841894, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 19s", "remaining_time": "32m 57s", "loss_scale": 1.0, "consumed_samples": 3147776, "global_step/max_steps": "12296/12700"}
{"lm loss": 2.02243805, "grad_norm": 0.31670928, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.7340734, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 24s", "remaining_time": "32m 53s", "loss_scale": 1.0, "consumed_samples": 3148032, "global_step/max_steps": "12297/12700"}
{"lm loss": 2.02185941, "grad_norm": 0.31156188, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.87016988, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 29s", "remaining_time": "32m 48s", "loss_scale": 1.0, "consumed_samples": 3148288, "global_step/max_steps": "12298/12700"}
{"lm loss": 2.04829288, "grad_norm": 0.32369387, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 4.89405298, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 34s", "remaining_time": "32m 43s", "loss_scale": 1.0, "consumed_samples": 3148544, "global_step/max_steps": "12299/12700"}
{"lm loss": 2.03286695, "grad_norm": 0.30110624, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 4.9053967, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 39s", "remaining_time": "32m 38s", "loss_scale": 1.0, "consumed_samples": 3148800, "global_step/max_steps": "12300/12700"}
{"lm loss": 2.05772281, "grad_norm": 0.32210219, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 4.88944268, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 44s", "remaining_time": "32m 33s", "loss_scale": 1.0, "consumed_samples": 3149056, "global_step/max_steps": "12301/12700"}
{"lm loss": 2.01792073, "grad_norm": 0.32439923, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 4.9072063, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 48s", "remaining_time": "32m 28s", "loss_scale": 1.0, "consumed_samples": 3149312, "global_step/max_steps": "12302/12700"}
{"lm loss": 2.04203892, "grad_norm": 0.33519992, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 4.87418437, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 53s", "remaining_time": "32m 23s", "loss_scale": 1.0, "consumed_samples": 3149568, "global_step/max_steps": "12303/12700"}
{"lm loss": 2.02195001, "grad_norm": 0.30794695, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 4.87271547, "memory(GiB)": 28.98, "elapsed_time": "16h 43m 58s", "remaining_time": "32m 18s", "loss_scale": 1.0, "consumed_samples": 3149824, "global_step/max_steps": "12304/12700"}
{"lm loss": 2.03421116, "grad_norm": 0.30858529, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 5.07624555, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 3s", "remaining_time": "32m 13s", "loss_scale": 1.0, "consumed_samples": 3150080, "global_step/max_steps": "12305/12700"}
{"lm loss": 2.01673388, "grad_norm": 0.31963658, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 4.8097527, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 8s", "remaining_time": "32m 8s", "loss_scale": 1.0, "consumed_samples": 3150336, "global_step/max_steps": "12306/12700"}
{"lm loss": 2.02551365, "grad_norm": 0.35441896, "learning_rate": 3.25e-06, "elapsed_time_per_iteration": 5.06624198, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 13s", "remaining_time": "32m 4s", "loss_scale": 1.0, "consumed_samples": 3150592, "global_step/max_steps": "12307/12700"}
{"lm loss": 2.02524018, "grad_norm": 0.30111077, "learning_rate": 3.25e-06, "elapsed_time_per_iteration": 4.88183308, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 18s", "remaining_time": "31m 59s", "loss_scale": 1.0, "consumed_samples": 3150848, "global_step/max_steps": "12308/12700"}
{"lm loss": 2.04149485, "grad_norm": 0.31270528, "learning_rate": 3.25e-06, "elapsed_time_per_iteration": 4.80856419, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 23s", "remaining_time": "31m 54s", "loss_scale": 1.0, "consumed_samples": 3151104, "global_step/max_steps": "12309/12700"}
{"lm loss": 2.06453323, "grad_norm": 0.31264284, "learning_rate": 3.25e-06, "elapsed_time_per_iteration": 4.86229348, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 28s", "remaining_time": "31m 49s", "loss_scale": 1.0, "consumed_samples": 3151360, "global_step/max_steps": "12310/12700"}
{"lm loss": 2.03970647, "grad_norm": 0.31001371, "learning_rate": 3.25e-06, "elapsed_time_per_iteration": 4.85420752, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 33s", "remaining_time": "31m 44s", "loss_scale": 1.0, "consumed_samples": 3151616, "global_step/max_steps": "12311/12700"}
{"lm loss": 2.01077485, "grad_norm": 0.3141661, "learning_rate": 3.25e-06, "elapsed_time_per_iteration": 4.83464265, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 37s", "remaining_time": "31m 39s", "loss_scale": 1.0, "consumed_samples": 3151872, "global_step/max_steps": "12312/12700"}
{"lm loss": 2.02612996, "grad_norm": 0.31419134, "learning_rate": 3.25e-06, "elapsed_time_per_iteration": 4.91801929, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 42s", "remaining_time": "31m 34s", "loss_scale": 1.0, "consumed_samples": 3152128, "global_step/max_steps": "12313/12700"}
{"lm loss": 1.98979819, "grad_norm": 0.3029187, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 5.0200398, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 47s", "remaining_time": "31m 29s", "loss_scale": 1.0, "consumed_samples": 3152384, "global_step/max_steps": "12314/12700"}
{"lm loss": 2.02230978, "grad_norm": 0.31451061, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 4.9511764, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 52s", "remaining_time": "31m 24s", "loss_scale": 1.0, "consumed_samples": 3152640, "global_step/max_steps": "12315/12700"}
{"lm loss": 2.02539253, "grad_norm": 0.31524199, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 4.85316706, "memory(GiB)": 28.98, "elapsed_time": "16h 44m 57s", "remaining_time": "31m 20s", "loss_scale": 1.0, "consumed_samples": 3152896, "global_step/max_steps": "12316/12700"}
{"lm loss": 2.01864839, "grad_norm": 0.32639244, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 4.79504681, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 2s", "remaining_time": "31m 15s", "loss_scale": 1.0, "consumed_samples": 3153152, "global_step/max_steps": "12317/12700"}
{"lm loss": 2.00239635, "grad_norm": 0.31014016, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 4.93473148, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 7s", "remaining_time": "31m 10s", "loss_scale": 1.0, "consumed_samples": 3153408, "global_step/max_steps": "12318/12700"}
{"lm loss": 2.03833723, "grad_norm": 0.31225109, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 5.00720263, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 12s", "remaining_time": "31m 5s", "loss_scale": 1.0, "consumed_samples": 3153664, "global_step/max_steps": "12319/12700"}
{"lm loss": 2.04276776, "grad_norm": 0.31228435, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 4.94997525, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 17s", "remaining_time": "31m 0s", "loss_scale": 1.0, "consumed_samples": 3153920, "global_step/max_steps": "12320/12700"}
{"lm loss": 2.01148081, "grad_norm": 0.31198031, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 4.90645552, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 22s", "remaining_time": "30m 55s", "loss_scale": 1.0, "consumed_samples": 3154176, "global_step/max_steps": "12321/12700"}
{"lm loss": 2.04924417, "grad_norm": 0.31779087, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.8977654, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 27s", "remaining_time": "30m 50s", "loss_scale": 1.0, "consumed_samples": 3154432, "global_step/max_steps": "12322/12700"}
{"lm loss": 2.05264139, "grad_norm": 0.30928549, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.96301055, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 32s", "remaining_time": "30m 45s", "loss_scale": 1.0, "consumed_samples": 3154688, "global_step/max_steps": "12323/12700"}
{"lm loss": 1.99888325, "grad_norm": 0.30809963, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.87239766, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 36s", "remaining_time": "30m 40s", "loss_scale": 1.0, "consumed_samples": 3154944, "global_step/max_steps": "12324/12700"}
{"lm loss": 2.05447292, "grad_norm": 0.32412392, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.8936801, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 41s", "remaining_time": "30m 35s", "loss_scale": 1.0, "consumed_samples": 3155200, "global_step/max_steps": "12325/12700"}
{"lm loss": 2.04092789, "grad_norm": 0.30736157, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.95264053, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 46s", "remaining_time": "30m 31s", "loss_scale": 1.0, "consumed_samples": 3155456, "global_step/max_steps": "12326/12700"}
{"lm loss": 2.06350732, "grad_norm": 0.31571504, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.92250395, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 51s", "remaining_time": "30m 26s", "loss_scale": 1.0, "consumed_samples": 3155712, "global_step/max_steps": "12327/12700"}
{"lm loss": 2.02413869, "grad_norm": 0.30752075, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.94374847, "memory(GiB)": 28.98, "elapsed_time": "16h 45m 56s", "remaining_time": "30m 21s", "loss_scale": 1.0, "consumed_samples": 3155968, "global_step/max_steps": "12328/12700"}
{"lm loss": 2.05931687, "grad_norm": 0.31267369, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.88920116, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 1s", "remaining_time": "30m 16s", "loss_scale": 1.0, "consumed_samples": 3156224, "global_step/max_steps": "12329/12700"}
{"lm loss": 2.0096736, "grad_norm": 0.30256954, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.8812108, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 6s", "remaining_time": "30m 11s", "loss_scale": 1.0, "consumed_samples": 3156480, "global_step/max_steps": "12330/12700"}
{"lm loss": 2.0403316, "grad_norm": 0.31463188, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.82182217, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 11s", "remaining_time": "30m 6s", "loss_scale": 1.0, "consumed_samples": 3156736, "global_step/max_steps": "12331/12700"}
{"lm loss": 2.04648423, "grad_norm": 0.3208088, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.89699459, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 16s", "remaining_time": "30m 1s", "loss_scale": 1.0, "consumed_samples": 3156992, "global_step/max_steps": "12332/12700"}
{"lm loss": 2.00641131, "grad_norm": 0.30346978, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.94340158, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 21s", "remaining_time": "29m 56s", "loss_scale": 1.0, "consumed_samples": 3157248, "global_step/max_steps": "12333/12700"}
{"lm loss": 2.06820774, "grad_norm": 0.30834603, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.97939348, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 26s", "remaining_time": "29m 51s", "loss_scale": 1.0, "consumed_samples": 3157504, "global_step/max_steps": "12334/12700"}
{"lm loss": 2.02692962, "grad_norm": 0.29868057, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.9669528, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 31s", "remaining_time": "29m 47s", "loss_scale": 1.0, "consumed_samples": 3157760, "global_step/max_steps": "12335/12700"}
{"lm loss": 2.04968262, "grad_norm": 0.30557534, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.92299962, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 35s", "remaining_time": "29m 42s", "loss_scale": 1.0, "consumed_samples": 3158016, "global_step/max_steps": "12336/12700"}
{"lm loss": 1.9919883, "grad_norm": 0.29511338, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.87488794, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 40s", "remaining_time": "29m 37s", "loss_scale": 1.0, "consumed_samples": 3158272, "global_step/max_steps": "12337/12700"}
{"lm loss": 2.04218602, "grad_norm": 0.32409558, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.90058684, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 45s", "remaining_time": "29m 32s", "loss_scale": 1.0, "consumed_samples": 3158528, "global_step/max_steps": "12338/12700"}
{"lm loss": 2.015872, "grad_norm": 0.30266362, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 4.83702469, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 50s", "remaining_time": "29m 27s", "loss_scale": 1.0, "consumed_samples": 3158784, "global_step/max_steps": "12339/12700"}
{"lm loss": 1.99644303, "grad_norm": 0.31056452, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 4.76524496, "memory(GiB)": 28.98, "elapsed_time": "16h 46m 55s", "remaining_time": "29m 22s", "loss_scale": 1.0, "consumed_samples": 3159040, "global_step/max_steps": "12340/12700"}
{"lm loss": 2.08828163, "grad_norm": 0.30613956, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 4.84100962, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 0s", "remaining_time": "29m 17s", "loss_scale": 1.0, "consumed_samples": 3159296, "global_step/max_steps": "12341/12700"}
{"lm loss": 2.03189802, "grad_norm": 0.33004075, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 4.83877921, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 5s", "remaining_time": "29m 12s", "loss_scale": 1.0, "consumed_samples": 3159552, "global_step/max_steps": "12342/12700"}
{"lm loss": 2.04579568, "grad_norm": 0.30917931, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 4.90461421, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 9s", "remaining_time": "29m 7s", "loss_scale": 1.0, "consumed_samples": 3159808, "global_step/max_steps": "12343/12700"}
{"lm loss": 2.0572176, "grad_norm": 0.29955614, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 4.86637664, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 14s", "remaining_time": "29m 2s", "loss_scale": 1.0, "consumed_samples": 3160064, "global_step/max_steps": "12344/12700"}
{"lm loss": 2.06039619, "grad_norm": 0.30868104, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 4.90227342, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 19s", "remaining_time": "28m 58s", "loss_scale": 1.0, "consumed_samples": 3160320, "global_step/max_steps": "12345/12700"}
{"lm loss": 2.01836658, "grad_norm": 0.31132931, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 4.91475248, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 24s", "remaining_time": "28m 53s", "loss_scale": 1.0, "consumed_samples": 3160576, "global_step/max_steps": "12346/12700"}
{"lm loss": 2.04743218, "grad_norm": 0.31721058, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.86382675, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 29s", "remaining_time": "28m 48s", "loss_scale": 1.0, "consumed_samples": 3160832, "global_step/max_steps": "12347/12700"}
{"lm loss": 2.00011921, "grad_norm": 0.31006956, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.80802345, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 34s", "remaining_time": "28m 43s", "loss_scale": 1.0, "consumed_samples": 3161088, "global_step/max_steps": "12348/12700"}
{"lm loss": 2.02866292, "grad_norm": 0.30640289, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.85500979, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 39s", "remaining_time": "28m 38s", "loss_scale": 1.0, "consumed_samples": 3161344, "global_step/max_steps": "12349/12700"}
{"lm loss": 2.02527809, "grad_norm": 0.32150555, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.79482198, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 43s", "remaining_time": "28m 33s", "loss_scale": 1.0, "consumed_samples": 3161600, "global_step/max_steps": "12350/12700"}
{"lm loss": 2.03187728, "grad_norm": 0.32245731, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.8369, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 48s", "remaining_time": "28m 28s", "loss_scale": 1.0, "consumed_samples": 3161856, "global_step/max_steps": "12351/12700"}
{"lm loss": 2.02736974, "grad_norm": 0.32146251, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.91489935, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 53s", "remaining_time": "28m 23s", "loss_scale": 1.0, "consumed_samples": 3162112, "global_step/max_steps": "12352/12700"}
{"lm loss": 2.01718116, "grad_norm": 0.32623529, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.86536789, "memory(GiB)": 28.98, "elapsed_time": "16h 47m 58s", "remaining_time": "28m 18s", "loss_scale": 1.0, "consumed_samples": 3162368, "global_step/max_steps": "12353/12700"}
{"lm loss": 2.01525378, "grad_norm": 0.29224792, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.83907413, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 3s", "remaining_time": "28m 13s", "loss_scale": 1.0, "consumed_samples": 3162624, "global_step/max_steps": "12354/12700"}
{"lm loss": 2.04031587, "grad_norm": 0.30086753, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.95422745, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 8s", "remaining_time": "28m 9s", "loss_scale": 1.0, "consumed_samples": 3162880, "global_step/max_steps": "12355/12700"}
{"lm loss": 1.99735689, "grad_norm": 0.31323996, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.9025526, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 13s", "remaining_time": "28m 4s", "loss_scale": 1.0, "consumed_samples": 3163136, "global_step/max_steps": "12356/12700"}
{"lm loss": 2.02649117, "grad_norm": 0.31167474, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.89010239, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 18s", "remaining_time": "27m 59s", "loss_scale": 1.0, "consumed_samples": 3163392, "global_step/max_steps": "12357/12700"}
{"lm loss": 2.04468942, "grad_norm": 0.31177923, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.79165888, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 22s", "remaining_time": "27m 54s", "loss_scale": 1.0, "consumed_samples": 3163648, "global_step/max_steps": "12358/12700"}
{"lm loss": 2.02755427, "grad_norm": 0.30593294, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.90429449, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 27s", "remaining_time": "27m 49s", "loss_scale": 1.0, "consumed_samples": 3163904, "global_step/max_steps": "12359/12700"}
{"lm loss": 2.01706219, "grad_norm": 0.31124955, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.7801249, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 32s", "remaining_time": "27m 44s", "loss_scale": 1.0, "consumed_samples": 3164160, "global_step/max_steps": "12360/12700"}
{"lm loss": 2.0248816, "grad_norm": 0.31697834, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.84217024, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 37s", "remaining_time": "27m 39s", "loss_scale": 1.0, "consumed_samples": 3164416, "global_step/max_steps": "12361/12700"}
{"lm loss": 2.02889085, "grad_norm": 0.30503055, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.86479187, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 42s", "remaining_time": "27m 34s", "loss_scale": 1.0, "consumed_samples": 3164672, "global_step/max_steps": "12362/12700"}
{"lm loss": 2.061095, "grad_norm": 0.31426084, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.84294009, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 47s", "remaining_time": "27m 29s", "loss_scale": 1.0, "consumed_samples": 3164928, "global_step/max_steps": "12363/12700"}
{"lm loss": 2.0383637, "grad_norm": 0.30121189, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.83472347, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 52s", "remaining_time": "27m 24s", "loss_scale": 1.0, "consumed_samples": 3165184, "global_step/max_steps": "12364/12700"}
{"lm loss": 2.03369856, "grad_norm": 0.3287847, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.9828198, "memory(GiB)": 28.98, "elapsed_time": "16h 48m 57s", "remaining_time": "27m 20s", "loss_scale": 1.0, "consumed_samples": 3165440, "global_step/max_steps": "12365/12700"}
{"lm loss": 2.05834365, "grad_norm": 0.30638963, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.84481215, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 1s", "remaining_time": "27m 15s", "loss_scale": 1.0, "consumed_samples": 3165696, "global_step/max_steps": "12366/12700"}
{"lm loss": 2.03741455, "grad_norm": 0.33010224, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 5.0325017, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 6s", "remaining_time": "27m 10s", "loss_scale": 1.0, "consumed_samples": 3165952, "global_step/max_steps": "12367/12700"}
{"lm loss": 2.01423192, "grad_norm": 0.3053005, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.94187641, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 11s", "remaining_time": "27m 5s", "loss_scale": 1.0, "consumed_samples": 3166208, "global_step/max_steps": "12368/12700"}
{"lm loss": 2.014853, "grad_norm": 0.31996849, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.84797907, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 16s", "remaining_time": "27m 0s", "loss_scale": 1.0, "consumed_samples": 3166464, "global_step/max_steps": "12369/12700"}
{"lm loss": 2.00690722, "grad_norm": 0.29941046, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.98963428, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 21s", "remaining_time": "26m 55s", "loss_scale": 1.0, "consumed_samples": 3166720, "global_step/max_steps": "12370/12700"}
{"lm loss": 2.05672002, "grad_norm": 0.31049362, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.81695437, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 26s", "remaining_time": "26m 50s", "loss_scale": 1.0, "consumed_samples": 3166976, "global_step/max_steps": "12371/12700"}
{"lm loss": 2.09903741, "grad_norm": 0.3050479, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.95931196, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 31s", "remaining_time": "26m 45s", "loss_scale": 1.0, "consumed_samples": 3167232, "global_step/max_steps": "12372/12700"}
{"lm loss": 2.03342581, "grad_norm": 0.32335764, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.86807585, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 36s", "remaining_time": "26m 40s", "loss_scale": 1.0, "consumed_samples": 3167488, "global_step/max_steps": "12373/12700"}
{"lm loss": 2.03440046, "grad_norm": 0.29830927, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.89511466, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 41s", "remaining_time": "26m 36s", "loss_scale": 1.0, "consumed_samples": 3167744, "global_step/max_steps": "12374/12700"}
{"lm loss": 2.04214811, "grad_norm": 0.31481215, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.87881494, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 46s", "remaining_time": "26m 31s", "loss_scale": 1.0, "consumed_samples": 3168000, "global_step/max_steps": "12375/12700"}
{"lm loss": 1.99667645, "grad_norm": 0.32020432, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.96730852, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 51s", "remaining_time": "26m 26s", "loss_scale": 1.0, "consumed_samples": 3168256, "global_step/max_steps": "12376/12700"}
{"lm loss": 2.04047942, "grad_norm": 0.32060134, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.80543542, "memory(GiB)": 28.98, "elapsed_time": "16h 49m 55s", "remaining_time": "26m 21s", "loss_scale": 1.0, "consumed_samples": 3168512, "global_step/max_steps": "12377/12700"}
{"lm loss": 2.02813411, "grad_norm": 0.31401485, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.79266047, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 0s", "remaining_time": "26m 16s", "loss_scale": 1.0, "consumed_samples": 3168768, "global_step/max_steps": "12378/12700"}
{"lm loss": 2.02636147, "grad_norm": 0.30746013, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.82169938, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 5s", "remaining_time": "26m 11s", "loss_scale": 1.0, "consumed_samples": 3169024, "global_step/max_steps": "12379/12700"}
{"lm loss": 2.0462482, "grad_norm": 0.31961995, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.82921553, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 10s", "remaining_time": "26m 6s", "loss_scale": 1.0, "consumed_samples": 3169280, "global_step/max_steps": "12380/12700"}
{"lm loss": 2.03317332, "grad_norm": 0.31716046, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.84830999, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 15s", "remaining_time": "26m 1s", "loss_scale": 1.0, "consumed_samples": 3169536, "global_step/max_steps": "12381/12700"}
{"lm loss": 2.05271673, "grad_norm": 0.30850372, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.86022067, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 20s", "remaining_time": "25m 56s", "loss_scale": 1.0, "consumed_samples": 3169792, "global_step/max_steps": "12382/12700"}
{"lm loss": 2.01598239, "grad_norm": 0.2984198, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.86176682, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 24s", "remaining_time": "25m 51s", "loss_scale": 1.0, "consumed_samples": 3170048, "global_step/max_steps": "12383/12700"}
{"lm loss": 1.97958481, "grad_norm": 0.31022877, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.90675473, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 29s", "remaining_time": "25m 47s", "loss_scale": 1.0, "consumed_samples": 3170304, "global_step/max_steps": "12384/12700"}
{"lm loss": 2.0288322, "grad_norm": 0.29297924, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.9962604, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 34s", "remaining_time": "25m 42s", "loss_scale": 1.0, "consumed_samples": 3170560, "global_step/max_steps": "12385/12700"}
{"lm loss": 2.04690886, "grad_norm": 0.29979789, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.89309907, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 39s", "remaining_time": "25m 37s", "loss_scale": 1.0, "consumed_samples": 3170816, "global_step/max_steps": "12386/12700"}
{"lm loss": 2.00379014, "grad_norm": 0.31541452, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.96809268, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 44s", "remaining_time": "25m 32s", "loss_scale": 1.0, "consumed_samples": 3171072, "global_step/max_steps": "12387/12700"}
{"lm loss": 2.01572371, "grad_norm": 0.31134322, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.91167808, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 49s", "remaining_time": "25m 27s", "loss_scale": 1.0, "consumed_samples": 3171328, "global_step/max_steps": "12388/12700"}
{"lm loss": 2.01254463, "grad_norm": 0.29955116, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.83011603, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 54s", "remaining_time": "25m 22s", "loss_scale": 1.0, "consumed_samples": 3171584, "global_step/max_steps": "12389/12700"}
{"lm loss": 2.00557542, "grad_norm": 0.31455469, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.83799458, "memory(GiB)": 28.98, "elapsed_time": "16h 50m 59s", "remaining_time": "25m 17s", "loss_scale": 1.0, "consumed_samples": 3171840, "global_step/max_steps": "12390/12700"}
{"lm loss": 2.0269177, "grad_norm": 0.31203663, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.82583952, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 4s", "remaining_time": "25m 12s", "loss_scale": 1.0, "consumed_samples": 3172096, "global_step/max_steps": "12391/12700"}
{"lm loss": 2.02272677, "grad_norm": 0.31015831, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.94186592, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 8s", "remaining_time": "25m 7s", "loss_scale": 1.0, "consumed_samples": 3172352, "global_step/max_steps": "12392/12700"}
{"lm loss": 2.007658, "grad_norm": 0.32578492, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.85512233, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 13s", "remaining_time": "25m 3s", "loss_scale": 1.0, "consumed_samples": 3172608, "global_step/max_steps": "12393/12700"}
{"lm loss": 2.04128051, "grad_norm": 0.2963239, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.90666008, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 18s", "remaining_time": "24m 58s", "loss_scale": 1.0, "consumed_samples": 3172864, "global_step/max_steps": "12394/12700"}
{"lm loss": 2.05643296, "grad_norm": 0.31591463, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.96588039, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 23s", "remaining_time": "24m 53s", "loss_scale": 1.0, "consumed_samples": 3173120, "global_step/max_steps": "12395/12700"}
{"lm loss": 2.05647779, "grad_norm": 0.3022106, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.99435663, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 28s", "remaining_time": "24m 48s", "loss_scale": 1.0, "consumed_samples": 3173376, "global_step/max_steps": "12396/12700"}
{"lm loss": 2.05539012, "grad_norm": 0.31405032, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.93752623, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 33s", "remaining_time": "24m 43s", "loss_scale": 1.0, "consumed_samples": 3173632, "global_step/max_steps": "12397/12700"}
{"lm loss": 2.03229284, "grad_norm": 0.31524539, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.89591551, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 38s", "remaining_time": "24m 38s", "loss_scale": 1.0, "consumed_samples": 3173888, "global_step/max_steps": "12398/12700"}
{"lm loss": 2.05652475, "grad_norm": 0.3017458, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.87656689, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 43s", "remaining_time": "24m 33s", "loss_scale": 1.0, "consumed_samples": 3174144, "global_step/max_steps": "12399/12700"}
{"lm loss": 1.96948206, "grad_norm": 0.30055371, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.90220523, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 48s", "remaining_time": "24m 28s", "loss_scale": 1.0, "consumed_samples": 3174400, "global_step/max_steps": "12400/12700"}
{"lm loss": 2.07330632, "grad_norm": 0.30652711, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.83446622, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 53s", "remaining_time": "24m 23s", "loss_scale": 1.0, "consumed_samples": 3174656, "global_step/max_steps": "12401/12700"}
{"lm loss": 2.01547647, "grad_norm": 0.29292062, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.85456872, "memory(GiB)": 28.98, "elapsed_time": "16h 51m 58s", "remaining_time": "24m 18s", "loss_scale": 1.0, "consumed_samples": 3174912, "global_step/max_steps": "12402/12700"}
{"lm loss": 2.06795025, "grad_norm": 0.32349786, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 5.06860185, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 3s", "remaining_time": "24m 14s", "loss_scale": 1.0, "consumed_samples": 3175168, "global_step/max_steps": "12403/12700"}
{"lm loss": 2.06214285, "grad_norm": 0.30600202, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.9872129, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 8s", "remaining_time": "24m 9s", "loss_scale": 1.0, "consumed_samples": 3175424, "global_step/max_steps": "12404/12700"}
{"lm loss": 2.03748441, "grad_norm": 0.30881259, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.92947531, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 12s", "remaining_time": "24m 4s", "loss_scale": 1.0, "consumed_samples": 3175680, "global_step/max_steps": "12405/12700"}
{"lm loss": 2.03726649, "grad_norm": 0.31172669, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.95247602, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 17s", "remaining_time": "23m 59s", "loss_scale": 1.0, "consumed_samples": 3175936, "global_step/max_steps": "12406/12700"}
{"lm loss": 2.03568196, "grad_norm": 0.31821194, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.86273193, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 22s", "remaining_time": "23m 54s", "loss_scale": 1.0, "consumed_samples": 3176192, "global_step/max_steps": "12407/12700"}
{"lm loss": 2.06434536, "grad_norm": 0.32011598, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.94408584, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 27s", "remaining_time": "23m 49s", "loss_scale": 1.0, "consumed_samples": 3176448, "global_step/max_steps": "12408/12700"}
{"lm loss": 2.01492405, "grad_norm": 0.32009405, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.94909215, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 32s", "remaining_time": "23m 44s", "loss_scale": 1.0, "consumed_samples": 3176704, "global_step/max_steps": "12409/12700"}
{"lm loss": 2.03506923, "grad_norm": 0.3029753, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.78117919, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 37s", "remaining_time": "23m 39s", "loss_scale": 1.0, "consumed_samples": 3176960, "global_step/max_steps": "12410/12700"}
{"lm loss": 2.01114845, "grad_norm": 0.31055567, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.82665467, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 42s", "remaining_time": "23m 34s", "loss_scale": 1.0, "consumed_samples": 3177216, "global_step/max_steps": "12411/12700"}
{"lm loss": 2.02133417, "grad_norm": 0.29216892, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.86035061, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 47s", "remaining_time": "23m 30s", "loss_scale": 1.0, "consumed_samples": 3177472, "global_step/max_steps": "12412/12700"}
{"lm loss": 2.00769496, "grad_norm": 0.3167454, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.87185979, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 52s", "remaining_time": "23m 25s", "loss_scale": 1.0, "consumed_samples": 3177728, "global_step/max_steps": "12413/12700"}
{"lm loss": 2.0183773, "grad_norm": 0.30963087, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.97195053, "memory(GiB)": 28.98, "elapsed_time": "16h 52m 57s", "remaining_time": "23m 20s", "loss_scale": 1.0, "consumed_samples": 3177984, "global_step/max_steps": "12414/12700"}
{"lm loss": 2.00864196, "grad_norm": 0.31365529, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.89222431, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 1s", "remaining_time": "23m 15s", "loss_scale": 1.0, "consumed_samples": 3178240, "global_step/max_steps": "12415/12700"}
{"lm loss": 2.00258064, "grad_norm": 0.31497964, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.91854906, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 6s", "remaining_time": "23m 10s", "loss_scale": 1.0, "consumed_samples": 3178496, "global_step/max_steps": "12416/12700"}
{"lm loss": 2.05266571, "grad_norm": 0.30798405, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.85383129, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 11s", "remaining_time": "23m 5s", "loss_scale": 1.0, "consumed_samples": 3178752, "global_step/max_steps": "12417/12700"}
{"lm loss": 2.02424788, "grad_norm": 0.31186637, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.80663896, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 16s", "remaining_time": "23m 0s", "loss_scale": 1.0, "consumed_samples": 3179008, "global_step/max_steps": "12418/12700"}
{"lm loss": 2.01434517, "grad_norm": 0.29862279, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.87788177, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 21s", "remaining_time": "22m 55s", "loss_scale": 1.0, "consumed_samples": 3179264, "global_step/max_steps": "12419/12700"}
{"lm loss": 2.06445122, "grad_norm": 0.32521164, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.97218776, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 26s", "remaining_time": "22m 50s", "loss_scale": 1.0, "consumed_samples": 3179520, "global_step/max_steps": "12420/12700"}
{"lm loss": 2.03223515, "grad_norm": 0.32519981, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.96631956, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 31s", "remaining_time": "22m 45s", "loss_scale": 1.0, "consumed_samples": 3179776, "global_step/max_steps": "12421/12700"}
{"lm loss": 2.02305722, "grad_norm": 0.30681556, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.83759928, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 36s", "remaining_time": "22m 41s", "loss_scale": 1.0, "consumed_samples": 3180032, "global_step/max_steps": "12422/12700"}
{"lm loss": 2.05434346, "grad_norm": 0.30834848, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.85001302, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 40s", "remaining_time": "22m 36s", "loss_scale": 1.0, "consumed_samples": 3180288, "global_step/max_steps": "12423/12700"}
{"lm loss": 2.04192567, "grad_norm": 0.30152506, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.91900563, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 45s", "remaining_time": "22m 31s", "loss_scale": 1.0, "consumed_samples": 3180544, "global_step/max_steps": "12424/12700"}
{"lm loss": 2.01565146, "grad_norm": 0.29983434, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.9755168, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 50s", "remaining_time": "22m 26s", "loss_scale": 1.0, "consumed_samples": 3180800, "global_step/max_steps": "12425/12700"}
{"lm loss": 2.06051993, "grad_norm": 0.29926538, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.94420671, "memory(GiB)": 28.98, "elapsed_time": "16h 53m 55s", "remaining_time": "22m 21s", "loss_scale": 1.0, "consumed_samples": 3181056, "global_step/max_steps": "12426/12700"}
{"lm loss": 2.02641153, "grad_norm": 0.29336667, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.90943408, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 0s", "remaining_time": "22m 16s", "loss_scale": 1.0, "consumed_samples": 3181312, "global_step/max_steps": "12427/12700"}
{"lm loss": 2.0324924, "grad_norm": 0.3072933, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.85004306, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 5s", "remaining_time": "22m 11s", "loss_scale": 1.0, "consumed_samples": 3181568, "global_step/max_steps": "12428/12700"}
{"lm loss": 1.99114096, "grad_norm": 0.32889012, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.87434101, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 10s", "remaining_time": "22m 6s", "loss_scale": 1.0, "consumed_samples": 3181824, "global_step/max_steps": "12429/12700"}
{"lm loss": 1.96879363, "grad_norm": 0.31739259, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.80556488, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 15s", "remaining_time": "22m 1s", "loss_scale": 1.0, "consumed_samples": 3182080, "global_step/max_steps": "12430/12700"}
{"lm loss": 2.03946733, "grad_norm": 0.31182492, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.89925408, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 20s", "remaining_time": "21m 56s", "loss_scale": 1.0, "consumed_samples": 3182336, "global_step/max_steps": "12431/12700"}
{"lm loss": 2.05155134, "grad_norm": 0.30993578, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.9297173, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 25s", "remaining_time": "21m 52s", "loss_scale": 1.0, "consumed_samples": 3182592, "global_step/max_steps": "12432/12700"}
{"lm loss": 2.05447102, "grad_norm": 0.30423117, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.91567373, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 30s", "remaining_time": "21m 47s", "loss_scale": 1.0, "consumed_samples": 3182848, "global_step/max_steps": "12433/12700"}
{"lm loss": 2.05196714, "grad_norm": 0.3157081, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.87677073, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 34s", "remaining_time": "21m 42s", "loss_scale": 1.0, "consumed_samples": 3183104, "global_step/max_steps": "12434/12700"}
{"lm loss": 2.02253318, "grad_norm": 0.30845818, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.92344141, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 39s", "remaining_time": "21m 37s", "loss_scale": 1.0, "consumed_samples": 3183360, "global_step/max_steps": "12435/12700"}
{"lm loss": 2.0562849, "grad_norm": 0.31031916, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.94715118, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 44s", "remaining_time": "21m 32s", "loss_scale": 1.0, "consumed_samples": 3183616, "global_step/max_steps": "12436/12700"}
{"lm loss": 2.02118182, "grad_norm": 0.30507985, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.92756629, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 49s", "remaining_time": "21m 27s", "loss_scale": 1.0, "consumed_samples": 3183872, "global_step/max_steps": "12437/12700"}
{"lm loss": 2.03534746, "grad_norm": 0.32439393, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.84078121, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 54s", "remaining_time": "21m 22s", "loss_scale": 1.0, "consumed_samples": 3184128, "global_step/max_steps": "12438/12700"}
{"lm loss": 2.05292678, "grad_norm": 0.31974947, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.89544773, "memory(GiB)": 28.98, "elapsed_time": "16h 54m 59s", "remaining_time": "21m 17s", "loss_scale": 1.0, "consumed_samples": 3184384, "global_step/max_steps": "12439/12700"}
{"lm loss": 2.00146341, "grad_norm": 0.30078954, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.8547287, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 4s", "remaining_time": "21m 12s", "loss_scale": 1.0, "consumed_samples": 3184640, "global_step/max_steps": "12440/12700"}
{"lm loss": 2.04002428, "grad_norm": 0.31875271, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.85445857, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 9s", "remaining_time": "21m 8s", "loss_scale": 1.0, "consumed_samples": 3184896, "global_step/max_steps": "12441/12700"}
{"lm loss": 1.9942584, "grad_norm": 0.30531323, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.84405065, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 13s", "remaining_time": "21m 3s", "loss_scale": 1.0, "consumed_samples": 3185152, "global_step/max_steps": "12442/12700"}
{"lm loss": 2.04724431, "grad_norm": 0.30954322, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.88978148, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 18s", "remaining_time": "20m 58s", "loss_scale": 1.0, "consumed_samples": 3185408, "global_step/max_steps": "12443/12700"}
{"lm loss": 2.00765491, "grad_norm": 0.31745321, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.94665074, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 23s", "remaining_time": "20m 53s", "loss_scale": 1.0, "consumed_samples": 3185664, "global_step/max_steps": "12444/12700"}
{"lm loss": 2.0425899, "grad_norm": 0.33140445, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.95142174, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 28s", "remaining_time": "20m 48s", "loss_scale": 1.0, "consumed_samples": 3185920, "global_step/max_steps": "12445/12700"}
{"lm loss": 2.00864148, "grad_norm": 0.31591332, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.9170928, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 33s", "remaining_time": "20m 43s", "loss_scale": 1.0, "consumed_samples": 3186176, "global_step/max_steps": "12446/12700"}
{"lm loss": 2.02520132, "grad_norm": 0.31733474, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.88232493, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 38s", "remaining_time": "20m 38s", "loss_scale": 1.0, "consumed_samples": 3186432, "global_step/max_steps": "12447/12700"}
{"lm loss": 2.02933145, "grad_norm": 0.31995517, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.86957502, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 43s", "remaining_time": "20m 33s", "loss_scale": 1.0, "consumed_samples": 3186688, "global_step/max_steps": "12448/12700"}
{"lm loss": 2.04188609, "grad_norm": 0.32489201, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.83439279, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 48s", "remaining_time": "20m 28s", "loss_scale": 1.0, "consumed_samples": 3186944, "global_step/max_steps": "12449/12700"}
{"lm loss": 2.04522729, "grad_norm": 0.29897425, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.99980283, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 53s", "remaining_time": "20m 23s", "loss_scale": 1.0, "consumed_samples": 3187200, "global_step/max_steps": "12450/12700"}
{"lm loss": 1.9955101, "grad_norm": 0.31245738, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.86029172, "memory(GiB)": 28.98, "elapsed_time": "16h 55m 58s", "remaining_time": "20m 19s", "loss_scale": 1.0, "consumed_samples": 3187456, "global_step/max_steps": "12451/12700"}
{"lm loss": 2.05185723, "grad_norm": 0.34802398, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.9176898, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 3s", "remaining_time": "20m 14s", "loss_scale": 1.0, "consumed_samples": 3187712, "global_step/max_steps": "12452/12700"}
{"lm loss": 2.01226783, "grad_norm": 0.30741817, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.89451408, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 7s", "remaining_time": "20m 9s", "loss_scale": 1.0, "consumed_samples": 3187968, "global_step/max_steps": "12453/12700"}
{"lm loss": 2.00640249, "grad_norm": 0.318445, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.89201188, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 12s", "remaining_time": "20m 4s", "loss_scale": 1.0, "consumed_samples": 3188224, "global_step/max_steps": "12454/12700"}
{"lm loss": 2.03408933, "grad_norm": 0.30925032, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.91416407, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 17s", "remaining_time": "19m 59s", "loss_scale": 1.0, "consumed_samples": 3188480, "global_step/max_steps": "12455/12700"}
{"lm loss": 2.00915289, "grad_norm": 0.33079773, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.92516375, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 22s", "remaining_time": "19m 54s", "loss_scale": 1.0, "consumed_samples": 3188736, "global_step/max_steps": "12456/12700"}
{"lm loss": 2.02491355, "grad_norm": 0.30603325, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.87715745, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 27s", "remaining_time": "19m 49s", "loss_scale": 1.0, "consumed_samples": 3188992, "global_step/max_steps": "12457/12700"}
{"lm loss": 2.04681563, "grad_norm": 0.32929978, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.84170341, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 32s", "remaining_time": "19m 44s", "loss_scale": 1.0, "consumed_samples": 3189248, "global_step/max_steps": "12458/12700"}
{"lm loss": 2.0182941, "grad_norm": 0.30854401, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.91031575, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 37s", "remaining_time": "19m 39s", "loss_scale": 1.0, "consumed_samples": 3189504, "global_step/max_steps": "12459/12700"}
{"lm loss": 2.03399348, "grad_norm": 0.31478199, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.90499449, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 42s", "remaining_time": "19m 35s", "loss_scale": 1.0, "consumed_samples": 3189760, "global_step/max_steps": "12460/12700"}
{"lm loss": 2.03813887, "grad_norm": 0.29347491, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.92090368, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 47s", "remaining_time": "19m 30s", "loss_scale": 1.0, "consumed_samples": 3190016, "global_step/max_steps": "12461/12700"}
{"lm loss": 2.06699729, "grad_norm": 0.31618643, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.88401079, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 52s", "remaining_time": "19m 25s", "loss_scale": 1.0, "consumed_samples": 3190272, "global_step/max_steps": "12462/12700"}
{"lm loss": 2.03472424, "grad_norm": 0.31520218, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.90540528, "memory(GiB)": 28.98, "elapsed_time": "16h 56m 56s", "remaining_time": "19m 20s", "loss_scale": 1.0, "consumed_samples": 3190528, "global_step/max_steps": "12463/12700"}
{"lm loss": 2.01059818, "grad_norm": 0.30809501, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.91145611, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 1s", "remaining_time": "19m 15s", "loss_scale": 1.0, "consumed_samples": 3190784, "global_step/max_steps": "12464/12700"}
{"lm loss": 2.0417738, "grad_norm": 0.30336604, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.94898129, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 6s", "remaining_time": "19m 10s", "loss_scale": 1.0, "consumed_samples": 3191040, "global_step/max_steps": "12465/12700"}
{"lm loss": 2.02289963, "grad_norm": 0.32913843, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.83934784, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 11s", "remaining_time": "19m 5s", "loss_scale": 1.0, "consumed_samples": 3191296, "global_step/max_steps": "12466/12700"}
{"lm loss": 2.03487968, "grad_norm": 0.32901487, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.89946771, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 16s", "remaining_time": "19m 0s", "loss_scale": 1.0, "consumed_samples": 3191552, "global_step/max_steps": "12467/12700"}
{"lm loss": 2.02843571, "grad_norm": 0.32403514, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.83934832, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 21s", "remaining_time": "18m 55s", "loss_scale": 1.0, "consumed_samples": 3191808, "global_step/max_steps": "12468/12700"}
{"lm loss": 2.01575851, "grad_norm": 0.32629561, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.91965342, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 26s", "remaining_time": "18m 50s", "loss_scale": 1.0, "consumed_samples": 3192064, "global_step/max_steps": "12469/12700"}
{"lm loss": 2.01234412, "grad_norm": 0.30604517, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.89731812, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 31s", "remaining_time": "18m 46s", "loss_scale": 1.0, "consumed_samples": 3192320, "global_step/max_steps": "12470/12700"}
{"lm loss": 2.02061987, "grad_norm": 0.31613356, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.88923979, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 36s", "remaining_time": "18m 41s", "loss_scale": 1.0, "consumed_samples": 3192576, "global_step/max_steps": "12471/12700"}
{"lm loss": 2.06698895, "grad_norm": 0.32966518, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.84428596, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 40s", "remaining_time": "18m 36s", "loss_scale": 1.0, "consumed_samples": 3192832, "global_step/max_steps": "12472/12700"}
{"lm loss": 2.07134342, "grad_norm": 0.31206521, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.88661647, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 45s", "remaining_time": "18m 31s", "loss_scale": 1.0, "consumed_samples": 3193088, "global_step/max_steps": "12473/12700"}
{"lm loss": 2.00124884, "grad_norm": 0.31569698, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.87977719, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 50s", "remaining_time": "18m 26s", "loss_scale": 1.0, "consumed_samples": 3193344, "global_step/max_steps": "12474/12700"}
{"lm loss": 2.04613209, "grad_norm": 0.32456732, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.89397097, "memory(GiB)": 28.98, "elapsed_time": "16h 57m 55s", "remaining_time": "18m 21s", "loss_scale": 1.0, "consumed_samples": 3193600, "global_step/max_steps": "12475/12700"}
{"lm loss": 2.05486298, "grad_norm": 0.30584198, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.83257246, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 0s", "remaining_time": "18m 16s", "loss_scale": 1.0, "consumed_samples": 3193856, "global_step/max_steps": "12476/12700"}
{"lm loss": 2.04365587, "grad_norm": 0.31428257, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.83762717, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 5s", "remaining_time": "18m 11s", "loss_scale": 1.0, "consumed_samples": 3194112, "global_step/max_steps": "12477/12700"}
{"lm loss": 2.03516793, "grad_norm": 0.32948768, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.8430016, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 10s", "remaining_time": "18m 6s", "loss_scale": 1.0, "consumed_samples": 3194368, "global_step/max_steps": "12478/12700"}
{"lm loss": 2.02927065, "grad_norm": 0.30803406, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.86187506, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 14s", "remaining_time": "18m 1s", "loss_scale": 1.0, "consumed_samples": 3194624, "global_step/max_steps": "12479/12700"}
{"lm loss": 2.01111794, "grad_norm": 0.3177951, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.85161567, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 19s", "remaining_time": "17m 57s", "loss_scale": 1.0, "consumed_samples": 3194880, "global_step/max_steps": "12480/12700"}
{"lm loss": 2.0581944, "grad_norm": 0.29823792, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.84837413, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 24s", "remaining_time": "17m 52s", "loss_scale": 1.0, "consumed_samples": 3195136, "global_step/max_steps": "12481/12700"}
{"lm loss": 2.0062685, "grad_norm": 0.29976246, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.93710566, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 29s", "remaining_time": "17m 47s", "loss_scale": 1.0, "consumed_samples": 3195392, "global_step/max_steps": "12482/12700"}
{"lm loss": 2.03082371, "grad_norm": 0.2921873, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.83515429, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 34s", "remaining_time": "17m 42s", "loss_scale": 1.0, "consumed_samples": 3195648, "global_step/max_steps": "12483/12700"}
{"lm loss": 2.04633737, "grad_norm": 0.30104432, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.87524915, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 39s", "remaining_time": "17m 37s", "loss_scale": 1.0, "consumed_samples": 3195904, "global_step/max_steps": "12484/12700"}
{"lm loss": 2.03275347, "grad_norm": 0.29050332, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.89228368, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 44s", "remaining_time": "17m 32s", "loss_scale": 1.0, "consumed_samples": 3196160, "global_step/max_steps": "12485/12700"}
{"lm loss": 2.05356669, "grad_norm": 0.30182981, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.8917172, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 49s", "remaining_time": "17m 27s", "loss_scale": 1.0, "consumed_samples": 3196416, "global_step/max_steps": "12486/12700"}
{"lm loss": 2.031183, "grad_norm": 0.31426013, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.95608377, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 54s", "remaining_time": "17m 22s", "loss_scale": 1.0, "consumed_samples": 3196672, "global_step/max_steps": "12487/12700"}
{"lm loss": 2.02560997, "grad_norm": 0.32836619, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 5.01448345, "memory(GiB)": 28.98, "elapsed_time": "16h 58m 59s", "remaining_time": "17m 17s", "loss_scale": 1.0, "consumed_samples": 3196928, "global_step/max_steps": "12488/12700"}
{"lm loss": 2.04967713, "grad_norm": 0.30344796, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.91073155, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 3s", "remaining_time": "17m 13s", "loss_scale": 1.0, "consumed_samples": 3197184, "global_step/max_steps": "12489/12700"}
{"lm loss": 2.00758648, "grad_norm": 0.30976939, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.8955524, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 8s", "remaining_time": "17m 8s", "loss_scale": 1.0, "consumed_samples": 3197440, "global_step/max_steps": "12490/12700"}
{"lm loss": 2.05621862, "grad_norm": 0.32556772, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.83569217, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 13s", "remaining_time": "17m 3s", "loss_scale": 1.0, "consumed_samples": 3197696, "global_step/max_steps": "12491/12700"}
{"lm loss": 2.0511148, "grad_norm": 0.2969802, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.81075788, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 18s", "remaining_time": "16m 58s", "loss_scale": 1.0, "consumed_samples": 3197952, "global_step/max_steps": "12492/12700"}
{"lm loss": 2.02985835, "grad_norm": 0.29736015, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.80120778, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 23s", "remaining_time": "16m 53s", "loss_scale": 1.0, "consumed_samples": 3198208, "global_step/max_steps": "12493/12700"}
{"lm loss": 2.02126765, "grad_norm": 0.30729386, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.88285804, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 28s", "remaining_time": "16m 48s", "loss_scale": 1.0, "consumed_samples": 3198464, "global_step/max_steps": "12494/12700"}
{"lm loss": 2.03501844, "grad_norm": 0.31338254, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.79185605, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 32s", "remaining_time": "16m 43s", "loss_scale": 1.0, "consumed_samples": 3198720, "global_step/max_steps": "12495/12700"}
{"lm loss": 2.04965115, "grad_norm": 0.32699782, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.90695786, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 37s", "remaining_time": "16m 38s", "loss_scale": 1.0, "consumed_samples": 3198976, "global_step/max_steps": "12496/12700"}
{"lm loss": 2.02764678, "grad_norm": 0.31703582, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.75973821, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 42s", "remaining_time": "16m 33s", "loss_scale": 1.0, "consumed_samples": 3199232, "global_step/max_steps": "12497/12700"}
{"lm loss": 2.03985572, "grad_norm": 0.30365279, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.80697799, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 47s", "remaining_time": "16m 28s", "loss_scale": 1.0, "consumed_samples": 3199488, "global_step/max_steps": "12498/12700"}
{"lm loss": 2.01286602, "grad_norm": 0.31455293, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.8004632, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 52s", "remaining_time": "16m 24s", "loss_scale": 1.0, "consumed_samples": 3199744, "global_step/max_steps": "12499/12700"}
{"lm loss": 2.02935791, "grad_norm": 0.30332953, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.95089555, "memory(GiB)": 28.98, "elapsed_time": "16h 59m 57s", "remaining_time": "16m 19s", "loss_scale": 1.0, "consumed_samples": 3200000, "global_step/max_steps": "12500/12700"}
{"lm loss": 2.00940537, "grad_norm": 0.31362817, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.86330152, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 2s", "remaining_time": "16m 14s", "loss_scale": 1.0, "consumed_samples": 3200256, "global_step/max_steps": "12501/12700"}
{"lm loss": 2.02210093, "grad_norm": 0.29637313, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.93876624, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 6s", "remaining_time": "16m 9s", "loss_scale": 1.0, "consumed_samples": 3200512, "global_step/max_steps": "12502/12700"}
{"lm loss": 2.04648042, "grad_norm": 0.32524371, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.78327036, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 11s", "remaining_time": "16m 4s", "loss_scale": 1.0, "consumed_samples": 3200768, "global_step/max_steps": "12503/12700"}
{"lm loss": 2.03344798, "grad_norm": 0.2981303, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.82236719, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 16s", "remaining_time": "15m 59s", "loss_scale": 1.0, "consumed_samples": 3201024, "global_step/max_steps": "12504/12700"}
{"lm loss": 2.03227782, "grad_norm": 0.32851356, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.88859057, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 21s", "remaining_time": "15m 54s", "loss_scale": 1.0, "consumed_samples": 3201280, "global_step/max_steps": "12505/12700"}
{"lm loss": 2.04413009, "grad_norm": 0.31698284, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.84938097, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 26s", "remaining_time": "15m 49s", "loss_scale": 1.0, "consumed_samples": 3201536, "global_step/max_steps": "12506/12700"}
{"lm loss": 2.05064416, "grad_norm": 0.30388537, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.93070817, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 31s", "remaining_time": "15m 44s", "loss_scale": 1.0, "consumed_samples": 3201792, "global_step/max_steps": "12507/12700"}
{"lm loss": 2.00708342, "grad_norm": 0.31416684, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.80471611, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 36s", "remaining_time": "15m 39s", "loss_scale": 1.0, "consumed_samples": 3202048, "global_step/max_steps": "12508/12700"}
{"lm loss": 2.04284358, "grad_norm": 0.3314527, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.81111932, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 40s", "remaining_time": "15m 35s", "loss_scale": 1.0, "consumed_samples": 3202304, "global_step/max_steps": "12509/12700"}
{"lm loss": 2.011621, "grad_norm": 0.32346869, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.86515975, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 45s", "remaining_time": "15m 30s", "loss_scale": 1.0, "consumed_samples": 3202560, "global_step/max_steps": "12510/12700"}
{"lm loss": 2.03286362, "grad_norm": 0.33503643, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.90415955, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 50s", "remaining_time": "15m 25s", "loss_scale": 1.0, "consumed_samples": 3202816, "global_step/max_steps": "12511/12700"}
{"lm loss": 2.05941296, "grad_norm": 0.34028837, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.98321414, "memory(GiB)": 28.98, "elapsed_time": "17h 0m 55s", "remaining_time": "15m 20s", "loss_scale": 1.0, "consumed_samples": 3203072, "global_step/max_steps": "12512/12700"}
{"lm loss": 2.03518796, "grad_norm": 0.31871843, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.86035347, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 0s", "remaining_time": "15m 15s", "loss_scale": 1.0, "consumed_samples": 3203328, "global_step/max_steps": "12513/12700"}
{"lm loss": 2.05673766, "grad_norm": 0.33093849, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.89066315, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 5s", "remaining_time": "15m 10s", "loss_scale": 1.0, "consumed_samples": 3203584, "global_step/max_steps": "12514/12700"}
{"lm loss": 2.0380187, "grad_norm": 0.31121731, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.89634299, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 10s", "remaining_time": "15m 5s", "loss_scale": 1.0, "consumed_samples": 3203840, "global_step/max_steps": "12515/12700"}
{"lm loss": 2.04103136, "grad_norm": 0.30796701, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.84490752, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 15s", "remaining_time": "15m 0s", "loss_scale": 1.0, "consumed_samples": 3204096, "global_step/max_steps": "12516/12700"}
{"lm loss": 2.03548717, "grad_norm": 0.29899263, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.91554332, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 20s", "remaining_time": "14m 55s", "loss_scale": 1.0, "consumed_samples": 3204352, "global_step/max_steps": "12517/12700"}
{"lm loss": 2.06504154, "grad_norm": 0.3172929, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.84182191, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 24s", "remaining_time": "14m 51s", "loss_scale": 1.0, "consumed_samples": 3204608, "global_step/max_steps": "12518/12700"}
{"lm loss": 2.03029346, "grad_norm": 0.31366235, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.83488274, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 29s", "remaining_time": "14m 46s", "loss_scale": 1.0, "consumed_samples": 3204864, "global_step/max_steps": "12519/12700"}
{"lm loss": 2.00954723, "grad_norm": 0.29862285, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.91583705, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 34s", "remaining_time": "14m 41s", "loss_scale": 1.0, "consumed_samples": 3205120, "global_step/max_steps": "12520/12700"}
{"lm loss": 2.04304886, "grad_norm": 0.31835696, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.86877203, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 39s", "remaining_time": "14m 36s", "loss_scale": 1.0, "consumed_samples": 3205376, "global_step/max_steps": "12521/12700"}
{"lm loss": 2.06370473, "grad_norm": 0.30834466, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.98375297, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 44s", "remaining_time": "14m 31s", "loss_scale": 1.0, "consumed_samples": 3205632, "global_step/max_steps": "12522/12700"}
{"lm loss": 2.02778745, "grad_norm": 0.30783439, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.84630585, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 49s", "remaining_time": "14m 26s", "loss_scale": 1.0, "consumed_samples": 3205888, "global_step/max_steps": "12523/12700"}
{"lm loss": 2.00005198, "grad_norm": 0.31927744, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.86299586, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 54s", "remaining_time": "14m 21s", "loss_scale": 1.0, "consumed_samples": 3206144, "global_step/max_steps": "12524/12700"}
{"lm loss": 2.02629375, "grad_norm": 0.30943757, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.84464931, "memory(GiB)": 28.98, "elapsed_time": "17h 1m 59s", "remaining_time": "14m 16s", "loss_scale": 1.0, "consumed_samples": 3206400, "global_step/max_steps": "12525/12700"}
{"lm loss": 2.05084729, "grad_norm": 0.2940321, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.86792397, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 3s", "remaining_time": "14m 11s", "loss_scale": 1.0, "consumed_samples": 3206656, "global_step/max_steps": "12526/12700"}
{"lm loss": 2.04669046, "grad_norm": 0.32068288, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.89502621, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 8s", "remaining_time": "14m 6s", "loss_scale": 1.0, "consumed_samples": 3206912, "global_step/max_steps": "12527/12700"}
{"lm loss": 2.03725147, "grad_norm": 0.30373532, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.82701063, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 13s", "remaining_time": "14m 2s", "loss_scale": 1.0, "consumed_samples": 3207168, "global_step/max_steps": "12528/12700"}
{"lm loss": 2.02981472, "grad_norm": 0.30471516, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.93648529, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 18s", "remaining_time": "13m 57s", "loss_scale": 1.0, "consumed_samples": 3207424, "global_step/max_steps": "12529/12700"}
{"lm loss": 2.02316594, "grad_norm": 0.30567905, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.88345408, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 23s", "remaining_time": "13m 52s", "loss_scale": 1.0, "consumed_samples": 3207680, "global_step/max_steps": "12530/12700"}
{"lm loss": 2.06661916, "grad_norm": 0.31907871, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.83540487, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 28s", "remaining_time": "13m 47s", "loss_scale": 1.0, "consumed_samples": 3207936, "global_step/max_steps": "12531/12700"}
{"lm loss": 2.04902887, "grad_norm": 0.31676415, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.91143394, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 33s", "remaining_time": "13m 42s", "loss_scale": 1.0, "consumed_samples": 3208192, "global_step/max_steps": "12532/12700"}
{"lm loss": 2.02996278, "grad_norm": 0.3171027, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.84093666, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 38s", "remaining_time": "13m 37s", "loss_scale": 1.0, "consumed_samples": 3208448, "global_step/max_steps": "12533/12700"}
{"lm loss": 2.04564905, "grad_norm": 0.32498762, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.83004403, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 42s", "remaining_time": "13m 32s", "loss_scale": 1.0, "consumed_samples": 3208704, "global_step/max_steps": "12534/12700"}
{"lm loss": 2.03434229, "grad_norm": 0.30060533, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.91790438, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 47s", "remaining_time": "13m 27s", "loss_scale": 1.0, "consumed_samples": 3208960, "global_step/max_steps": "12535/12700"}
{"lm loss": 2.03312206, "grad_norm": 0.31246382, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.87496471, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 52s", "remaining_time": "13m 22s", "loss_scale": 1.0, "consumed_samples": 3209216, "global_step/max_steps": "12536/12700"}
{"lm loss": 2.03439641, "grad_norm": 0.31575832, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.9293673, "memory(GiB)": 28.98, "elapsed_time": "17h 2m 57s", "remaining_time": "13m 18s", "loss_scale": 1.0, "consumed_samples": 3209472, "global_step/max_steps": "12537/12700"}
{"lm loss": 2.02869105, "grad_norm": 0.3271389, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.8449378, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 2s", "remaining_time": "13m 13s", "loss_scale": 1.0, "consumed_samples": 3209728, "global_step/max_steps": "12538/12700"}
{"lm loss": 2.02832961, "grad_norm": 0.31739223, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.87193394, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 7s", "remaining_time": "13m 8s", "loss_scale": 1.0, "consumed_samples": 3209984, "global_step/max_steps": "12539/12700"}
{"lm loss": 2.0470953, "grad_norm": 0.3217901, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.85126877, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 12s", "remaining_time": "13m 3s", "loss_scale": 1.0, "consumed_samples": 3210240, "global_step/max_steps": "12540/12700"}
{"lm loss": 2.03747749, "grad_norm": 0.29814437, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.96222496, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 17s", "remaining_time": "12m 58s", "loss_scale": 1.0, "consumed_samples": 3210496, "global_step/max_steps": "12541/12700"}
{"lm loss": 2.03156066, "grad_norm": 0.31370929, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.89538121, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 22s", "remaining_time": "12m 53s", "loss_scale": 1.0, "consumed_samples": 3210752, "global_step/max_steps": "12542/12700"}
{"lm loss": 2.00489163, "grad_norm": 0.3097353, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.88656259, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 26s", "remaining_time": "12m 48s", "loss_scale": 1.0, "consumed_samples": 3211008, "global_step/max_steps": "12543/12700"}
{"lm loss": 2.04827595, "grad_norm": 0.30372414, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.88238955, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 31s", "remaining_time": "12m 43s", "loss_scale": 1.0, "consumed_samples": 3211264, "global_step/max_steps": "12544/12700"}
{"lm loss": 2.04823256, "grad_norm": 0.31817505, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.8423562, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 36s", "remaining_time": "12m 38s", "loss_scale": 1.0, "consumed_samples": 3211520, "global_step/max_steps": "12545/12700"}
{"lm loss": 2.09182048, "grad_norm": 0.32798365, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.90018868, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 41s", "remaining_time": "12m 33s", "loss_scale": 1.0, "consumed_samples": 3211776, "global_step/max_steps": "12546/12700"}
{"lm loss": 2.02000785, "grad_norm": 0.31643626, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.90531802, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 46s", "remaining_time": "12m 29s", "loss_scale": 1.0, "consumed_samples": 3212032, "global_step/max_steps": "12547/12700"}
{"lm loss": 2.03007054, "grad_norm": 0.30164766, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.87526846, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 51s", "remaining_time": "12m 24s", "loss_scale": 1.0, "consumed_samples": 3212288, "global_step/max_steps": "12548/12700"}
{"lm loss": 2.01230907, "grad_norm": 0.32141209, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.89684343, "memory(GiB)": 28.98, "elapsed_time": "17h 3m 56s", "remaining_time": "12m 19s", "loss_scale": 1.0, "consumed_samples": 3212544, "global_step/max_steps": "12549/12700"}
{"lm loss": 2.01681852, "grad_norm": 0.3042486, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.7927866, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 0s", "remaining_time": "12m 14s", "loss_scale": 1.0, "consumed_samples": 3212800, "global_step/max_steps": "12550/12700"}
{"lm loss": 2.0555141, "grad_norm": 0.30937472, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.98477435, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 5s", "remaining_time": "12m 9s", "loss_scale": 1.0, "consumed_samples": 3213056, "global_step/max_steps": "12551/12700"}
{"lm loss": 2.0491116, "grad_norm": 0.31573522, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 5.03644896, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 11s", "remaining_time": "12m 4s", "loss_scale": 1.0, "consumed_samples": 3213312, "global_step/max_steps": "12552/12700"}
{"lm loss": 2.02714062, "grad_norm": 0.31898248, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.94630241, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 15s", "remaining_time": "11m 59s", "loss_scale": 1.0, "consumed_samples": 3213568, "global_step/max_steps": "12553/12700"}
{"lm loss": 2.00117946, "grad_norm": 0.32797045, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.90909338, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 20s", "remaining_time": "11m 54s", "loss_scale": 1.0, "consumed_samples": 3213824, "global_step/max_steps": "12554/12700"}
{"lm loss": 2.01326776, "grad_norm": 0.33787873, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.95049405, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 25s", "remaining_time": "11m 49s", "loss_scale": 1.0, "consumed_samples": 3214080, "global_step/max_steps": "12555/12700"}
{"lm loss": 2.023592, "grad_norm": 0.30930853, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.93594384, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 30s", "remaining_time": "11m 44s", "loss_scale": 1.0, "consumed_samples": 3214336, "global_step/max_steps": "12556/12700"}
{"lm loss": 2.0379076, "grad_norm": 0.30096313, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.80968213, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 35s", "remaining_time": "11m 40s", "loss_scale": 1.0, "consumed_samples": 3214592, "global_step/max_steps": "12557/12700"}
{"lm loss": 2.03958654, "grad_norm": 0.30314386, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.89432788, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 40s", "remaining_time": "11m 35s", "loss_scale": 1.0, "consumed_samples": 3214848, "global_step/max_steps": "12558/12700"}
{"lm loss": 2.03874302, "grad_norm": 0.31589442, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 5.00510931, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 45s", "remaining_time": "11m 30s", "loss_scale": 1.0, "consumed_samples": 3215104, "global_step/max_steps": "12559/12700"}
{"lm loss": 2.03216863, "grad_norm": 0.3091681, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.88519692, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 50s", "remaining_time": "11m 25s", "loss_scale": 1.0, "consumed_samples": 3215360, "global_step/max_steps": "12560/12700"}
{"lm loss": 2.01927161, "grad_norm": 0.30180928, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.92242479, "memory(GiB)": 28.98, "elapsed_time": "17h 4m 55s", "remaining_time": "11m 20s", "loss_scale": 1.0, "consumed_samples": 3215616, "global_step/max_steps": "12561/12700"}
{"lm loss": 2.02588224, "grad_norm": 0.30527398, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.85096884, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 0s", "remaining_time": "11m 15s", "loss_scale": 1.0, "consumed_samples": 3215872, "global_step/max_steps": "12562/12700"}
{"lm loss": 2.02647638, "grad_norm": 0.30524769, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.813555, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 4s", "remaining_time": "11m 10s", "loss_scale": 1.0, "consumed_samples": 3216128, "global_step/max_steps": "12563/12700"}
{"lm loss": 2.05640197, "grad_norm": 0.34140891, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.95531631, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 9s", "remaining_time": "11m 5s", "loss_scale": 1.0, "consumed_samples": 3216384, "global_step/max_steps": "12564/12700"}
{"lm loss": 2.0304985, "grad_norm": 0.29884675, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.99540782, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 14s", "remaining_time": "11m 0s", "loss_scale": 1.0, "consumed_samples": 3216640, "global_step/max_steps": "12565/12700"}
{"lm loss": 1.99008858, "grad_norm": 0.31430599, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.91622806, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 19s", "remaining_time": "10m 56s", "loss_scale": 1.0, "consumed_samples": 3216896, "global_step/max_steps": "12566/12700"}
{"lm loss": 2.05003452, "grad_norm": 0.30892354, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.98426843, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 24s", "remaining_time": "10m 51s", "loss_scale": 1.0, "consumed_samples": 3217152, "global_step/max_steps": "12567/12700"}
{"lm loss": 2.0144074, "grad_norm": 0.31424174, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.9723959, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 29s", "remaining_time": "10m 46s", "loss_scale": 1.0, "consumed_samples": 3217408, "global_step/max_steps": "12568/12700"}
{"lm loss": 2.009408, "grad_norm": 0.30954176, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.73535371, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 34s", "remaining_time": "10m 41s", "loss_scale": 1.0, "consumed_samples": 3217664, "global_step/max_steps": "12569/12700"}
{"lm loss": 2.00664663, "grad_norm": 0.31330636, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.93825674, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 39s", "remaining_time": "10m 36s", "loss_scale": 1.0, "consumed_samples": 3217920, "global_step/max_steps": "12570/12700"}
{"lm loss": 2.00000834, "grad_norm": 0.31384274, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.82600379, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 44s", "remaining_time": "10m 31s", "loss_scale": 1.0, "consumed_samples": 3218176, "global_step/max_steps": "12571/12700"}
{"lm loss": 2.01615906, "grad_norm": 0.31685418, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.83525109, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 49s", "remaining_time": "10m 26s", "loss_scale": 1.0, "consumed_samples": 3218432, "global_step/max_steps": "12572/12700"}
{"lm loss": 2.03045321, "grad_norm": 0.30818364, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.85006714, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 53s", "remaining_time": "10m 21s", "loss_scale": 1.0, "consumed_samples": 3218688, "global_step/max_steps": "12573/12700"}
{"lm loss": 2.03366184, "grad_norm": 0.33367261, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.75883412, "memory(GiB)": 28.98, "elapsed_time": "17h 5m 58s", "remaining_time": "10m 16s", "loss_scale": 1.0, "consumed_samples": 3218944, "global_step/max_steps": "12574/12700"}
{"lm loss": 1.98651528, "grad_norm": 0.33460322, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.8671968, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 3s", "remaining_time": "10m 11s", "loss_scale": 1.0, "consumed_samples": 3219200, "global_step/max_steps": "12575/12700"}
{"lm loss": 2.0140748, "grad_norm": 0.31374836, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.87688398, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 8s", "remaining_time": "10m 7s", "loss_scale": 1.0, "consumed_samples": 3219456, "global_step/max_steps": "12576/12700"}
{"lm loss": 2.03446841, "grad_norm": 0.32028651, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.8987577, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 13s", "remaining_time": "10m 2s", "loss_scale": 1.0, "consumed_samples": 3219712, "global_step/max_steps": "12577/12700"}
{"lm loss": 2.00382543, "grad_norm": 0.30768076, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.89828825, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 18s", "remaining_time": "9m 57s", "loss_scale": 1.0, "consumed_samples": 3219968, "global_step/max_steps": "12578/12700"}
{"lm loss": 2.02001071, "grad_norm": 0.29912332, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.85792279, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 23s", "remaining_time": "9m 52s", "loss_scale": 1.0, "consumed_samples": 3220224, "global_step/max_steps": "12579/12700"}
{"lm loss": 2.00162244, "grad_norm": 0.29946259, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.82981348, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 27s", "remaining_time": "9m 47s", "loss_scale": 1.0, "consumed_samples": 3220480, "global_step/max_steps": "12580/12700"}
{"lm loss": 2.06978154, "grad_norm": 0.29370517, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.74292803, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 32s", "remaining_time": "9m 42s", "loss_scale": 1.0, "consumed_samples": 3220736, "global_step/max_steps": "12581/12700"}
{"lm loss": 2.05703688, "grad_norm": 0.31928974, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.91957211, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 37s", "remaining_time": "9m 37s", "loss_scale": 1.0, "consumed_samples": 3220992, "global_step/max_steps": "12582/12700"}
{"lm loss": 2.02699757, "grad_norm": 0.29863566, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.91027284, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 42s", "remaining_time": "9m 32s", "loss_scale": 1.0, "consumed_samples": 3221248, "global_step/max_steps": "12583/12700"}
{"lm loss": 2.03668523, "grad_norm": 0.31996059, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.92993569, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 47s", "remaining_time": "9m 27s", "loss_scale": 1.0, "consumed_samples": 3221504, "global_step/max_steps": "12584/12700"}
{"lm loss": 2.03466177, "grad_norm": 0.29784712, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.89905906, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 52s", "remaining_time": "9m 23s", "loss_scale": 1.0, "consumed_samples": 3221760, "global_step/max_steps": "12585/12700"}
{"lm loss": 2.03128552, "grad_norm": 0.34031609, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.93419027, "memory(GiB)": 28.98, "elapsed_time": "17h 6m 57s", "remaining_time": "9m 18s", "loss_scale": 1.0, "consumed_samples": 3222016, "global_step/max_steps": "12586/12700"}
{"lm loss": 2.04963017, "grad_norm": 0.32569674, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.82964826, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 2s", "remaining_time": "9m 13s", "loss_scale": 1.0, "consumed_samples": 3222272, "global_step/max_steps": "12587/12700"}
{"lm loss": 2.00945926, "grad_norm": 0.30162314, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.92957449, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 7s", "remaining_time": "9m 8s", "loss_scale": 1.0, "consumed_samples": 3222528, "global_step/max_steps": "12588/12700"}
{"lm loss": 2.03121638, "grad_norm": 0.30957237, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.74364328, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 11s", "remaining_time": "9m 3s", "loss_scale": 1.0, "consumed_samples": 3222784, "global_step/max_steps": "12589/12700"}
{"lm loss": 2.0136621, "grad_norm": 0.31260362, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.86269569, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 16s", "remaining_time": "8m 58s", "loss_scale": 1.0, "consumed_samples": 3223040, "global_step/max_steps": "12590/12700"}
{"lm loss": 2.03427958, "grad_norm": 0.30487451, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.75630689, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 21s", "remaining_time": "8m 53s", "loss_scale": 1.0, "consumed_samples": 3223296, "global_step/max_steps": "12591/12700"}
{"lm loss": 1.99402905, "grad_norm": 0.29751304, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.80934286, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 26s", "remaining_time": "8m 48s", "loss_scale": 1.0, "consumed_samples": 3223552, "global_step/max_steps": "12592/12700"}
{"lm loss": 2.06051135, "grad_norm": 0.329299, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.82030869, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 31s", "remaining_time": "8m 43s", "loss_scale": 1.0, "consumed_samples": 3223808, "global_step/max_steps": "12593/12700"}
{"lm loss": 2.06352496, "grad_norm": 0.31130645, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.83634758, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 35s", "remaining_time": "8m 38s", "loss_scale": 1.0, "consumed_samples": 3224064, "global_step/max_steps": "12594/12700"}
{"lm loss": 1.99067545, "grad_norm": 0.30186769, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.89054966, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 40s", "remaining_time": "8m 34s", "loss_scale": 1.0, "consumed_samples": 3224320, "global_step/max_steps": "12595/12700"}
{"lm loss": 2.01290321, "grad_norm": 0.30428869, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.82768917, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 45s", "remaining_time": "8m 29s", "loss_scale": 1.0, "consumed_samples": 3224576, "global_step/max_steps": "12596/12700"}
{"lm loss": 2.07109475, "grad_norm": 0.30003351, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.79861856, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 50s", "remaining_time": "8m 24s", "loss_scale": 1.0, "consumed_samples": 3224832, "global_step/max_steps": "12597/12700"}
{"lm loss": 2.02447295, "grad_norm": 0.30563557, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.77149963, "memory(GiB)": 28.98, "elapsed_time": "17h 7m 55s", "remaining_time": "8m 19s", "loss_scale": 1.0, "consumed_samples": 3225088, "global_step/max_steps": "12598/12700"}
{"lm loss": 2.03325081, "grad_norm": 0.31078151, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.88973618, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 0s", "remaining_time": "8m 14s", "loss_scale": 1.0, "consumed_samples": 3225344, "global_step/max_steps": "12599/12700"}
{"lm loss": 2.02435136, "grad_norm": 0.30839604, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.8241477, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 4s", "remaining_time": "8m 9s", "loss_scale": 1.0, "consumed_samples": 3225600, "global_step/max_steps": "12600/12700"}
{"lm loss": 2.03711939, "grad_norm": 0.29989234, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.8044641, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 9s", "remaining_time": "8m 4s", "loss_scale": 1.0, "consumed_samples": 3225856, "global_step/max_steps": "12601/12700"}
{"lm loss": 2.02204537, "grad_norm": 0.29135224, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.89729953, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 14s", "remaining_time": "7m 59s", "loss_scale": 1.0, "consumed_samples": 3226112, "global_step/max_steps": "12602/12700"}
{"lm loss": 2.03431916, "grad_norm": 0.32773733, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.95737982, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 19s", "remaining_time": "7m 54s", "loss_scale": 1.0, "consumed_samples": 3226368, "global_step/max_steps": "12603/12700"}
{"lm loss": 2.00370479, "grad_norm": 0.3164427, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.87890935, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 24s", "remaining_time": "7m 49s", "loss_scale": 1.0, "consumed_samples": 3226624, "global_step/max_steps": "12604/12700"}
{"lm loss": 2.0496223, "grad_norm": 0.29827118, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.86003208, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 29s", "remaining_time": "7m 45s", "loss_scale": 1.0, "consumed_samples": 3226880, "global_step/max_steps": "12605/12700"}
{"lm loss": 2.00529099, "grad_norm": 0.30069137, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.91270185, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 34s", "remaining_time": "7m 40s", "loss_scale": 1.0, "consumed_samples": 3227136, "global_step/max_steps": "12606/12700"}
{"lm loss": 2.01825595, "grad_norm": 0.30679542, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.93275213, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 39s", "remaining_time": "7m 35s", "loss_scale": 1.0, "consumed_samples": 3227392, "global_step/max_steps": "12607/12700"}
{"lm loss": 2.02385592, "grad_norm": 0.32201606, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.82140112, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 43s", "remaining_time": "7m 30s", "loss_scale": 1.0, "consumed_samples": 3227648, "global_step/max_steps": "12608/12700"}
{"lm loss": 2.02646589, "grad_norm": 0.31139833, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.91885209, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 48s", "remaining_time": "7m 25s", "loss_scale": 1.0, "consumed_samples": 3227904, "global_step/max_steps": "12609/12700"}
{"lm loss": 2.04033494, "grad_norm": 0.29725805, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.93544531, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 53s", "remaining_time": "7m 20s", "loss_scale": 1.0, "consumed_samples": 3228160, "global_step/max_steps": "12610/12700"}
{"lm loss": 2.07067227, "grad_norm": 0.3135567, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.87693048, "memory(GiB)": 28.98, "elapsed_time": "17h 8m 58s", "remaining_time": "7m 15s", "loss_scale": 1.0, "consumed_samples": 3228416, "global_step/max_steps": "12611/12700"}
{"lm loss": 2.02621245, "grad_norm": 0.30203927, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.86569858, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 3s", "remaining_time": "7m 10s", "loss_scale": 1.0, "consumed_samples": 3228672, "global_step/max_steps": "12612/12700"}
{"lm loss": 2.03100944, "grad_norm": 0.3141093, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.95692539, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 8s", "remaining_time": "7m 5s", "loss_scale": 1.0, "consumed_samples": 3228928, "global_step/max_steps": "12613/12700"}
{"lm loss": 2.02687311, "grad_norm": 0.29243314, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.98338175, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 13s", "remaining_time": "7m 1s", "loss_scale": 1.0, "consumed_samples": 3229184, "global_step/max_steps": "12614/12700"}
{"lm loss": 2.02663064, "grad_norm": 0.30793059, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.9638083, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 18s", "remaining_time": "6m 56s", "loss_scale": 1.0, "consumed_samples": 3229440, "global_step/max_steps": "12615/12700"}
{"lm loss": 2.05763388, "grad_norm": 0.29481611, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.8545146, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 23s", "remaining_time": "6m 51s", "loss_scale": 1.0, "consumed_samples": 3229696, "global_step/max_steps": "12616/12700"}
{"lm loss": 2.01162839, "grad_norm": 0.29812866, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.81714892, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 28s", "remaining_time": "6m 46s", "loss_scale": 1.0, "consumed_samples": 3229952, "global_step/max_steps": "12617/12700"}
{"lm loss": 2.06367135, "grad_norm": 0.31193376, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.92698431, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 33s", "remaining_time": "6m 41s", "loss_scale": 1.0, "consumed_samples": 3230208, "global_step/max_steps": "12618/12700"}
{"lm loss": 2.04998326, "grad_norm": 0.30614546, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.84409666, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 37s", "remaining_time": "6m 36s", "loss_scale": 1.0, "consumed_samples": 3230464, "global_step/max_steps": "12619/12700"}
{"lm loss": 2.06319857, "grad_norm": 0.30581114, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 5.08372355, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 42s", "remaining_time": "6m 31s", "loss_scale": 1.0, "consumed_samples": 3230720, "global_step/max_steps": "12620/12700"}
{"lm loss": 2.03860736, "grad_norm": 0.31127855, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.92044544, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 47s", "remaining_time": "6m 26s", "loss_scale": 1.0, "consumed_samples": 3230976, "global_step/max_steps": "12621/12700"}
{"lm loss": 2.05081773, "grad_norm": 0.30923542, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.88367891, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 52s", "remaining_time": "6m 21s", "loss_scale": 1.0, "consumed_samples": 3231232, "global_step/max_steps": "12622/12700"}
{"lm loss": 2.02718687, "grad_norm": 0.30496442, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.95410228, "memory(GiB)": 28.98, "elapsed_time": "17h 9m 57s", "remaining_time": "6m 16s", "loss_scale": 1.0, "consumed_samples": 3231488, "global_step/max_steps": "12623/12700"}
{"lm loss": 2.07264185, "grad_norm": 0.30614918, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.87385845, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 2s", "remaining_time": "6m 12s", "loss_scale": 1.0, "consumed_samples": 3231744, "global_step/max_steps": "12624/12700"}
{"lm loss": 1.98340988, "grad_norm": 0.30598229, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.90148306, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 7s", "remaining_time": "6m 7s", "loss_scale": 1.0, "consumed_samples": 3232000, "global_step/max_steps": "12625/12700"}
{"lm loss": 2.04425359, "grad_norm": 0.32328972, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.88925958, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 12s", "remaining_time": "6m 2s", "loss_scale": 1.0, "consumed_samples": 3232256, "global_step/max_steps": "12626/12700"}
{"lm loss": 2.01713777, "grad_norm": 0.3201668, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.84448242, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 17s", "remaining_time": "5m 57s", "loss_scale": 1.0, "consumed_samples": 3232512, "global_step/max_steps": "12627/12700"}
{"lm loss": 2.05758524, "grad_norm": 0.30843431, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.88666177, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 22s", "remaining_time": "5m 52s", "loss_scale": 1.0, "consumed_samples": 3232768, "global_step/max_steps": "12628/12700"}
{"lm loss": 2.03667736, "grad_norm": 0.31319508, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.85576415, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 26s", "remaining_time": "5m 47s", "loss_scale": 1.0, "consumed_samples": 3233024, "global_step/max_steps": "12629/12700"}
{"lm loss": 2.03619766, "grad_norm": 0.30240944, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.92889833, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 31s", "remaining_time": "5m 42s", "loss_scale": 1.0, "consumed_samples": 3233280, "global_step/max_steps": "12630/12700"}
{"lm loss": 2.02122426, "grad_norm": 0.30916062, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.88813615, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 36s", "remaining_time": "5m 37s", "loss_scale": 1.0, "consumed_samples": 3233536, "global_step/max_steps": "12631/12700"}
{"lm loss": 2.01815224, "grad_norm": 0.32605642, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.84986472, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 41s", "remaining_time": "5m 32s", "loss_scale": 1.0, "consumed_samples": 3233792, "global_step/max_steps": "12632/12700"}
{"lm loss": 2.03936338, "grad_norm": 0.31550688, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.86604643, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 46s", "remaining_time": "5m 28s", "loss_scale": 1.0, "consumed_samples": 3234048, "global_step/max_steps": "12633/12700"}
{"lm loss": 2.05439711, "grad_norm": 0.30253091, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.90063787, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 51s", "remaining_time": "5m 23s", "loss_scale": 1.0, "consumed_samples": 3234304, "global_step/max_steps": "12634/12700"}
{"lm loss": 2.06994224, "grad_norm": 0.31316188, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.84534454, "memory(GiB)": 28.98, "elapsed_time": "17h 10m 56s", "remaining_time": "5m 18s", "loss_scale": 1.0, "consumed_samples": 3234560, "global_step/max_steps": "12635/12700"}
{"lm loss": 2.04891014, "grad_norm": 0.30485579, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.83116794, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 1s", "remaining_time": "5m 13s", "loss_scale": 1.0, "consumed_samples": 3234816, "global_step/max_steps": "12636/12700"}
{"lm loss": 2.02027607, "grad_norm": 0.31101584, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.82051039, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 5s", "remaining_time": "5m 8s", "loss_scale": 1.0, "consumed_samples": 3235072, "global_step/max_steps": "12637/12700"}
{"lm loss": 2.03017831, "grad_norm": 0.30486631, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.81561565, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 10s", "remaining_time": "5m 3s", "loss_scale": 1.0, "consumed_samples": 3235328, "global_step/max_steps": "12638/12700"}
{"lm loss": 2.04250932, "grad_norm": 0.30066067, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.86272693, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 15s", "remaining_time": "4m 58s", "loss_scale": 1.0, "consumed_samples": 3235584, "global_step/max_steps": "12639/12700"}
{"lm loss": 2.04018641, "grad_norm": 0.30564535, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.83363533, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 20s", "remaining_time": "4m 53s", "loss_scale": 1.0, "consumed_samples": 3235840, "global_step/max_steps": "12640/12700"}
{"lm loss": 2.05690455, "grad_norm": 0.31029278, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.92435861, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 25s", "remaining_time": "4m 48s", "loss_scale": 1.0, "consumed_samples": 3236096, "global_step/max_steps": "12641/12700"}
{"lm loss": 2.01477122, "grad_norm": 0.30904797, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.89760351, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 30s", "remaining_time": "4m 43s", "loss_scale": 1.0, "consumed_samples": 3236352, "global_step/max_steps": "12642/12700"}
{"lm loss": 2.04197788, "grad_norm": 0.31056803, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.88646531, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 35s", "remaining_time": "4m 39s", "loss_scale": 1.0, "consumed_samples": 3236608, "global_step/max_steps": "12643/12700"}
{"lm loss": 2.04868436, "grad_norm": 0.31291878, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.85207725, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 39s", "remaining_time": "4m 34s", "loss_scale": 1.0, "consumed_samples": 3236864, "global_step/max_steps": "12644/12700"}
{"lm loss": 2.06185937, "grad_norm": 0.31936899, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.79971743, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 44s", "remaining_time": "4m 29s", "loss_scale": 1.0, "consumed_samples": 3237120, "global_step/max_steps": "12645/12700"}
{"lm loss": 2.05508804, "grad_norm": 0.32346791, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.84366894, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 49s", "remaining_time": "4m 24s", "loss_scale": 1.0, "consumed_samples": 3237376, "global_step/max_steps": "12646/12700"}
{"lm loss": 1.99651265, "grad_norm": 0.29931343, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.86392188, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 54s", "remaining_time": "4m 19s", "loss_scale": 1.0, "consumed_samples": 3237632, "global_step/max_steps": "12647/12700"}
{"lm loss": 2.01403356, "grad_norm": 0.29859197, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.95960069, "memory(GiB)": 28.98, "elapsed_time": "17h 11m 59s", "remaining_time": "4m 14s", "loss_scale": 1.0, "consumed_samples": 3237888, "global_step/max_steps": "12648/12700"}
{"lm loss": 2.01430821, "grad_norm": 0.29240394, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.87407994, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 4s", "remaining_time": "4m 9s", "loss_scale": 1.0, "consumed_samples": 3238144, "global_step/max_steps": "12649/12700"}
{"lm loss": 2.05407906, "grad_norm": 0.31628996, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.90065885, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 9s", "remaining_time": "4m 4s", "loss_scale": 1.0, "consumed_samples": 3238400, "global_step/max_steps": "12650/12700"}
{"lm loss": 2.01795387, "grad_norm": 0.29468381, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.84445214, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 14s", "remaining_time": "3m 59s", "loss_scale": 1.0, "consumed_samples": 3238656, "global_step/max_steps": "12651/12700"}
{"lm loss": 2.03525472, "grad_norm": 0.31433174, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.95605397, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 19s", "remaining_time": "3m 54s", "loss_scale": 1.0, "consumed_samples": 3238912, "global_step/max_steps": "12652/12700"}
{"lm loss": 2.01947808, "grad_norm": 0.31352168, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.93534994, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 23s", "remaining_time": "3m 50s", "loss_scale": 1.0, "consumed_samples": 3239168, "global_step/max_steps": "12653/12700"}
{"lm loss": 2.01729369, "grad_norm": 0.31715366, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.86356401, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 28s", "remaining_time": "3m 45s", "loss_scale": 1.0, "consumed_samples": 3239424, "global_step/max_steps": "12654/12700"}
{"lm loss": 2.02146125, "grad_norm": 0.31311536, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.92412686, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 33s", "remaining_time": "3m 40s", "loss_scale": 1.0, "consumed_samples": 3239680, "global_step/max_steps": "12655/12700"}
{"lm loss": 2.05395198, "grad_norm": 0.3043794, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.81926823, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 38s", "remaining_time": "3m 35s", "loss_scale": 1.0, "consumed_samples": 3239936, "global_step/max_steps": "12656/12700"}
{"lm loss": 2.05901599, "grad_norm": 0.32231671, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.90975642, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 43s", "remaining_time": "3m 30s", "loss_scale": 1.0, "consumed_samples": 3240192, "global_step/max_steps": "12657/12700"}
{"lm loss": 2.00110316, "grad_norm": 0.30924642, "learning_rate": 3e-06, "elapsed_time_per_iteration": 5.01296306, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 48s", "remaining_time": "3m 25s", "loss_scale": 1.0, "consumed_samples": 3240448, "global_step/max_steps": "12658/12700"}
{"lm loss": 2.03788781, "grad_norm": 0.31639859, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.79228711, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 53s", "remaining_time": "3m 20s", "loss_scale": 1.0, "consumed_samples": 3240704, "global_step/max_steps": "12659/12700"}
{"lm loss": 2.00301194, "grad_norm": 0.31830299, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.87935209, "memory(GiB)": 28.98, "elapsed_time": "17h 12m 58s", "remaining_time": "3m 15s", "loss_scale": 1.0, "consumed_samples": 3240960, "global_step/max_steps": "12660/12700"}
{"lm loss": 1.99099052, "grad_norm": 0.30914992, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.9339416, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 3s", "remaining_time": "3m 10s", "loss_scale": 1.0, "consumed_samples": 3241216, "global_step/max_steps": "12661/12700"}
{"lm loss": 2.00509667, "grad_norm": 0.30137166, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.96844721, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 8s", "remaining_time": "3m 6s", "loss_scale": 1.0, "consumed_samples": 3241472, "global_step/max_steps": "12662/12700"}
{"lm loss": 2.00387287, "grad_norm": 0.30399588, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.86569548, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 12s", "remaining_time": "3m 1s", "loss_scale": 1.0, "consumed_samples": 3241728, "global_step/max_steps": "12663/12700"}
{"lm loss": 2.02386975, "grad_norm": 0.30048704, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.81442094, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 17s", "remaining_time": "2m 56s", "loss_scale": 1.0, "consumed_samples": 3241984, "global_step/max_steps": "12664/12700"}
{"lm loss": 2.04047155, "grad_norm": 0.3109414, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.79666924, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 22s", "remaining_time": "2m 51s", "loss_scale": 1.0, "consumed_samples": 3242240, "global_step/max_steps": "12665/12700"}
{"lm loss": 2.04003572, "grad_norm": 0.30987799, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.94503379, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 27s", "remaining_time": "2m 46s", "loss_scale": 1.0, "consumed_samples": 3242496, "global_step/max_steps": "12666/12700"}
{"lm loss": 2.0419395, "grad_norm": 0.29960862, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.83305073, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 32s", "remaining_time": "2m 41s", "loss_scale": 1.0, "consumed_samples": 3242752, "global_step/max_steps": "12667/12700"}
{"lm loss": 2.01535249, "grad_norm": 0.31218627, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.79916382, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 37s", "remaining_time": "2m 36s", "loss_scale": 1.0, "consumed_samples": 3243008, "global_step/max_steps": "12668/12700"}
{"lm loss": 2.04117942, "grad_norm": 0.29991308, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.93374228, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 42s", "remaining_time": "2m 31s", "loss_scale": 1.0, "consumed_samples": 3243264, "global_step/max_steps": "12669/12700"}
{"lm loss": 2.03883052, "grad_norm": 0.31800365, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.8601656, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 46s", "remaining_time": "2m 26s", "loss_scale": 1.0, "consumed_samples": 3243520, "global_step/max_steps": "12670/12700"}
{"lm loss": 2.03072071, "grad_norm": 0.30531031, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.97542524, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 51s", "remaining_time": "2m 21s", "loss_scale": 1.0, "consumed_samples": 3243776, "global_step/max_steps": "12671/12700"}
{"lm loss": 2.03948641, "grad_norm": 0.3172732, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.88507152, "memory(GiB)": 28.98, "elapsed_time": "17h 13m 56s", "remaining_time": "2m 17s", "loss_scale": 1.0, "consumed_samples": 3244032, "global_step/max_steps": "12672/12700"}
{"lm loss": 2.00400114, "grad_norm": 0.29848972, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.9837184, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 1s", "remaining_time": "2m 12s", "loss_scale": 1.0, "consumed_samples": 3244288, "global_step/max_steps": "12673/12700"}
{"lm loss": 2.00087261, "grad_norm": 0.31133175, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.96434617, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 6s", "remaining_time": "2m 7s", "loss_scale": 1.0, "consumed_samples": 3244544, "global_step/max_steps": "12674/12700"}
{"lm loss": 2.032408, "grad_norm": 0.30307949, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.83534122, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 11s", "remaining_time": "2m 2s", "loss_scale": 1.0, "consumed_samples": 3244800, "global_step/max_steps": "12675/12700"}
{"lm loss": 2.05095553, "grad_norm": 0.30158961, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.80706716, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 16s", "remaining_time": "1m 57s", "loss_scale": 1.0, "consumed_samples": 3245056, "global_step/max_steps": "12676/12700"}
{"lm loss": 2.04624557, "grad_norm": 0.30792013, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.86101961, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 21s", "remaining_time": "1m 52s", "loss_scale": 1.0, "consumed_samples": 3245312, "global_step/max_steps": "12677/12700"}
{"lm loss": 2.05317569, "grad_norm": 0.30169943, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.84066749, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 26s", "remaining_time": "1m 47s", "loss_scale": 1.0, "consumed_samples": 3245568, "global_step/max_steps": "12678/12700"}
{"lm loss": 1.9955281, "grad_norm": 0.29636422, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.93211079, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 30s", "remaining_time": "1m 42s", "loss_scale": 1.0, "consumed_samples": 3245824, "global_step/max_steps": "12679/12700"}
{"lm loss": 2.03794408, "grad_norm": 0.30279729, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.99799609, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 35s", "remaining_time": "1m 37s", "loss_scale": 1.0, "consumed_samples": 3246080, "global_step/max_steps": "12680/12700"}
{"lm loss": 2.06362104, "grad_norm": 0.31694347, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.88882828, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 40s", "remaining_time": "1m 33s", "loss_scale": 1.0, "consumed_samples": 3246336, "global_step/max_steps": "12681/12700"}
{"lm loss": 2.02763581, "grad_norm": 0.3143321, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.93971062, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 45s", "remaining_time": "1m 28s", "loss_scale": 1.0, "consumed_samples": 3246592, "global_step/max_steps": "12682/12700"}
{"lm loss": 2.03484464, "grad_norm": 0.30388176, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.88786721, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 50s", "remaining_time": "1m 23s", "loss_scale": 1.0, "consumed_samples": 3246848, "global_step/max_steps": "12683/12700"}
{"lm loss": 2.07403851, "grad_norm": 0.31010193, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.85916185, "memory(GiB)": 28.98, "elapsed_time": "17h 14m 55s", "remaining_time": "1m 18s", "loss_scale": 1.0, "consumed_samples": 3247104, "global_step/max_steps": "12684/12700"}
{"lm loss": 2.02811909, "grad_norm": 0.31852707, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.84768271, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 0s", "remaining_time": "1m 13s", "loss_scale": 1.0, "consumed_samples": 3247360, "global_step/max_steps": "12685/12700"}
{"lm loss": 2.04923105, "grad_norm": 0.29735744, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.84480476, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 5s", "remaining_time": "1m 8s", "loss_scale": 1.0, "consumed_samples": 3247616, "global_step/max_steps": "12686/12700"}
{"lm loss": 2.00390983, "grad_norm": 0.34450802, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.88790464, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 10s", "remaining_time": "1m 3s", "loss_scale": 1.0, "consumed_samples": 3247872, "global_step/max_steps": "12687/12700"}
{"lm loss": 2.05244136, "grad_norm": 0.29852003, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.83903503, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 14s", "remaining_time": "58s", "loss_scale": 1.0, "consumed_samples": 3248128, "global_step/max_steps": "12688/12700"}
{"lm loss": 2.00059557, "grad_norm": 0.31246632, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.86874151, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 19s", "remaining_time": "53s", "loss_scale": 1.0, "consumed_samples": 3248384, "global_step/max_steps": "12689/12700"}
{"lm loss": 2.03976631, "grad_norm": 0.29024956, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.76992154, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 24s", "remaining_time": "48s", "loss_scale": 1.0, "consumed_samples": 3248640, "global_step/max_steps": "12690/12700"}
{"lm loss": 2.0462501, "grad_norm": 0.3166281, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.9866724, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 29s", "remaining_time": "44s", "loss_scale": 1.0, "consumed_samples": 3248896, "global_step/max_steps": "12691/12700"}
{"lm loss": 2.04175758, "grad_norm": 0.32590684, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.92787504, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 34s", "remaining_time": "39s", "loss_scale": 1.0, "consumed_samples": 3249152, "global_step/max_steps": "12692/12700"}
{"lm loss": 2.03128624, "grad_norm": 0.30370048, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.91627455, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 39s", "remaining_time": "34s", "loss_scale": 1.0, "consumed_samples": 3249408, "global_step/max_steps": "12693/12700"}
{"lm loss": 2.01795506, "grad_norm": 0.28315315, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.80971646, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 44s", "remaining_time": "29s", "loss_scale": 1.0, "consumed_samples": 3249664, "global_step/max_steps": "12694/12700"}
{"lm loss": 2.05102372, "grad_norm": 0.30364725, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.79328322, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 49s", "remaining_time": "24s", "loss_scale": 1.0, "consumed_samples": 3249920, "global_step/max_steps": "12695/12700"}
{"lm loss": 2.04301643, "grad_norm": 0.29025272, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.95786405, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 54s", "remaining_time": "19s", "loss_scale": 1.0, "consumed_samples": 3250176, "global_step/max_steps": "12696/12700"}
{"lm loss": 2.0436554, "grad_norm": 0.32461825, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.78279233, "memory(GiB)": 28.98, "elapsed_time": "17h 15m 58s", "remaining_time": "14s", "loss_scale": 1.0, "consumed_samples": 3250432, "global_step/max_steps": "12697/12700"}
{"lm loss": 2.02123761, "grad_norm": 0.30941352, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.90185356, "memory(GiB)": 28.98, "elapsed_time": "17h 16m 3s", "remaining_time": "9s", "loss_scale": 1.0, "consumed_samples": 3250688, "global_step/max_steps": "12698/12700"}
{"lm loss": 2.01610184, "grad_norm": 0.35453057, "learning_rate": 3e-06, "elapsed_time_per_iteration": 5.20965266, "memory(GiB)": 28.98, "elapsed_time": "17h 16m 8s", "remaining_time": "4s", "loss_scale": 1.0, "consumed_samples": 3250944, "global_step/max_steps": "12699/12700"}
{"lm loss": 2.0091269, "grad_norm": 0.3082768, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.91255093, "memory(GiB)": 28.98, "elapsed_time": "17h 16m 13s", "remaining_time": "0s", "loss_scale": 1.0, "consumed_samples": 3251200, "global_step/max_steps": "12700/12700"}